- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
хех, а не проще ли пустой robots в директорию закинуть раз такие проблемы?
хех, а не проще ли пустой robots в директорию закинуть раз такие проблемы?
Тогда уж еще проще - вообще ничего никуда не запихивать.;)
Что за *****?!?!?!
robots.txt
Disallow: /cgi-bin
Disallow: about.html
Сегодня обнаруживаю, что яндекс проиндексировал about.html и выдает его при поиске! Пытаюсь удалить из индекса - пишет: страничка не может быть удалена, т.к. не запрещена в роботсе!
Ну скажите, я что - чего-то не знаю? Что-то сделал неправильно???
Страничка about.html была создана после запрета в роботс.тхт
Что за маразм?
В посте у тебя опечатка, наверное ты хотел сказать
Disallow: /about.html
Cам то я недавно начал заниматься с роботсами и проверяю их корректность по адресу (прошу не обзывать меня занудой ;) )
особенно бывает когда надо удалить много динамических страниц дорвеев и проконтролировать правильно ли меня понял яндекс.
Disallow: /about.html
Да, это я здесь очепятался. В роботсе этой ошибки нет. Стал вникать в проблему. Страничка выдавалась только в беклинках сайта статистики - на about.html стоит счетчик. По уникальному тексту Яндекс её не выдавал. Фокусы эти были пока шел расколбас с апдейтом. Сейчас её уже не выдает вообще никак.
wolf,
User-Agent: *
Host: www.myhost.ru
ничего не должна запрещать.
Яндекс реагирует так, как написано в help'е.
Разумеется, для робота, не использующего директиву Host, эта запись по любому ничего не запрещает. Поскольку про расширения в стандарте не написано, то данная трактовка файла robots.txt роботом Яндекса не нарушает стандарт.
Случаев неправильной интерпретации зеркальщиком содержимого robots.txt пока не было.
К сожалению, периодически выясняется, что http://webmaster.yandex.ru/ использует заметно устаревшую базу зеркал ;)
uacommerce,
Ваши проблемы не имеют отношения к robots.txt и зеркалам.
Slc,
Служба поддержки тоже иногда ошибается. Вариант с пустым Disallow идентичен варианту без него.
Вообще, не требуйте особенно много от службы поддержки, там ведь тоже люди.
Cherny,
Если Вы правы, то это печально, т.к. получается, что Google тоже потихоньку нарушает стандарт (Unrecognised headers are ignored.). Надеюсь, что это все-таки не совсем так.
Seliger,
http://cards.yandex.ru/robots.txt тоже люди писали.
Гуглю запрещает индексировать swf, Яндексу - нет (т.к. для Яндекса работает только *.swf без слэша, т.е.
Disallow: *.swf
).
Если Вы правы, то это печально, т.к. получается, что Google тоже потихоньку нарушает стандарт (Unrecognised headers are ignored.). Надеюсь, что это все-таки не совсем так.
Подтверждаю. Гугль игнорирует запись. В протоколе не написано, что есть headers. Зато там написано, что
The record starts with one or more User-agent lines, followed by one or more Disallow lines, as detailed below. Вы считаете что header используется как синоним line. В гугле считают, что header есть синоним record.
Поскольку запись явно не подразумевает наличия строчек отличных от User-agent и Disallow, то использование директивы Host: в сочетании с User-agent: * является более очевидным нарушением правил составления robots.txt, чем игнорирование любым поисковиком подобной записи - нарушением протокола :)
Разумеется, для робота, не использующего директиву Host, эта запись по любому ничего не запрещает. Поскольку про расширения в стандарте не написано, то данная трактовка файла robots.txt роботом Яндекса не нарушает стандарт.
Трактовка-то может и не нарушает, а вот запись нарушает как приведённую мной цитату, так и цитату приведённую Сергеем:
At least one Disallow field needs to be present in a record.
Т.е. любителем пропускать строку Disallow дважды указали на неправомочность их действий :)
AiK, с Гуглом меня беспокоит случай, когда есть и Disallow, и Host.
Что касается секции без Disallow, но с Host, хорошо, согласен, она неправильная :). Но, как я уже писал, никаких проблем от нее возникнуть не может.
Ах, вот где собака зарыта. :)
Ребят, ну не помогаете - ладно, понимаем, но так хотя б не мешали бы. :D
melkov, чтобы не беспокоило :), нужно создавать для робота Яндекса отдельную запись. Я об этом писал ещё когда Вы своё расширение протокола на обсуждение выкладывали. IMHO, было бы для всех лучше, если бы Вы в своих инструкциях не советовали ставить Host: для User-Agent:*.