Яндекс накосячил с соблюдением стандарта файла robots.txt

Сергей Людкевич
На сайте с 13.03.2001
Offline
Модератор1179
32168

Видим в помощи Яндекса http://www.yandex.ru/info/webmaster2.html такой текст:


Таким образом, файлы robots.txt вида

User-Agent: *
Host: www.myhost.ru


и
User-Agent: *
Host: www.myhost.ru:80


эквивалентны и запрещают индексирование как www.otherhost.ru, так и www.myhost.ru:8080.

Однако, в стандарте файла robots.txt http://www.robotstxt.org/wc/norobots.html сказано:


At least one Disallow field needs to be present in a record

Т.е. запись без директивы Disallow некорректна и должна игнорироваться и, следовательно, запись

User-Agent: *

Host: www.myhost.ru

ничего не должна запрещать.

На днях столнулись с любопытным случаем. На сайте файл robots.txt имел вид:

User-Agent: *

Host: www.site.ru

Похоже, разные программы в Яндексе интерпретируют такой некорректный robots.txt по-разному. Так, например, сервис Яндекса по проверке robots.txt http://www.yandex.ru/cgi-bin/test-robots считает, что файл корректный и запрещает к индексации все зеркала, кроме www.site.ru

Робот-зеркальщик, считает, видимо, по-другому (разные люди писали?) и главным назначил второстепенное зеркало www.othersite.ru, о чем и говорится при попытке добавить в индекс домен www.site.ru через форму http://webmaster.yandex.ru/

Индексатор, видимо, как и сервис Яндекса по проверке robots.txt, считает, что файл корректный и выкинул сайт www.othersite.ru из индекса, а добавить www.site.ru нельзя, т.к. он считается второстепенным зеркалом сайта www.othersite.ru

Вот такой бардачок получился. robots.txt на фиг снесли. Ждём.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
B
На сайте с 07.10.2004
Offline
114
#1

wolf, может, проще все-таки добавить

Disallow:

?

А вообще, бардак, конечно.

Бородин Антон. 411-22-05, icq 199228260, bomass [at] ya.ru Домен .ru за 6,3$ (http://webst.ru/?id=146)
HK
На сайте с 29.06.2005
Offline
4
#2

У меня похожая проблема. Два разных сайта показывались без www.

Решили переделать их что бы в выдаче показывались с www

Сделали robotsы.

НА один сайт положили

User-Agent: *

Host: www.site1.ru

на второй

User-Agent: *

Disallow:

Host: www.site2.ru

через месяц оба сайта пропали из яндекса

написали в addurl@yandex-team.ru

нам ответили что оба варианта верны и надо ждать когда эти сайты отзеркалируются :)

Сергей Людкевич
На сайте с 13.03.2001
Offline
Модератор1179
#3
wolf, может, проще все-таки добавить
Disallow:
?

Может.

Но обжегшись на молоке, дуешь на воду. :)

А
На сайте с 14.11.2003
Offline
150
#4
help-kenny:
нам ответили что оба варианта верны и надо ждать когда эти сайты отзеркалируются :)

Я тоже считаю, что оба варианта верны. Disallow переводится как "запрещать, не позволять". Если я все позволяю роботу, зачем прописывать эту лишнюю директиву?;-)

Сергей Людкевич
На сайте с 13.03.2001
Offline
Модератор1179
#5
Я тоже считаю, что оба варианта верны.

Но стандарт, тем не менее, считает по-другому. Раз он есть, его надо соблюдать, а иначе, каждый будет считать по-своему и будет бардак :)

Евген
На сайте с 28.02.2004
Offline
1027
#6
User-Agent: *
Host: www.myhost.ru

у меня всегда срабатывал.

Арбитражишь? подними РОИ на 10-20% - бонусы на пополнение рекламных сетей (тм, мт, твк, твс) (https://eprofit.me/ru/partner?olymp)
Сергей Людкевич
На сайте с 13.03.2001
Offline
Модератор1179
#7
у меня всегда срабатывал.

Аналогично. Но вот случилась первая осечка.

C
На сайте с 19.09.2001
Offline
120
#8

Использование секции для всех роботов, которая User-agent: *, в сочетании со всевозможными расширениями от разных поисковых систем, вроде Host: от Яндекса или Crawl-delay: от Yahoo, может приводить к непредсказуемым результатам.

Известно ведь, что Googlebot полагает секцию с директивой Host: неправильно оформленной и игнорирует ее.

P.S. А раздел помощи на Яндексе давно нуждается в ревизии, ИМХО.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
sealord
На сайте с 03.10.2003
Offline
128
#9
Робот-зеркальщик, считает, видимо, по-другому (разные люди писали?) и главным назначил второстепенное зеркало www.othersite.ru, о чем и говорится при попытке добавить в индекс домен www.site.ru через форму http://webmaster.yandex.ru/
Индексатор, видимо, как и сервис Яндекса по проверке robots.txt, считает, что файл корректный и выкинул сайт www.othersite.ru из индекса, а добавить www.site.ru нельзя, т.к. он считается второстепенным зеркалом сайта www.othersite.ru

У меня такая фигня с пол года назад случилась, из-за того что в индексе было зеркало, а потом на нем полностью поменялся контент.

Пробовал разные варианты роботса, но расклеилось только недавно и после того как и на сайт и на бывшее зеркало поставили:

User-agent: *

Host: www.site.ru

Ora et labora
RC
На сайте с 12.04.2005
Offline
18
#10

Прошу прощения, не сликом в тему, но... Не врублюсь вот во что:

Мой robots.txt:

User-Agent: *

Disallow: /index

Disallow: /all

Disallow: /userarea

Disallow: /cnstats

Disallow: /icc

Disallow: /rip

Disallow: /go.php

Disallow: /banner.php

User-Agent: Yandex

Disallow: /sp3

Disallow: /efir

User-Agent: Rambler

Disallow: /sp3

Disallow: /efir

При таком вот роботсе роботы Яндекса продолжают ходить по запрещенным для всех страницам.

В частности - есть у меня такой /icc_list.php, запись "Disallow: /icc" в блоке "для всех" игнорируется... Получается, что директива "User-Agent: Yandex" отменяет полностью то, что "для всех"...

В чем мой косяк? Или это не мой?... (к стати, сайт в "бане", но это на роботов, как выяснилось совсем не влияет...)

Больше я к realty.cd никакого отношения не имею. Компания разорилась, домен просрочен и регнут кем-то заново. Вот так вот.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий