Яндекс накосячил с соблюдением стандарта файла robots.txt - Форум об интернет-маркетинге
Этот сайт существует на доходы от рекламы.
Пожалуйста, выключите AdBlock.
Вернуться   Форум об интернет-маркетинге > >
Ответ
 
Опции темы
Старый 01.07.2005, 08:44   #1
Super Moderator
 
Аватар для wolf
 
Регистрация: 13.03.2001
Адрес: Тула, Россия
Сообщений: 23,364
Репутация: 1468796
Социальные сети

По умолчанию Яндекс накосячил с соблюдением стандарта файла robots.txt

Видим в помощи Яндекса http://www.yandex.ru/info/webmaster2.html такой текст:
Цитата:
Таким образом, файлы robots.txt вида

User-Agent: *
Host: www.myhost.ru


и
User-Agent: *
Host: www.myhost.ru:80


эквивалентны и запрещают индексирование как www.otherhost.ru, так и www.myhost.ru:8080.
Однако, в стандарте файла robots.txt http://www.robotstxt.org/wc/norobots.html сказано:
Цитата:
At least one Disallow field needs to be present in a record
Т.е. запись без директивы Disallow некорректна и должна игнорироваться и, следовательно, запись

User-Agent: *
Host: www.myhost.ru

ничего не должна запрещать.

На днях столнулись с любопытным случаем. На сайте файл robots.txt имел вид:

User-Agent: *
Host: www.site.ru

Похоже, разные программы в Яндексе интерпретируют такой некорректный robots.txt по-разному. Так, например, сервис Яндекса по проверке robots.txt http://www.yandex.ru/cgi-bin/test-robots считает, что файл корректный и запрещает к индексации все зеркала, кроме www.site.ru

Робот-зеркальщик, считает, видимо, по-другому (разные люди писали?) и главным назначил второстепенное зеркало www.othersite.ru, о чем и говорится при попытке добавить в индекс домен www.site.ru через форму http://webmaster.yandex.ru/

Индексатор, видимо, как и сервис Яндекса по проверке robots.txt, считает, что файл корректный и выкинул сайт www.othersite.ru из индекса, а добавить www.site.ru нельзя, т.к. он считается второстепенным зеркалом сайта www.othersite.ru

Вот такой бардачок получился. robots.txt на фиг снесли. Ждём.

Последний раз редактировалось wolf; 01.07.2005 в 09:18..
wolf вне форума   Ответить с цитированием

Реклама
Старый 01.07.2005, 09:33   #2
Bomass
Академик
 
Регистрация: 07.10.2004
Адрес: Тула
Сообщений: 2,149
Репутация: 14014
Отправить сообщение для Bomass с помощью ICQ

По умолчанию

wolf, может, проще все-таки добавить
Disallow:
?

А вообще, бардак, конечно.
__________________
Бородин Антон. 411-22-05, icq 199228260, bomass [at] ya.ru
Домен .ru за 6,3$
Bomass вне форума   Ответить с цитированием
Старый 01.07.2005, 09:35   #3
help-kenny
Зарегистрированный
 
Регистрация: 29.06.2005
Сообщений: 32
Репутация: 12

По умолчанию

У меня похожая проблема. Два разных сайта показывались без www.
Решили переделать их что бы в выдаче показывались с www
Сделали robotsы.

НА один сайт положили
User-Agent: *
Host: www.site1.ru

на второй
User-Agent: *
Disallow:
Host: www.site2.ru

через месяц оба сайта пропали из яндекса
написали в addurl@yandex-team.ru
нам ответили что оба варианта верны и надо ждать когда эти сайты отзеркалируются
help-kenny вне форума   Ответить с цитированием
Старый 01.07.2005, 09:38   #4
wolf
Super Moderator
 
Аватар для wolf
 
Регистрация: 13.03.2001
Адрес: Тула, Россия
Сообщений: 23,364
Репутация: 1468796
Социальные сети

ТопикСтартер

Цитата:
wolf, может, проще все-таки добавить
Disallow:
?
Может.
Но обжегшись на молоке, дуешь на воду.
wolf вне форума   Ответить с цитированием
Старый 01.07.2005, 09:40   #5
Анар
Академик
 
Регистрация: 14.11.2003
Адрес: Москва
Сообщений: 1,520
Репутация: 61944
Социальные сети Профиль в ВКонтакте

По умолчанию

Цитата:
Сообщение от help-kenny
нам ответили что оба варианта верны и надо ждать когда эти сайты отзеркалируются
Я тоже считаю, что оба варианта верны. Disallow переводится как "запрещать, не позволять". Если я все позволяю роботу, зачем прописывать эту лишнюю директиву?;-)
Анар вне форума   Ответить с цитированием
Старый 01.07.2005, 09:42   #6
wolf
Super Moderator
 
Аватар для wolf
 
Регистрация: 13.03.2001
Адрес: Тула, Россия
Сообщений: 23,364
Репутация: 1468796
Социальные сети

ТопикСтартер

Цитата:
Я тоже считаю, что оба варианта верны.
Но стандарт, тем не менее, считает по-другому. Раз он есть, его надо соблюдать, а иначе, каждый будет считать по-своему и будет бардак
wolf вне форума   Ответить с цитированием
Старый 01.07.2005, 10:22   #7
Евген
Super Moderator
 
Аватар для Евген
 
Регистрация: 28.02.2004
Адрес: spb.ru
Сообщений: 20,599
Репутация: 2065955

По умолчанию

Цитата:
User-Agent: *
Host: www.myhost.ru
у меня всегда срабатывал.
Евген вне форума   Ответить с цитированием
Старый 01.07.2005, 10:24   #8
wolf
Super Moderator
 
Аватар для wolf
 
Регистрация: 13.03.2001
Адрес: Тула, Россия
Сообщений: 23,364
Репутация: 1468796
Социальные сети

ТопикСтартер

Цитата:
у меня всегда срабатывал.
Аналогично. Но вот случилась первая осечка.
wolf вне форума   Ответить с цитированием
Старый 01.07.2005, 11:09   #9
Cherny
Профессор
 
Регистрация: 19.09.2001
Адрес: Киев, Украина
Сообщений: 904
Репутация: 1659
Социальные сети

По умолчанию

Использование секции для всех роботов, которая User-agent: *, в сочетании со всевозможными расширениями от разных поисковых систем, вроде Host: от Яндекса или Crawl-delay: от Yahoo, может приводить к непредсказуемым результатам.
Известно ведь, что Googlebot полагает секцию с директивой Host: неправильно оформленной и игнорирует ее.

P.S. А раздел помощи на Яндексе давно нуждается в ревизии, ИМХО.
__________________
С уважением, Владимир Чернышов.
(не)?путевые заметки
Cherny вне форума   Ответить с цитированием
Старый 01.07.2005, 11:25   #10
sealord
Профессор
 
Аватар для sealord
 
Регистрация: 03.10.2003
Адрес: Прага
Сообщений: 556
Репутация: 17869
Отправить сообщение для sealord с помощью Skype™

По умолчанию

Цитата:
Робот-зеркальщик, считает, видимо, по-другому (разные люди писали?) и главным назначил второстепенное зеркало www.othersite.ru, о чем и говорится при попытке добавить в индекс домен www.site.ru через форму http://webmaster.yandex.ru/
Индексатор, видимо, как и сервис Яндекса по проверке robots.txt, считает, что файл корректный и выкинул сайт www.othersite.ru из индекса, а добавить www.site.ru нельзя, т.к. он считается второстепенным зеркалом сайта www.othersite.ru
У меня такая фигня с пол года назад случилась, из-за того что в индексе было зеркало, а потом на нем полностью поменялся контент.
Пробовал разные варианты роботса, но расклеилось только недавно и после того как и на сайт и на бывшее зеркало поставили:

User-agent: *
Host: www.site.ru
__________________
Ora et labora
sealord на форуме   Ответить с цитированием
Ответ




Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Текущее время: 11:38. Часовой пояс GMT +3.

Регистрация Справка Календарь Поддержка Все разделы прочитаны