А как поисковики обрабатывают 302 на запрос robots.txt ?

D
На сайте с 05.03.2002
Offline
1
1405

"Не было у бабки печали, купила бабка порося."

Так вот, сделал я недавно на своем сайте пресловутый robots.txt, дабы яндекс основным миррором выбирал то что нужно мне а не то что хочется ему...

Но вскоре после этого куда-то пропал народ с рамблера! Из топа идут, а с поисковика тоооненький ручеек. Стал разбираться и наткнулся вот на что.

В апаче стоит редирект с www.domain.net/page на domain.net/page для всех страниц сайта (ну вот так хочется) и robots.txt не исключение. И вот получается хто rambler наткнувшись на код 302 не следует по редиректу, а обижается и отваливает на несколько часов. Потом снова приходит и снова обламывается... И так вот уже несколько недель.

Ну и естественно ничего не индексируется.

На остальных роботов это (вроде как) не распространяется, хотя внимательно этот вопрос я пока не изучал.

Ну и вопросы -

- это действительно так?

- это так и должно быть?

- неужели никто раньше не наступал на это?

Пока что я поправил конфиг апача так чтобы robots.txt отдавался всегда, жду теперь пока рамблер вернется... :-)

./denisd&

AiK
На сайте с 27.10.2000
Offline
257
AiK
#1

это так и должно быть?

Вообще-то да. robots.txt должен находится по тому же адресу, что и

индексируемые страницы. www.domain.net/ и doman.net/ два _разных_ адреса и

файлы robots.txt могут быть разными.

Далее - роботы, собирающие информацию довольно примитивны.

Обрабатывать или нет редиректы - сугубо добровольное дело каждого робота.

И напоследок: в апаче не так уж и сложно настроить редирект на нужный файл

без смены url этого файла.

D
На сайте с 05.03.2002
Offline
1
#2

Это все понятно... Удивила логика рамблера.

1. Правильнее (наверное) было бы сходить по редиректу и взять то, что там предлагают. Яндекс ходит.

2. Если получаешь 302 в лоб, а что с ним делать не знаешь - проигнорируй. Ведь по-умолчанию разрешено все что не запрещено... А 302 ничего не запрещает.

3. Ну и уж тупо ломиться а одним и тем же robots.txt две недели подряд как-то вообще неприлично. :-)

Хотя, конечно же, вызвано все это моей ошибкой, вернее недостаточным продумыванией последствий моих действий. О. :-)

M
На сайте с 25.01.2001
Offline
57
#3

deniss

Яндекс вроде бы не ходит по редиректам с robots.txt. Не совсем понятно, зачем это делать? Более того, это, вроде бы, идеологически неверно.

http://www.robotstxt.org/wc/norobots.html :

The method used to exclude robots from a server is to create a file on the server which specifies an access policy for robots. This file must be accessible via HTTP on the local URL "/robots.txt".

Далее, а зачем вообще запрещать /robots.txt сайт, с которого идет полный редирект? Совершенно логично, что такие сайты не выбираются главным зеркалом по той же причине, что и запрещенные /robots.txt: они не могут быть проиндексированы.

D
На сайте с 05.03.2002
Offline
1
#4

Как ни странно, но похоже на то что Яндекс ходит.

Сейчас меня это тоже удивляет, но тем не менее это факт.

Я, похоже всех тут запутал относительно того что и зачем я пытался сделать... Сейчас поясню немного на реальном примере.

Есть сайт http://kuking.net у которого кучка алиасов (kuking.ru, recipes.spb.ru и т.п.), редирект с остальных доменов на главный. Затем у нас появился новый домен taste.ru (под другой проект, но пока и его сделали миррором). Так вот лапочка яндекс его проиндексил и... неожиданно назначил главным миррором, что неправильно с идеологической точки зрения (brand-то kuking.net).

После раздумий, чесаний репы, rtfm'a и разговора с яндексоидами сделали robots.txt в котором сказано что индексить можно только kuking.net а остальное - ни-ни. Сработало. Разобрался яндекс, какой миррор главный. Даже при том что из-за изначальных настроек апача (ну тормоз я, тормоз!) при запросе (например) www.kuking.net/robots.txt роботы получали 302 и предложение пойти за этим файлом на kuking.net/robots.txt.

Яндекс вот во всем (в том числе и моих глупостях) разобрался, а рамблера это сильно смутило. Как я уже писал, уже около двух недель этот бедняга стучится головой о мое 302. ;-)

Опять же, как я уже писал - конфиги я поправил, никаких редиректов роботы больше не получат, но тем не менее факт их поведения в нестандартной ситуации любопытен.

Согласно цитате, приведенной melkov :-

The method used to exclude robots from a server is to create a file on the server which specifies an access policy for robots. This file must be accessible via HTTP on the local URL "/robots.txt".

Логично, но не описывает (желаемое) поведение роботов в случае если файла robots.txt нет. Вернее если его нет, все просто - можно индексить все подряд. А если вот такая фигня как у меня? Что делать несчастным роботам?

Согласиться на то, что дают взамен, как яндекс?

Долбиться головой об стену и ничего при этом не индексить, как это делает рамблер?

Или просто приравнять этот случай к отсутствию файла и дальше действовать по обычному сценарию?

Мне нравится последнее. В крайнем случае первое. Но никак не второе.

M
На сайте с 25.01.2001
Offline
57
#5

Яндекс точно не ходит по редиректам с robots.txt, любой http-код, кроме 200, интерпретируется как отсутствие этого файла. Я сейчас это еще раз проверил .

Фраза "file must be accessible" как раз и означает, что должен быть http-код 200 (в крайнем случае 304, если было спрошено if-modified-since).

Что касается kuking.*, то там вот какая картина с зеркалами:

Основной адрес:

kuking.net

Редиректы: www.kuking.ru www.taste.ru www.kuking.net

kuking.spb.ru

w3.spb.ru

recipes.spb.ru www.kuking.spb.ru

kuking.ru

robots.txt:

taste.ru

А еще в середине февраля все зеркала, кроме kuking.net, действительно были успешно запрещены robots.txt.

Что касается Рамблера, IMHO, kuking.net просто не походил там ручную проверку (доменная зона-то .net). Советую почитать их раздел помощи, в крайнем случае написать в лужбу техподдержки.

D
На сайте с 05.03.2002
Offline
1
#6

Спорить не буду, так как чуствую что получил ответ от человека из яндекса. :-)

Сдаюсь, яндекс не ходит по редиректам.

Что же касается рамблера, то не верится что сайт не прошел доменную проверку. Все прекрасно индексилось до того самого момента пока я не начал баловаться с robots.txt. Согласно логам, рамблер постоянно индексил то одно, то другое... А когда начал получать 302 на robots.txt, индексация тут же прекратилась. И в поиске по тем словам по которым сайт был на 1-м месте, теперь его вообще нету.

Очень похоже на то что редирект отработался как Disallow: /

Может я делаю и неправильный вывод из того что я вижу, но уж очень странное совпадение.

Самое обидное, что рамблер так со вчерашнего дня больше ни разу и не заходил.

217.73.192.8 - - [04/Mar/2002:00:48:02 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"

217.73.192.8 - - [04/Mar/2002:01:58:00 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"

217.73.192.8 - - [04/Mar/2002:02:25:17 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"

217.73.192.8 - - [04/Mar/2002:02:48:10 +0000] "GET /robots.txt HTTP/1.0" 302 273 "-" "StackRambler/1.4"

217.73.192.8 - - [04/Mar/2002:14:22:32 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"

217.73.192.8 - - [04/Mar/2002:15:10:58 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"

217.73.192.8 - - [04/Mar/2002:15:24:51 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"

217.73.192.8 - - [04/Mar/2002:16:46:38 +0000] "GET /robots.txt HTTP/1.0" 302 273 "-" "StackRambler/1.4"

217.73.192.8 - - [05/Mar/2002:10:22:03 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"

217.73.192.8 - - [05/Mar/2002:10:42:30 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"

217.73.192.8 - - [05/Mar/2002:10:53:41 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"

217.73.192.8 - - [05/Mar/2002:11:38:09 +0000] "GET /robots.txt HTTP/1.0" 302 273 "-" "StackRambler/1.4"

Ждем-с...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий