вид для печати

12
AiK
На сайте с 27.10.2000
Offline
257
AiK
#11
NOINDEX означает, что страницу не надо класть в индекс. А скачивать ее и извлекать из нее ссылки - не запрещает

Влад, а Вы умеете извлекать метатеги не закачивая страницу? :)

V
На сайте с 20.06.2001
Offline
24
vs
#12
Как писал AiK

Влад, а Вы умеете извлекать метатеги не закачивая страницу? :)

Ну что ж. Придется рассказывать медленно и два раза :-).

Робот скачивает страницу, потом индексатор ее обрабатывает. В некоторых ситуациях индексатор роботу сообщает: "эту страницу больше не скачивать в течение Х суток" (например, когда на хосте уже есть N страниц. эквивалентных данной). В случае обсуждаемой сейчас <META ...> это сообщение не генерируется и робот будет через некоторое время проверять страницу заново. Поэтому в отчетах о приходе роботов страница будет фигурировать всегда.

С уважением, Влад Шабанов vs@rambler-co.ru
AiK
На сайте с 27.10.2000
Offline
257
AiK
#13

Влад, это я к тому, что bk_man назвал робот Рамблера "беднягой" просто неподумав, каким образом робот может узнать о наличии/отсутствии этого метатэга не скачивая страницу, и какой вой в рунете поднимется, если робот Рамблера будет скачивать подобные страницы ровно один раз :).

Но раз "пошла такая пьянка", то не могли бы Вы удовлетворить моё любопытство, ответив на вопрос: как часто робот Рамблера заглядывает в robots.txt? Многие (импортные в основном) роботы один раз туда заглянут, а потом скачивают страницы пачками. И потом менять robots.txt бесполезно - даже возврат 404/403 не спасает - роботы тупо продолжают молотить вилами по воде, пытаясь куда-то приплыть и изрядно пачкая логи, - пока список URL не пройдут (да и не по одному разу!) в robots.txt больше не заглядывают :(

[Удален]
#14
Многие (импортные в основном) роботы один раз туда заглянут, а потом скачивают страницы пачками.

Это какие например??? Гугльботы (оба), Скутер, Фаст, Сларп, Аск Дживс - каждый день у меня берут этот файл, пока занимаются индексированием.

V
На сайте с 20.06.2001
Offline
24
vs
#15
Как писал AiK
как часто робот Рамблера заглядывает в robots.txt? Многие (импортные в основном) роботы один раз туда заглянут, а потом скачивают страницы пачками. И потом менять robots.txt бесполезно - даже возврат 404/403 не спасает - роботы тупо продолжают молотить вилами по воде, пытаясь куда-то приплыть и изрядно пачкая логи, - пока список URL не пройдут (да и не по одному разу!) в robots.txt больше не заглядывают :(

Сейчас это работает так: по выходным (в ночь с субботы на воскресенье) запускается специальный робот, который качает только robots.txt со всех машин. После скачивания он прочищает все наши списки URL по этим "свеженьким" robots.txt. Результат - список URL на удаление - отдается дальше по цепочке и в следующей сборке поисковой базы этих URL уже быть не должно. Таким образом, web-мастера могут чистить списки раз в неделю. Через некоторое время мы для части серверов этот интервал сократим вдвое.

Теперь пару нюансов.

1) Если проверятор robots.txt не смог достучаться до сервера, то следующие 6 дней он к этому серверу за страницами не обращается. При этом каждый день робот повторяет проверку, ожил сервер или все еще мертв. Если хост мертв 6 дней, то он из базы удаляется.

2) В некоторых режимах robots.txt читается чаще, перед каждым запуском робота. Но эти внеплановые чтения не обязательно приводят к прочистке всего списка URL.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий