вид для печати

bk_man · 2002-12-23T08:39:11.0000000Z

Всем доброго дня! Как бы заставить Рамблер выкинуть из индекса наш вид для печати? Потому как мешает оно (даже не спрашивайте, почему). Когда это заметили (и поставили все ссылки на такие страницы в тег noindex), было уже поздно. Теперь робот-бедняга Рамблера каждый раз проверяет все такие страницы, в мета которой написано черным-по-белому - NOINDEX. Но он все равно продолжает проверять их, не выкидывая из очереди. Идея следующая: предлагается выдавать на определенные URL'ы (=~ /prn=1$/) 404 Not Found при попадании User Agent'а в особый список. Противоречит ли это правилам Рамблера? Иного пути заставить его этого не делать я не вижу. P.S. Ссылки на вид для печати были обрамлены тегом noindex как минимум в начале июня, сайт уже раза два прошел полную переиндексацию, а прогресса (уменьшения количества запрашиваемых урлов, оканчивающихся на "prn=1") всё не видно.

257

AiK

25 декабря 2002, 14:06

#11

NOINDEX означает, что страницу не надо класть в индекс. А скачивать ее и извлекать из нее ссылки - не запрещает

Влад, а Вы умеете извлекать метатеги не закачивая страницу? :)

V

24

vs

25 декабря 2002, 14:27

#12

Как писал AiK

Влад, а Вы умеете извлекать метатеги не закачивая страницу? :)

Ну что ж. Придется рассказывать медленно и два раза :-).

Робот скачивает страницу, потом индексатор ее обрабатывает. В некоторых ситуациях индексатор роботу сообщает: "эту страницу больше не скачивать в течение Х суток" (например, когда на хосте уже есть N страниц. эквивалентных данной). В случае обсуждаемой сейчас <META ...> это сообщение не генерируется и робот будет через некоторое время проверять страницу заново. Поэтому в отчетах о приходе роботов страница будет фигурировать всегда.

С уважением, Влад Шабанов vs@rambler-co.ru

Платон Щукин про индексацию Как анализировать код страницы Инструмент проверки URL в

257

AiK

25 декабря 2002, 23:05

#13

Влад, это я к тому, что bk_man назвал робот Рамблера "беднягой" просто неподумав, каким образом робот может узнать о наличии/отсутствии этого метатэга не скачивая страницу, и какой вой в рунете поднимется, если робот Рамблера будет скачивать подобные страницы ровно один раз :).

Но раз "пошла такая пьянка", то не могли бы Вы удовлетворить моё любопытство, ответив на вопрос: как часто робот Рамблера заглядывает в robots.txt? Многие (импортные в основном) роботы один раз туда заглянут, а потом скачивают страницы пачками. И потом менять robots.txt бесполезно - даже возврат 404/403 не спасает - роботы тупо продолжают молотить вилами по воде, пытаясь куда-то приплыть и изрядно пачкая логи, - пока список URL не пройдут (да и не по одному разу!) в robots.txt больше не заглядывают :(

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

26 декабря 2002, 07:52

#14

Многие (импортные в основном) роботы один раз туда заглянут, а потом скачивают страницы пачками.

Это какие например??? Гугльботы (оба), Скутер, Фаст, Сларп, Аск Дживс - каждый день у меня берут этот файл, пока занимаются индексированием.

V

24

vs

26 декабря 2002, 10:23

#15

Как писал AiK
как часто робот Рамблера заглядывает в robots.txt? Многие (импортные в основном) роботы один раз туда заглянут, а потом скачивают страницы пачками. И потом менять robots.txt бесполезно - даже возврат 404/403 не спасает - роботы тупо продолжают молотить вилами по воде, пытаясь куда-то приплыть и изрядно пачкая логи, - пока список URL не пройдут (да и не по одному разу!) в robots.txt больше не заглядывают :(

Сейчас это работает так: по выходным (в ночь с субботы на воскресенье) запускается специальный робот, который качает только robots.txt со всех машин. После скачивания он прочищает все наши списки URL по этим "свеженьким" robots.txt. Результат - список URL на удаление - отдается дальше по цепочке и в следующей сборке поисковой базы этих URL уже быть не должно. Таким образом, web-мастера могут чистить списки раз в неделю. Через некоторое время мы для части серверов этот интервал сократим вдвое.

Теперь пару нюансов.

1) Если проверятор robots.txt не смог достучаться до сервера, то следующие 6 дней он к этому серверу за страницами не обращается. При этом каждый день робот повторяет проверку, ожил сервер или все еще мертв. Если хост мертв 6 дней, то он из базы удаляется.

2) В некоторых режимах robots.txt читается чаще, перед каждым запуском робота. Но эти внеплановые чтения не обязательно приводят к прочистке всего списка URL.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Все что нужно знать о DDоS-атаках грамотному менеджеру

Дзен реализовал для авторов возможность вывода денег через СПБ