Не обидится Yandex за случаи бана его бота?

12
SZ
На сайте с 17.08.2005
Offline
63
#11

Меня тож вопрос заинтересовал. Написал им в саппорт.

БЫл на днях случай, что индексирующий робот пришел на сайт и стал сканировать новые страницы с частотой примерно одна страница в пару секунд. Это вызвало достаточно серьёзную нагрузку на сайт. Существует ли возможность задать для робота при необходимости минимальный интервал между индексацией новой страницы?

Была мысль сделать фильтр и при обращении чаще раза в 10 секунд выдавать 204 или 403 отклик, но при этом страница, которая выдала такой отклик скорее всего выпадет из индекса.

Как поступать в такой ситуации?

Правда очепятался в письме, имелось ввиду 304 а не 204.

Сеня пришел ответ.

Наш робот не может вести себя так, как Вы пишите. Возможно, это был кто-то другой, замаскировавшийся под робота Яндекса.
В общем случае роботу можно отдавать 304, если страница не изменялась с последнего запроса ее роботом.

Правда ипы ихние были, ну да не в этом вопрос =)

Суть в том, что если яндекс нагружает сайт, можно для яндекса выдавать вместо страницы 304 отклик, что, как я понял не приведет к последствиям, кроме как если страница обновилась недавно, изменения не учтутся в выдаче.

В каждом конкретном случае остается лишь решить вопрос, как следить за тем, произведена ли модификация запрошеной страницы страницы с прошлого захода бота, или нет.

Или более просто вариант, если количество запросов яндекса превышает заданный для определенного промежутка времени, первому запросу отдавать страницу, а остальным за этот промежуток отдавать 304 отклик.

ZeHer
На сайте с 01.04.2006
Offline
87
#12

SergoZD, спасибо за инфу, насчет 304 отклика это интересно надо будет поэкспериментировать.

Ситуация с увеличением допустимой частоты до максимума, мне всеравно не помогла, то что это Яндекс - это точно, IP ихний.

Вчера ночью заметил снова яндекс в бане был, пришлось пока отключить antihammering. Заметил одну особенность в бан он попадает, в основном ночью, когда каналы свободны и скорость увеличивается.

Пока от этого вреда нету никакого, да и врядли будет, но то что сканирующие роботы создают нагрузку - это факт, степень нагрузки - это другой вопос. Тут уже чисто спортивный интерес проснулся, если можно оптимизировать эти факторы, то почему бы и нет.

Вот начал сейчас дописывать фильтр специально под Яндекс, чтобы его не банило пока, попробую с 304 откликом пошаманить.

Есть идея, облегчить ему задачу и отдавать часть страниц которые я точно знаю изменяться не будут(например новости) с этим откликом, но как узнать запрашивал робот данную страницу или нет, пока загадка.

SZ
На сайте с 17.08.2005
Offline
63
#13

если страницы хранятся в базе и имеют свой уникальный id - единственно верный вариант - добавить дополнительное поле, в котором хранить дату последней индексации роботом.

Но, на мой взгляд, робот одну и ту же страницу не так часто запрашивает, чтобы делать подобную проверку (на крупных сайтах, на мелких таких проблем в принципе стоять не должно), поэтому считаю наиболее эффективным с точки зрения затрат/результата именно что при превышении определенной нагрузки от яндекса вместо какого-то процента страниц выдавать 304 отклик.

ZeHer
На сайте с 01.04.2006
Offline
87
#14
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий