Что-то "взбесился" бот яндекса.

12
_
На сайте с 24.03.2008
Offline
381
1281

Если конкретно 5.255.253.124

Ходит на крайне малопосещаемый форум уже вторую неделю.

Чётко "занимает" 100% производительности, т.е. по мере загрузки сервера

приходит то реже, то чаще.

Странно другое.

Посещает он урлы типа

GET /post1047.html?e1281ac0

GET /post2826.html?0159ee02

При этом то, что после ? это по виду какой-то мусор.

Логично было бы предположить, что это некий SID, но пока мне не удалось

обнаружить где он такой к боту "попадает". Плюс обычно сид гораздо длиннее.

Есть какие-то идеи что можно было-бы проверить-поправить ?

Началось это безобразие где-то с неделю назад.

До этого несколько ЛЕТ всё было отлично.

---------- Добавлено 28.10.2014 в 12:48 ----------

ЗЫ. А похоже и правда SID, в списке ботов яндекса для этого форума почему-то не было.

(видать давно движок совсем обновлялся). Но идеи всё равно приветствуются.

A
На сайте с 20.08.2010
Offline
775
#1

Сейчас у многих такая штука. Мое видение: некий нехороший человек долбит урлы вида site.ru/post1047.html?e1281ac0, в дальнейшем софт, насколько я понимаю, отправляет их прямиком яндексу, вот бот и ходит, только каким способом, непонятно. Если посмотрите в логах, то наверняка увидите кучу гет-запросов site.ru/post1047.html?e1281ac0 и все в этом духе, по которым затем ходит бот. Зачем это нужно, не ясно, но ресурсы жрет адово. Рекомендую закрыть знак вопроса в роботсе, только аккуратней действуйте.

_
На сайте с 24.03.2008
Offline
381
#2

Да это скокож надолбить надо ?

Он их в addurl что-ли добавляет ? Там капча вроде...

Да и в чём смысл... именно данный "пациент" никому в качестве диверсий вообще неинтересен.

Идея, что кто-то вначале пытался что-то напостить со спамом, а потом "пингует" была.

Что-то по УРЛу в яндексе ничего не ищется. Да и многовато как-то.

A
На сайте с 20.08.2010
Offline
775
#3

Так в логах есть прямые запросы (не от яндекс бота) вида site.ru/post1047.html?e1281ac0? Какая админка?

_
На сайте с 24.03.2008
Offline
381
#4

Никакой админки.

По логам щаз поищем конечно, не так просто к сожалению.

---------- Добавлено 28.10.2014 в 14:55 ----------

За последнюю одну, возможно две недели - нету

---------- Добавлено 28.10.2014 в 14:56 ----------

ЗЫ. Похоже нет даже и за три недели.

---------- Добавлено 28.10.2014 в 15:02 ----------

Есть относительно немного записей в эррорлоге вида,

search.php?search_id=unanswered&sid=ab343bfa51d20

GET /post3587.html?sid=a409eff5467e8db712fb7fc9

часть к страницам что берет и яндекс,

но корреляции с SID не видно.

Записи относятся к leaky busket от nginx-a, т.е. это были многочисленные

запросы с одного ip часть из которых не была обслужена.

Но их немного - десятки-сотни. Не тысячи.

---------- Добавлено 28.10.2014 в 15:05 ----------

PS. Надо сказать, что бот очень gently... даже не знаю как объяснить...

LA держит четко на уровне единицы. Вероятно анализирует время отклика и

по нему динамически меняет частоту запросов.

В целом работу это замедлило несущественно, но разобраться хотелось-бы.

Надо сказать что сегодня с утра "слегка отпустило". Но не окончательно.

A
На сайте с 20.08.2010
Offline
775
#5

У меня были сначала такие гет-запросы, потом по ним начал лазить бот. Все позакрывал.

A
На сайте с 19.07.2010
Offline
130
#6

Бот у вас шарится вроде честный и должен задержку между запросами понимать: http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#crawl-delay

Upd: если не лень, то сделайте 301-й с /post1047.html?e1281ac0 на /post1047.html

робот яндекса/гугла перейдет по 301 на /post1047.html только один раз(ну пару раз) остальные 301-е с /post1047.html?_random_ он примет к сведению и не будет дергать ваш сервер лишний раз.

.............
A
На сайте с 20.08.2010
Offline
775
#7

admak, нет смысла увеличивать время обращения, так как эти страницы - дубли и в индексе они не нужны. Я бы на месте тса просто закрыл доступ в роботсе, если есть возможность.

_
На сайте с 24.03.2008
Offline
381
#8

Возможность надо уточнить... не факт что можно на этом уровне всё заткнуть.

В Я.Вебмастере ведь нигде нет возможности увидеть "очередь на индексацию" и как-то на неё повлиять(исключая роботс) ?

Редиректить можно еще попробовать, но тоже "под вопросом".

A
На сайте с 19.07.2010
Offline
130
#9

Выше дополнил свой пост, по уму желательно на страницах прописать meta canonical, но хлопотно это, т.к. нужно лезть в код.

Есть еще вариант с http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#clean-param но это только под яндекс

У себя я просто 301-м ограничиваюсь, главное в регулярках не ошибиться :)

A
На сайте с 20.08.2010
Offline
775
#10

admak, символы урла могут меняться в произвольном порядке, то есть могут быть абсолютно любыми. Единственным остается знак вопроса, но закрывать его во многих случаях просто так нельзя.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий