У кого есть база UserAgent Парсеров?

ebitok
На сайте с 07.11.2011
Offline
112
772

Нужно защитить свою сетку от чужих глаз.

RewriteCond %{HTTP_USER_AGENT} SolomonoBot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} SearchBot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]

RewriteCond %{HTTP_USER_AGENT} AhrefsBot

Какие еще существуют боты ? которые смотрят ссылки, подскажите плиз.

---------- Добавлено 24.09.2015 в 21:06 ----------

все! вроде нашел

https://udger.com/resources/ua-list/crawlers

Если у кого есть еще базы, буду признателен!

L
На сайте с 07.12.2007
Offline
351
#1

1. Парсеры работают с хостингов. Эффективнее всего брать IP хостеров(включая всяких "облачных") и банить в ipfw или что там у вас на серваке, прямо диапазонами IP.

Но после окончательного введения IPV6 это работать перестанет

2. Можно скриптом выгребать ЮзерАгенты из логов сайтов и складывать в БД. Потом руками отбирать нужное. Но ЮзерАгента легко подделать.

3. Роботы-парсеры в 99.9% не исполняют яваскрипт - можно банить по этому признаку. Запоминать IP такого робота и в чёрный список.

R
На сайте с 20.02.2015
Offline
59
#2
edka
На сайте с 17.01.2010
Offline
208
#3
Ladycharm:

3. Роботы-парсеры в 99.9% не исполняют яваскрипт - можно банить по этому признаку. Запоминать IP такого робота и в чёрный список.

Так ведь роботы ПС тоже вроде не исполняют, вернее не при каждом заходе. Он может зайти, чтобы считать роботс например, а ему банан )

L
На сайте с 07.12.2007
Offline
351
#4

edka, Яндексу и Гуглу я всё разрешаю - их IP в белом списке.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий