Как вооружится против grabbera ?

12 3
A7
На сайте с 07.09.2007
Offline
257
2153

Вобщем со вчерашнего дня один мой сайт вырубился, смотрю по графику в админке хостинга, что я привысил допустимый лимит нагрузки на базу данных. Причём до этого нагрузка была 0 :idea:

Сайт большой на двиге дле, после проанализировав логи, стало ясно что новости тупо грабят:no:

каким то граббером. Так как по логам видно что один IP бегает по страницам. Поглядев в яндексе инфу об этом IP нашёл КОПИЮ ситуацию как и у меня с этим же IP:D

Забанил ip в админке и всё, нагрузка опять 0 )

Вобщем то вопрос в том, если он сменит IP как можно предостеречья от его грабера ?:confused:

alex_778 добавил 19.02.2009 в 00:23

Всё пипец, он чё то придумал и теперь бан ip не спас (

ЧТО ДЕЛАТЬ народ ? выручит пожалуйста, я заплачу$

alex_778 добавил 19.02.2009 в 00:50

я отключил сайт, но он всё равно парсит парсит страницы...в логах написано

как не понятно

V
На сайте с 25.07.2006
Offline
128
#1

Можно попоробовать использовать страницы-ловушки - такие на которые человек никак не зайдет, а грабер поведется. Например, делать ссылку в виде прозрачной точки 1х1 пиксель или в невидимом div'е.

На этой странице-ловушке анализировать запрос и если это не известный порядочный бот типа гугликовского, то банить ip.

Ну или таки внимательно анализировать логи - в них таки все зафиксированно...

Приватный linux-администратор
0
На сайте с 19.09.2007
Offline
55
#2

А юзер-агент какой? Хуизы? Какие он использует айпишники? Быть может, будет достаточно занести в бан подсети некоторых хостеров?

Andreyka
На сайте с 19.02.2005
Offline
822
#3

Я как раз готовлю сайт, который содержит в себе все подсети, с которых ничего хорошего не придет ;)

Не стоит плодить сущности без необходимости
vandamme
На сайте с 30.11.2008
Offline
675
#4

граббер ищет контент по шаблону, так возьмите рандоминизируйте шаблон фулл новости

vandamme добавил 19.02.2009 в 14:13

Я сам граблю подобные ДЛЕ сайты

а свой защищаю от граббинга, интересно если не секрет каков адрес вашего сайта? Может я его гружу? :)

можно в личку

A7
На сайте с 07.09.2007
Offline
257
#5

ссылку не дам )

какую тематику вы грабите ?

pchol123
На сайте с 13.05.2007
Offline
239
#6

Народ, расскажите побольше про способы самообороны от грабинга?

Вабще былобы круто сделать Одну большую статью про то как защищаться от этих роботов, и прилепить её гденить на виду и добавлять в неё новые методы, и новые грабилки...

сеть трастовых сайтов (http://articles.sape.ru/r.5b6641ce4e.php)
N
На сайте с 06.05.2007
Offline
419
#7

логи анализируйте регулярно. баньте превентивно сети датацентров.

простых способов нет. грабберы прекрасно изображают обычных посетителей.

Кнопка вызова админа ()
A7
На сайте с 07.09.2007
Offline
257
#8

вобщем забанил я того грабилу по ip в админке и через .htaccess :)

щас всё нормально. Но щас буду чаще смотреть на статитику нагрузки на базу !

N
На сайте с 06.05.2007
Offline
419
#9

да, кстати. граббилки всегда мимо кеша идут, не так как пользователи. Поэтому запросы от граббилок обычно тормознее остальных.

H
На сайте с 11.09.2008
Offline
26
#10

Список мер, которые можно принять не очень большрой

Я обычно делаю следующее

ставлю на странице скрытые, труднонажимаемые(img 1x1 px) ссылки на специальные страницы

на этих страницах

  • Проверка, работает ли javaScript (ajax)
  • Проверка ip на принадлежность серверу
  • еще такиеже ссылки на другую такую страницу(с подсчетом, сколько раз уже перешли по ссылкам)

*для основных(нужных мне) поисковиков ссылки и не генерирую

если ajax не работает и есть подозренеие на принадлежность ip cерверу - бан

если перешли по скрытым ссылкам "в глубь" более 2 раз - бан

если за короткое время загружается много страниц - редирект на страницу с проверкой на бота

если есть свободные ресурсы, то генерю для таких ботов очень занятный текст на страницах.

Ceterum censeo Carthaginem esse delendam
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий