Как вооружится против grabbera ?

1 23
vandamme
На сайте с 30.11.2008
Offline
675
#21

А я не знаю ИП моего сервера

agentvini
На сайте с 27.06.2008
Offline
40
#22

может поможет ява скрипт который не дает копировать текст... знаете, когда при копипасте вместо пробелов появляются рандомные символы.

Прошу не пинать, так как сам бы рад найти действующий способ от грабинга

Тематический обмен (/ru/forum/319815) ссылками и статьями на темы туризм, отдых, гостиницы, рестораны с сайтом ЯК, тИЦ 300, Дмоз, ПР 3
A7
На сайте с 07.09.2007
Offline
257
#23

а как называется этот скрипт ?

vandamme
На сайте с 30.11.2008
Offline
675
#24
alex_778:
а как называется этот скрипт ?

какой скрипт?

[Удален]
#25
Hutch:
Список мер, которые можно принять не очень большрой

Я обычно делаю следующее
ставлю на странице скрытые, труднонажимаемые(img 1x1 px) ссылки на специальные страницы
на этих страницах
  • Проверка, работает ли javaScript (ajax)
  • Проверка ip на принадлежность серверу
  • еще такиеже ссылки на другую такую страницу(с подсчетом, сколько раз уже перешли по ссылкам)

*для основных(нужных мне) поисковиков ссылки и не генерирую

если ajax не работает и есть подозренеие на принадлежность ip cерверу - бан
если перешли по скрытым ссылкам "в глубь" более 2 раз - бан
если за короткое время загружается много страниц - редирект на страницу с проверкой на бота

если есть свободные ресурсы, то генерю для таких ботов очень занятный текст на страницах.

Так вы перебаните всех ботов (включая поисковых). Потому что.

Грабер контента (сателитостроителей и говносайтоклепателей) ничем не отличается от бота Яндекса, Гугла и т.п. Причем может ходить под юзер агентами этих поисковиков, собственно так оно и делается. А ip адресов поисковиков вы всех не знаете.

Потому единственный выход - следить за активными ботами, вручную анализировать их ip и банить конкретные ip или подсетки.

zzeus
На сайте с 04.01.2008
Offline
74
#26
alex_778:
я не верю )
предьявите факты

Понятно. Вы не в состоянии сделать Reverce IP Lookup. Судя по остальным постам вы абсолютно "не в теме" и начитались про страшных грабберов. Это действительно аппорт. Проверить можно сделав host <ip> если у вас есть ssh до хостера. Ну или через http://www.iwebtool.com/reverse_ip?domain=194.67.18.242.

Ваше недоверие вкупе с абсолютной безграмотностью и тем, что вы простите здесь помощи выглядит, мягко сказать, неадекватно.

Далее. Посылаю вас в google на тему claw-delay. Потом много думайте.

zzeus добавил 20.02.2009 в 00:02

FOXI.BY:
Так вы перебаните всех ботов (включая поисковых). Потому что.
Грабер контента (сателитостроителей и говносайтоклепателей) ничем не отличается от бота Яндекса, Гугла и т.п. Причем может ходить под юзер агентами этих поисковиков, собственно так оно и делается. А ip адресов поисковиков вы всех не знаете.
Потому единственный выход - следить за активными ботами, вручную анализировать их ip и банить конкретные ip или подсетки.

феерический бред. все нормальные поисковики умеют claw-delay. от левых ботов и грабберов отлично спасает mod_evasive.

[Удален]
#27
zzeus:

феерический бред. все нормальные поисковики умеют claw-delay. от левых ботов и грабберов отлично спасает mod_evasive.

Т.е. предлагаете смотреть делает ли бот указанные в роботс зарержки между парсингом страниц? Так такое и в граберах очень давно есть, причем даже в пабликовских, мои самописные граберы умеют анализировать и роботс и я сам по дефолту ставлю задержку, чтоб не уложить хост, который парсю.

А к примеру Яхо ложил на такие указания и частенько грузит сервера жестким парсингом, не обращая внимания ни на какие указания...

Так что это совсем не выход. А вот Reverce IP Lookup и просмотр whois ip адреса - это выход, Яндекс не будет ходить с ip датацентра кейвеб, где абузы хорошо держат и такой софт оттуда на ура работает...

zzeus
На сайте с 04.01.2008
Offline
74
#28
FOXI.BY:
Т.е. предлагаете смотреть делает ли бот указанные в роботс зарержки между парсингом страниц? Так такое и в граберах очень давно есть, причем даже в пабликовских, мои самописные граберы умеют анализировать и роботс и я сам по дефолту ставлю задержку, чтоб не уложить хост, который парсю.
А к примеру Яхо ложил на такие указания и частенько грузит сервера жестким парсингом, не обращая внимания ни на какие указания...

Так что это совсем не выход. А вот Reverce IP Lookup и просмотр whois ip адреса - это выход, Яндекс не будет ходить с ip датацентра кейвеб, где абузы хорошо держат и такой софт оттуда на ура работает...

Если робот левый и не понимает claw-delay его забанит mod_evasive

R
На сайте с 19.01.2006
Offline
60
rst
#29

Делай сессию.

Если сессии нет - при заходе на страницу редирект на страницу где яваскрипт с редиректом обратно + установка сессии.

www.captchabot.com (www.captchabot.com) - распознавание captcha (http://www.captchabot.com)
1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий