Как различить робота и качающего?

12 3
F4
На сайте с 16.09.2002
Offline
35
2104

Идея следующая:

Есть сайт - магазин с ОГРОМНЫМ кол-вом картинок к товарам.

Иногда некоторые умельцы начинают скачивать сайт целиком :eek: ,

что безумно нагружает сервер и увеличивает трафик.

Принято решение программно определять такие ситуации и отрубать.

Так вот теперь я беспокоюсь за роботов.

Возможно имеет смысл отрубать по какому-то лимиту скачанных картинок в долю времени. Но как же тогда "P"-шный робот того же Яндекса?

То, что он скачивает картинки - без сомнения (надо же ему как-то их уменьшить для im-tub.yandex.ru).

У кого была подобная ситуация? Поделитесь опытом...

:confused:

С уважением, Александр Грин
[Удален]
#1

М.б. запретить качать картинки через robots.txt?

Если нельзя - то робот который картинки качает - известен. Его не ограничивать - прочих ограничить.

F
На сайте с 15.11.2000
Offline
116
#2
Как писал fire42
определять такие ситуации и отрубать.

Робот Яндекса и картиночный робот действуют независимо во времени. Умелец, скачивающий сайт целиком, скорее всего будет делать все подряд -- вначале скачивать HTML (возможно, используя тот же User-Agent, что и картиночный робот), а затем скачивать картинки. На этом его можно поймать.

С уважением,

Александр Садовский.

Д
На сайте с 27.11.2002
Offline
23
#3

sorry

G
На сайте с 28.07.2002
Offline
29
#4
Regards Karen Vrtanesyan
F4
На сайте с 16.09.2002
Offline
35
#5
Как писал beshbarmak
М.б. запретить качать картинки через robots.txt?

Teleport pro например игнорирует его...

Может остальные типа WebZIP, HTTPClient, Website Quester, XWareCrawler, Website Extractor, Website eXtractor, x-Tractor, WebCopier, Indy Library на него ориентируются?

Возможно тогда имеет смысл их User-Agent'ов прописать, но этож какой robot.txt получится ?

Может быть через .htaccess как советуют Здесь?


Если нельзя - то робот который картинки качает - известен. Его не ограничивать - прочих ограничить.

Только если злодей не "притворится роботом". Ограничивать по кол-ву конекций или по весу забираемого?

F4
На сайте с 16.09.2002
Offline
35
#6
Как писал funsad

Робот Яндекса и картиночный робот действуют независимо во времени. Умелец, скачивающий сайт целиком, скорее всего будет делать все подряд -- вначале скачивать HTML (возможно, используя тот же User-Agent, что и картиночный робот), а затем скачивать картинки. На этом его можно поймать.

Тоесть картиночный робот занимается только выкачиванием картинок?

Я считал, что он же и с alt'ами к ним разбираеться, а если так, то должен и html забирать...

F
На сайте с 15.11.2000
Offline
116
#7
Как писал fire42
Тоесть картиночный робот занимается только выкачиванием картинок?

Насколько я знаю, да.

Я считал, что он же и с alt'ами к ним разбираеться

Робот, выкачивающий картинки, и модуль, занимающийся ранжированием картинок -- это разные вещи. У меня картиночный робот к html-файлам не обращался, и, думаю, это не случайно -- зачем второй раз тянуть html, если он уже лежит в базе?

С уважением,

Александр Садовский.

N
На сайте с 09.05.2003
Offline
51
#8

добавляешь в .htaccess

------------

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^DISCoPump.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Drip.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^EirGrabber.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^FlashGet.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^GetRight.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Gets.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Grafula.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^IBrowse.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^InterGET.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^InternetNinja.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^JetCar.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^JustView.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MIDowntool.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MisterPiX.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^NearSite.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^NetSpider.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^OfflineExplorer.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^PageGrabber.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^PapaFoto.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Pockey.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^ReGet.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Slurp.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^SpaceBison.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Teleport.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebAuto.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebCopier.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebFetch.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebReaper.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebSauger.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebStripper.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebWhacker.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebZIP.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebImageCollector.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebSucker.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Webster.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Wget.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^eCatch.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^ia_archiver.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^lftp.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^tAkeOut.*

RewriteRule .[Jj][Pp][Gg]*$ /Dont_grab_my_pics_facked_bastard.gif [L]

------------

Перечисляем все известные нам офф-лайн браузеры и сайтограбилки (не их коммерческие названия, а значения, которые они передают в параметре HTTP_USER_AGENT). На запросы этих программ сервер отправит не JPG-файл (его, в виде [Jj][Pp][Gg] мы проставляем в строке RewriteRule), а крохотный однопиксельный Dont_grab_my_pics_facked_bastard.gif.

Похоже что так можно попытаться :)

Век живи - век учись.
LM
На сайте с 30.11.2001
Offline
71
LiM
#9

"Картиночный" робот Яндекса выкачивает только картинки - факт. Всю прочую информацию ему поставляет индексирующий робот.

В качестве способов защиты от перенагрузки сервера от любителей тотального скачивания сайтов могу рассказать следующее: на одном из подшефных мне сайтов сделана система ловушек, которые расположены на всех критичных страницах и устроены так, что ловят на себя всех роботов, которые не соблюдают правила robots.txt + игнорируют <META CONTENT="Robots"...>. Как только кто-либо попадает хотя бы в одну из ловушек, против него идут санкции, направленные на прекращение его активности. Чтобы человек поздно спохватился, начало санкций имитирует сильную перенагрузку сервера (при том, что другие пользователи нормально работают и проблем не знают).

Подробнее рассказывать не могу - не хочется заново делать защиту, если ее научатся обходить слишком много гоблинов.

Увы, такая защита не помогает от особо заинтересованных - кто подумает, может легко ее обойти. Но таких мало - за 2 года работы сайта всего была пара человек...

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)
F4
На сайте с 16.09.2002
Offline
35
#10
Как писал funsad

У меня картиночный робот к html-файлам не обращался, и, думаю, это не случайно -- зачем второй раз тянуть html, если он уже лежит в базе?

Да, осознал свою неправоту, задавшись именно этим вопросом.

Тогда действительно, у нас есть такой параметр по которому мы можем подтвердить "P"-шника, и злодею остаётся только один шанс - не трогать html притворяясь ПЭшкой.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий