Как различить робота и качающего?

F4

35

fire42

10 июля 2003, 14:27

2109

Идея следующая:

Есть сайт - магазин с ОГРОМНЫМ кол-вом картинок к товарам.

Иногда некоторые умельцы начинают скачивать сайт целиком :eek: ,

что безумно нагружает сервер и увеличивает трафик.

Принято решение программно определять такие ситуации и отрубать.

Так вот теперь я беспокоюсь за роботов.

Возможно имеет смысл отрубать по какому-то лимиту скачанных картинок в долю времени. Но как же тогда "P"-шный робот того же Яндекса?

То, что он скачивает картинки - без сомнения (надо же ему как-то их уменьшить для im-tub.yandex.ru).

У кого была подобная ситуация? Поделитесь опытом...

:confused:

С уважением, Александр Грин

[Удален]

10 июля 2003, 14:51

#1

М.б. запретить качать картинки через robots.txt?

Если нельзя - то робот который картинки качает - известен. Его не ограничивать - прочих ограничить.

F

116

funsad

10 июля 2003, 15:13

#2

Как писал fire42
определять такие ситуации и отрубать.

Робот Яндекса и картиночный робот действуют независимо во времени. Умелец, скачивающий сайт целиком, скорее всего будет делать все подряд -- вначале скачивать HTML (возможно, используя тот же User-Agent, что и картиночный робот), а затем скачивать картинки. На этом его можно поймать.

С уважением,

Александр Садовский.

Д

23

Денис

10 июля 2003, 15:14

#3

sorry

ЖЖ (http://www.livejournal.com/users/wilddalex/)

G

29

groul

10 июля 2003, 16:53

#4

fire, пошуруйте тут:

http://www.google.com/search?hl=en&lr=&ie=UTF-8&oe=UTF-8&q=bot+trap

http://www.google.com/search?hl=en&lr=&ie=UTF-8&oe=UTF-8&q=bot+traps

Regards Karen Vrtanesyan

F4

35

fire42

10 июля 2003, 16:56

#5

Как писал beshbarmak
М.б. запретить качать картинки через robots.txt?

Teleport pro например игнорирует его...

Может остальные типа WebZIP, HTTPClient, Website Quester, XWareCrawler, Website Extractor, Website eXtractor, x-Tractor, WebCopier, Indy Library на него ориентируются?

Возможно тогда имеет смысл их User-Agent'ов прописать, но этож какой robot.txt получится ?

Может быть через .htaccess как советуют Здесь?

Если нельзя - то робот который картинки качает - известен. Его не ограничивать - прочих ограничить.

Только если злодей не "притворится роботом". Ограничивать по кол-ву конекций или по весу забираемого?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

F4

35

fire42

10 июля 2003, 17:00

#6

Как писал funsad

Робот Яндекса и картиночный робот действуют независимо во времени. Умелец, скачивающий сайт целиком, скорее всего будет делать все подряд -- вначале скачивать HTML (возможно, используя тот же User-Agent, что и картиночный робот), а затем скачивать картинки. На этом его можно поймать.

Тоесть картиночный робот занимается только выкачиванием картинок?

Я считал, что он же и с alt'ами к ним разбираеться, а если так, то должен и html забирать...

F

116

funsad

10 июля 2003, 18:33

#7

Как писал fire42
Тоесть картиночный робот занимается только выкачиванием картинок?

Насколько я знаю, да.

Я считал, что он же и с alt'ами к ним разбираеться

Робот, выкачивающий картинки, и модуль, занимающийся ранжированием картинок -- это разные вещи. У меня картиночный робот к html-файлам не обращался, и, думаю, это не случайно -- зачем второй раз тянуть html, если он уже лежит в базе?

С уважением,

Александр Садовский.

N

51

noable

10 июля 2003, 19:46

#8

добавляешь в .htaccess

------------

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^DISCoPump.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Drip.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^EirGrabber.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^FlashGet.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^GetRight.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Gets.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Grafula.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^IBrowse.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^InterGET.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^InternetNinja.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^JetCar.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^JustView.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MIDowntool.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^MisterPiX.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^NearSite.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^NetSpider.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^OfflineExplorer.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^PageGrabber.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^PapaFoto.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Pockey.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^ReGet.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Slurp.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^SpaceBison.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Teleport.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebAuto.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebCopier.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebFetch.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebReaper.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebSauger.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebStripper.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebWhacker.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebZIP.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebImageCollector.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^WebSucker.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Webster.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Wget.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^eCatch.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^ia_archiver.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^lftp.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^tAkeOut.*

RewriteRule .[Jj][Pp][Gg]*$ /Dont_grab_my_pics_facked_bastard.gif [L]

------------

Перечисляем все известные нам офф-лайн браузеры и сайтограбилки (не их коммерческие названия, а значения, которые они передают в параметре HTTP_USER_AGENT). На запросы этих программ сервер отправит не JPG-файл (его, в виде [Jj][Pp][Gg] мы проставляем в строке RewriteRule), а крохотный однопиксельный Dont_grab_my_pics_facked_bastard.gif.

Похоже что так можно попытаться :)

Век живи - век учись.

Яндекс: «Некоторые аспекты поиска» Роман Мандрик Вирусный маркетинг: Поисковые системы в сети

LM

71

LiM

10 июля 2003, 19:48

#9

"Картиночный" робот Яндекса выкачивает только картинки - факт. Всю прочую информацию ему поставляет индексирующий робот.

В качестве способов защиты от перенагрузки сервера от любителей тотального скачивания сайтов могу рассказать следующее: на одном из подшефных мне сайтов сделана система ловушек, которые расположены на всех критичных страницах и устроены так, что ловят на себя всех роботов, которые не соблюдают правила robots.txt + игнорируют <META CONTENT="Robots"...>. Как только кто-либо попадает хотя бы в одну из ловушек, против него идут санкции, направленные на прекращение его активности. Чтобы человек поздно спохватился, начало санкций имитирует сильную перенагрузку сервера (при том, что другие пользователи нормально работают и проблем не знают).

Подробнее рассказывать не могу - не хочется заново делать защиту, если ее научатся обходить слишком много гоблинов.

Увы, такая защита не помогает от особо заинтересованных - кто подумает, может легко ее обойти. Но таких мало - за 2 года работы сайта всего была пара человек...

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

F4

35

fire42

10 июля 2003, 20:11

#10

Как писал funsad

У меня картиночный робот к html-файлам не обращался, и, думаю, это не случайно -- зачем второй раз тянуть html, если он уже лежит в базе?

Да, осознал свою неправоту, задавшись именно этим вопросом.

Тогда действительно, у нас есть такой параметр по которому мы можем подтвердить "P"-шника, и злодею остаётся только один шанс - не трогать html притворяясь ПЭшкой.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта