- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Идея следующая:
Есть сайт - магазин с ОГРОМНЫМ кол-вом картинок к товарам.
Иногда некоторые умельцы начинают скачивать сайт целиком :eek: ,
что безумно нагружает сервер и увеличивает трафик.
Принято решение программно определять такие ситуации и отрубать.
Так вот теперь я беспокоюсь за роботов.
Возможно имеет смысл отрубать по какому-то лимиту скачанных картинок в долю времени. Но как же тогда "P"-шный робот того же Яндекса?
То, что он скачивает картинки - без сомнения (надо же ему как-то их уменьшить для im-tub.yandex.ru).
У кого была подобная ситуация? Поделитесь опытом...
:confused:
М.б. запретить качать картинки через robots.txt?
Если нельзя - то робот который картинки качает - известен. Его не ограничивать - прочих ограничить.
определять такие ситуации и отрубать.
Робот Яндекса и картиночный робот действуют независимо во времени. Умелец, скачивающий сайт целиком, скорее всего будет делать все подряд -- вначале скачивать HTML (возможно, используя тот же User-Agent, что и картиночный робот), а затем скачивать картинки. На этом его можно поймать.
С уважением,
Александр Садовский.
sorry
fire, пошуруйте тут:
http://www.google.com/search?hl=en&lr=&ie=UTF-8&oe=UTF-8&q=bot+trap
http://www.google.com/search?hl=en&lr=&ie=UTF-8&oe=UTF-8&q=bot+traps
М.б. запретить качать картинки через robots.txt?
Teleport pro например игнорирует его...
Может остальные типа WebZIP, HTTPClient, Website Quester, XWareCrawler, Website Extractor, Website eXtractor, x-Tractor, WebCopier, Indy Library на него ориентируются?
Возможно тогда имеет смысл их User-Agent'ов прописать, но этож какой robot.txt получится ?
Может быть через .htaccess как советуют Здесь?
Если нельзя - то робот который картинки качает - известен. Его не ограничивать - прочих ограничить.
Только если злодей не "притворится роботом". Ограничивать по кол-ву конекций или по весу забираемого?
Робот Яндекса и картиночный робот действуют независимо во времени. Умелец, скачивающий сайт целиком, скорее всего будет делать все подряд -- вначале скачивать HTML (возможно, используя тот же User-Agent, что и картиночный робот), а затем скачивать картинки. На этом его можно поймать.
Тоесть картиночный робот занимается только выкачиванием картинок?
Я считал, что он же и с alt'ами к ним разбираеться, а если так, то должен и html забирать...
Тоесть картиночный робот занимается только выкачиванием картинок?
Насколько я знаю, да.
Робот, выкачивающий картинки, и модуль, занимающийся ранжированием картинок -- это разные вещи. У меня картиночный робот к html-файлам не обращался, и, думаю, это не случайно -- зачем второй раз тянуть html, если он уже лежит в базе?
С уважением,
Александр Садовский.
добавляешь в .htaccess
------------
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^DISCoPump.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Drip.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Gets.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^IBrowse.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^InternetNinja.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^JustView.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDowntool.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^MisterPiX.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^OfflineExplorer.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^PapaFoto.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pockey.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Slurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebImageCollector.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSucker.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Webster.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^lftp.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut.*
RewriteRule .[Jj][Pp][Gg]*$ /Dont_grab_my_pics_facked_bastard.gif [L]
------------
Перечисляем все известные нам офф-лайн браузеры и сайтограбилки (не их коммерческие названия, а значения, которые они передают в параметре HTTP_USER_AGENT). На запросы этих программ сервер отправит не JPG-файл (его, в виде [Jj][Pp][Gg] мы проставляем в строке RewriteRule), а крохотный однопиксельный Dont_grab_my_pics_facked_bastard.gif.
Похоже что так можно попытаться :)
"Картиночный" робот Яндекса выкачивает только картинки - факт. Всю прочую информацию ему поставляет индексирующий робот.
В качестве способов защиты от перенагрузки сервера от любителей тотального скачивания сайтов могу рассказать следующее: на одном из подшефных мне сайтов сделана система ловушек, которые расположены на всех критичных страницах и устроены так, что ловят на себя всех роботов, которые не соблюдают правила robots.txt + игнорируют <META CONTENT="Robots"...>. Как только кто-либо попадает хотя бы в одну из ловушек, против него идут санкции, направленные на прекращение его активности. Чтобы человек поздно спохватился, начало санкций имитирует сильную перенагрузку сервера (при том, что другие пользователи нормально работают и проблем не знают).
Подробнее рассказывать не могу - не хочется заново делать защиту, если ее научатся обходить слишком много гоблинов.
Увы, такая защита не помогает от особо заинтересованных - кто подумает, может легко ее обойти. Но таких мало - за 2 года работы сайта всего была пара человек...
У меня картиночный робот к html-файлам не обращался, и, думаю, это не случайно -- зачем второй раз тянуть html, если он уже лежит в базе?
Да, осознал свою неправоту, задавшись именно этим вопросом.
Тогда действительно, у нас есть такой параметр по которому мы можем подтвердить "P"-шника, и злодею остаётся только один шанс - не трогать html притворяясь ПЭшкой.