Забаните на месяцок такой ip, чтобы вычислить хитроботов поисковиков - Веб-строительство

Защита от парсеров

Dram · 2010-06-15T11:48:08.0000000Z

Нашел копию своего самого посещаемого сайта, обидно, хоть копия и не ранжируется высоко - все равно уроды они. Задумался над защитой. У меня VDS, дибиан с панелью центр ос + рут доступ. Можно как то ограничить скачивание информации, например принудительно выставить скорость в 10 кб/сек и ограничить объем скачиваемой инфы, например не более 100 мб в неделю. Как вообще можно усложнить жизнь любителям попарсить?

208

edka

16 июня 2010, 17:24

#41

Яву не распарсишь так просто, она же в браузере должна обрабатываться, а у парсеров только пхп :)

я писал как-то парсер для мониторинг сетевого МФУ, он отдавал инфу о состоянии картриджей в яве, так там в исходном коде даже намека небыло на нужные мне данные и то, что отображалось в браузере, вобщем так и бросил эту идею :)

N

114

nmarket

16 июня 2010, 17:52

#42

Можно усложить работу парсеров, но это только спасет от универсальных ботов. Если кому-то именно ваш сайт очень понадобится, пробьют всё что угодно.

1. Скрипт, который блочит на 2 часа ip юзера, если тот посещает больше 10 страниц за 30 сек. Нужных роботов по useragent или известным подсетям пропускаем.

2. роботов которые имеют useragent поисковиков надо обрабатывать отдельно. Тут потребуется небольшая задержка, пока ip передастся в таблицу, там проверится. Обычно уходит 10-20 секунд на проверку.

А определить робота поисковиков можно по ptr записи ip (примерно такие будут spider65.yandex.ru, crawl-66-249-67-72.googlebot.com и т.д.). Контрольно я проверяю еще whois.

3. На сайте на главной делаем ссылку картинку размером в 1px, которую может посетить только робот, т.к. человек явно её не найдет. Тоже баним на месяцок такой ip

У себя такое реализовал года 2 назад. Могу сказать, что на данный момент из 4900 ip, которые представились поисковыми роботами 1025 ip являются действительно ip поисковых систем, остальные парсеры, которые идут лесом для всех моих сайтов.

Ну, а про то как вычислить хитроботов поисковиков не расскажу ))

D

79

digwnews

16 июня 2010, 18:47

#43

edka:
Яву не распарсишь так просто, она же в браузере должна обрабатываться, а у парсеров только пхп :)
я писал как-то парсер для мониторинг сетевого МФУ, он отдавал инфу о состоянии картриджей в яве, так там в исходном коде даже намека небыло на нужные мне данные и то, что отображалось в браузере, вобщем так и бросил эту идею :)

Ну и что, что она в браузере обрабатывается. Всё равно контент же откуда-то берётся. Явы спасут только от универсального парсера. Да и такого в общем-то не существует.

А идея с банами по ip - бред. Вы усложните только жизнь нормальным юзерам и найдёте проблем на одно место(не только с ПС).

В общем пока что все предложения усложняют жизнь всем, кроме парсеров.:)

[Удален]

17 июня 2010, 00:20

#44

вы тут строите замечательные гипотезы, забывая про многопоточность и прокси :)

ну и забаните вы 5 000 прокси? вот мне не без разницы например? если сайт уже слился? 🤣

L

351

Ladycharm

17 июня 2010, 02:45

#45

юни:
Ну в смысле, ручками... хуизы-то тоже меняются, хоть на гугловские, хоть на Яндекса, хоть на какие.

А traceroute в этом случае пойдет по маршрутизаторам Яндекса в его подсети? :)

Плохо то, что Яндекс использует роботов-имитаторов, использующих "левые IP" для своих проверок. И пару месяцев назад Яндексоиды исправили часть багов в этих роботах, что сильно затруднило их распознавание.

edka:
Яву не распарсишь так просто, она же в браузере должна обрабатываться, а у парсеров только пхп :)

Надо просто написать (например на C++) надстройку над IE и запускать свой парсер через штатный браузер. Браузер сам разберется с Явой, а Вы получите готовый HTML-код.

А можно заюзать штатный браузер и средствами PHP, и не важно, что браузер физически запущен на другом компе.

Вопрос по js, как Языки программирования, на которых Amazon создал собственный браузер

990

kxk

17 июня 2010, 03:53

#46

Ladycharm, Да там не левые там обычно прокси на опере мини или по хуису ДЦ Wahome :) Это про известных мне хитроботов (убойся великий Яндекс пыш пыш)

Ваш DEVOPS

L

351

Ladycharm

17 июня 2010, 04:18

#47

kxk:
Ladycharm, Да там не левые там обычно прокси на опере мини или по хуису ДЦ Wahome :)

Отловленные с начала 2010 - по хуису Корбина, как технически реализовано - данных нет, но картинки, стили и скрипты - грузят :)

Заходят "типа" с СЕРПа Яндекса по правильным запросам, сначала с Яндексовского IP, а потом - с "левого" по этому же запросу. А некоторые - сразу с левого IP заходят.

Непонятно, зачем еженевно простукивать одни и те же страницы по одним и тем же запросам.

Я к тому, что защищаться от парсеров надо очень аккуратно.

990

kxk

17 июня 2010, 04:35

#48

Ladycharm, Почему же понятно, чтобы клоакинга небыло

933

юни

17 июня 2010, 04:45

#49

Ladycharm:
А traceroute в этом случае пойдет по маршрутизаторам Яндекса в его подсети?

Нет. Он пойдёт через ip пользователя, ip провайдера, нескольким стыковочным ip, типа MSK-IX, затем через ip какого-нибудь глобального росийского магистральщика, и затем через ip, хуиз которого будет указывать на Яндекс.

Но и не проблема, насколько я помню, сделать несколько адресов с обратной зоной, указывающей на Яндекс, которые будут изображать из себя узлы в его подсети (после прохождения глобального магистральщика).

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит

L

351

Ladycharm

17 июня 2010, 07:37

#50

юни:
сделать несколько адресов с обратной зоной, указывающей на Яндекс

Спрятаться можно, но ... Тут уже отлавливали такого хитрого бота ещё в 2006, robot8.rambler.ru называется, IP 81.222.64.10 (кстати, до сих пор бегает по сайтам).

nslookup robot8.rambler.ru -> 81.222.64.10

nslookup 81.222.64.10 -> ds701-002.eltel.net

Только ему, наоборот, прямую зону прописали, а обратную - нет. И саппорт Рамблера клялся, что это не их бот, а кто ж авторитарную зону DNS прописать сумел :)

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Защита от парсеров