Защита от парсеров

edka
На сайте с 17.01.2010
Offline
208
#41

Яву не распарсишь так просто, она же в браузере должна обрабатываться, а у парсеров только пхп :)

я писал как-то парсер для мониторинг сетевого МФУ, он отдавал инфу о состоянии картриджей в яве, так там в исходном коде даже намека небыло на нужные мне данные и то, что отображалось в браузере, вобщем так и бросил эту идею :)

N
На сайте с 03.07.2007
Offline
114
#42

Можно усложить работу парсеров, но это только спасет от универсальных ботов. Если кому-то именно ваш сайт очень понадобится, пробьют всё что угодно.

1. Скрипт, который блочит на 2 часа ip юзера, если тот посещает больше 10 страниц за 30 сек. Нужных роботов по useragent или известным подсетям пропускаем.

2. роботов которые имеют useragent поисковиков надо обрабатывать отдельно. Тут потребуется небольшая задержка, пока ip передастся в таблицу, там проверится. Обычно уходит 10-20 секунд на проверку.

А определить робота поисковиков можно по ptr записи ip (примерно такие будут spider65.yandex.ru, crawl-66-249-67-72.googlebot.com и т.д.). Контрольно я проверяю еще whois.

3. На сайте на главной делаем ссылку картинку размером в 1px, которую может посетить только робот, т.к. человек явно её не найдет. Тоже баним на месяцок такой ip

У себя такое реализовал года 2 назад. Могу сказать, что на данный момент из 4900 ip, которые представились поисковыми роботами 1025 ip являются действительно ip поисковых систем, остальные парсеры, которые идут лесом для всех моих сайтов.

Ну, а про то как вычислить хитроботов поисковиков не расскажу ))

D
На сайте с 09.07.2009
Offline
79
#43
edka:
Яву не распарсишь так просто, она же в браузере должна обрабатываться, а у парсеров только пхп :)
я писал как-то парсер для мониторинг сетевого МФУ, он отдавал инфу о состоянии картриджей в яве, так там в исходном коде даже намека небыло на нужные мне данные и то, что отображалось в браузере, вобщем так и бросил эту идею :)

Ну и что, что она в браузере обрабатывается. Всё равно контент же откуда-то берётся. Явы спасут только от универсального парсера. Да и такого в общем-то не существует.

А идея с банами по ip - бред. Вы усложните только жизнь нормальным юзерам и найдёте проблем на одно место(не только с ПС).

В общем пока что все предложения усложняют жизнь всем, кроме парсеров.:)

[Удален]
#44

вы тут строите замечательные гипотезы, забывая про многопоточность и прокси :)

ну и забаните вы 5 000 прокси? вот мне не без разницы например? если сайт уже слился? 🤣

L
На сайте с 07.12.2007
Offline
351
#45
юни:
Ну в смысле, ручками... хуизы-то тоже меняются, хоть на гугловские, хоть на Яндекса, хоть на какие.

А traceroute в этом случае пойдет по маршрутизаторам Яндекса в его подсети? :)

Плохо то, что Яндекс использует роботов-имитаторов, использующих "левые IP" для своих проверок. И пару месяцев назад Яндексоиды исправили часть багов в этих роботах, что сильно затруднило их распознавание.

edka:
Яву не распарсишь так просто, она же в браузере должна обрабатываться, а у парсеров только пхп :)

Надо просто написать (например на C++) надстройку над IE и запускать свой парсер через штатный браузер. Браузер сам разберется с Явой, а Вы получите готовый HTML-код.

А можно заюзать штатный браузер и средствами PHP, и не важно, что браузер физически запущен на другом компе.

kxk
На сайте с 30.01.2005
Offline
990
kxk
#46

Ladycharm, Да там не левые там обычно прокси на опере мини или по хуису ДЦ Wahome :) Это про известных мне хитроботов (убойся великий Яндекс пыш пыш)

Ваш DEVOPS
L
На сайте с 07.12.2007
Offline
351
#47
kxk:
Ladycharm, Да там не левые там обычно прокси на опере мини или по хуису ДЦ Wahome :)

Отловленные с начала 2010 - по хуису Корбина, как технически реализовано - данных нет, но картинки, стили и скрипты - грузят :)

Заходят "типа" с СЕРПа Яндекса по правильным запросам, сначала с Яндексовского IP, а потом - с "левого" по этому же запросу. А некоторые - сразу с левого IP заходят.

Непонятно, зачем еженевно простукивать одни и те же страницы по одним и тем же запросам.

Я к тому, что защищаться от парсеров надо очень аккуратно.

kxk
На сайте с 30.01.2005
Offline
990
kxk
#48

Ladycharm, Почему же понятно, чтобы клоакинга небыло

юни
На сайте с 01.11.2005
Offline
916
#49
Ladycharm:
А traceroute в этом случае пойдет по маршрутизаторам Яндекса в его подсети?

Нет. Он пойдёт через ip пользователя, ip провайдера, нескольким стыковочным ip, типа MSK-IX, затем через ip какого-нибудь глобального росийского магистральщика, и затем через ip, хуиз которого будет указывать на Яндекс.

Но и не проблема, насколько я помню, сделать несколько адресов с обратной зоной, указывающей на Яндекс, которые будут изображать из себя узлы в его подсети (после прохождения глобального магистральщика).

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
L
На сайте с 07.12.2007
Offline
351
#50
юни:
сделать несколько адресов с обратной зоной, указывающей на Яндекс

Спрятаться можно, но ... Тут уже отлавливали такого хитрого бота ещё в 2006, robot8.rambler.ru называется, IP 81.222.64.10 (кстати, до сих пор бегает по сайтам).

nslookup robot8.rambler.ru -> 81.222.64.10

nslookup 81.222.64.10 -> ds701-002.eltel.net

Только ему, наоборот, прямую зону прописали, а обратную - нет. И саппорт Рамблера клялся, что это не их бот, а кто ж авторитарную зону DNS прописать сумел :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий