Опять про защиту от парсинга

D
На сайте с 28.06.2008
Offline
1114
864

Господа, будет ли рабочий следующий вариант защиты:

1. Ставим в настройках Гугла и Яндекса скорость сканирования сайта, если быстрее - 1-й звоночек

2. Ставим невидимую ссылку на всех страницах и запрещаем ее в роботс.тхт - если кто-то перешел по ней - второй звоночек.

3. Если первые два условия выполнены можно либо сразу бан по IP либо + проверка по whois, ежели не Поисковик - бан навсегда.

Прошу мастеров парсинга высказаться, сложно ли обойти такую защиту?

M
На сайте с 14.05.2010
Offline
55
#1

Ну я не мастер пока, "я пока только учусь" ;), но постараюсь ответить/обосновать.

"скорость сканирования сайта, если быстрее - 1-й звоночек" - неплохо

"невидимую ссылку на всех страницах" - смотря какая ссылка, и как грабить сайт. Я, к примеру, "пауков" практически не пишу, если парсю, то именно те ссылки по которым мне нужна инфа. Хотя могу заглянуть и по скрытой ссылке, но не факт.

"бан по IP + проверка по whois" - возможно нубский ответ, но разве все это не измениться при применении проксей?

В целом, как раз планирую заняться проксями так что после этого стану более компетентным. Но по крайней мере, если прокся действительно анонимная, как в таком случае распознать - 100 страниц в минуту открыто с одного компа или со 100 разных ?

I
На сайте с 04.08.2006
Offline
112
#2

При парсинге использую ТОР, так что такие решения не помогут. Подумаю как защититься, и тогда отпишусь.

Инновационный автомобильный проект. Экономия от 500 - 3000$ при покупке автомобиля (http://autoline24.com.ua) Магазин-блог уникальных полезных скриптов (http://ivashka.org.ua)
Z1
На сайте с 09.12.2005
Offline
164
#3

Видел когда-то прикольную защиту. Там на каждой странице была невидимая картинка 1*1. Браузер честного юзверя её тащил, а тупые боты же не тащат. На основании этого айпишники ботов быстро улетали в бан на пару суток. Можно то же самое прикрепить к джаваскриптам. Конечно, при таком подходе будут страдать люди, у которых отключены картинки/джавоскрипты, но таких довольно мало. Но если кто-то уж целенаправленно взялся сграбить ваш сайтик - то этого не избежать.

samimages
На сайте с 31.05.2009
Offline
427
#4

Проблема по клиенту не решаема?

Если клиент не гугль и не яндекс (а они подписываются) и запросов много, то IP заносится в базу...

если клиент не понятный, то банится... можно по большому счету и сразу, но не всегда надо...

Опыт как иммунитет — приобретается в муках! Аудит семантики от 15К [долго] - ЛС
D
На сайте с 28.06.2008
Offline
1114
#5

Можно легко имитировать подпись Яндекса и Гугла

DarkSeer
На сайте с 29.10.2009
Offline
129
#6

сейчас это уже не проблема, яндекс научился распознавать первоисточник!

F
На сайте с 24.04.2009
Offline
45
#7
DarkSeer:
сейчас это уже не проблема, яндекс научился распознавать первоисточник!

Нифига он не научился еще толком.

T
На сайте с 28.10.2005
Offline
182
#8
DarkSeer:
сейчас это уже не проблема, яндекс научился распознавать первоисточник!

О! новость, гы-гы

как неумел так и не умеет, это пока нереально

А вообще захотят спарсить, так спарсят, ни чего не спасет

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий