Что делать с чересчур умным парсером?

12
Solmyr
На сайте с 10.09.2007
Offline
501
1203

В общем проблема предельно проста. Нехороший человек парсит сайты и копирует с них свежий контент (объявления). Однако есть ряд существенных осложнений, которые затрудняют блокирование:

1. Парсит с динамически выделяемых IP городского провайдера, после бана IPа быстро его меняет.

2. Все заголовки подделывает правильно.

3. С других сайтов (не с моего) копирует в.т.ч используя OCR, поэтому делать номера телефонов в объявлениях картинками - не вариант.

Какие есть идеи, как воспрепятствовать?

P
На сайте с 10.03.2008
Offline
168
#1

Пусть дальше парсит, ничего тут не сделать. Если отображается на мониторе - значит доступно.

kxk
На сайте с 30.01.2005
Offline
990
kxk
#2

Solmyr, Динамические куки понимает ?

Ваш DEVOPS
edogs software
На сайте с 15.12.2005
Offline
775
#3
Solmyr:
1. Парсит с динамически выделяемых IP городского провайдера, после бана IPа быстро его меняет.

Диапозон скорее всего неизменен, раз провайдер, значит можно цепляться за диапозон. Попробуйте так же отреверсить IP в имя узла, возможно увидите нечто вроде client-2588.provider.ru - это тоже показатель.

Правда следующий шаг у грабителя будет прокси.

Solmyr:
2. Все заголовки подделывает правильно.

Обрабатывает ли яваскрипт и/или запрашивает ли картинки? Это признак за который можно цеплятся (главное яндексов всяких не отсеять при этом).

Solmyr:
3. С других сайтов (не с моего) копирует в.т.ч используя OCR, поэтому делать номера телефонов в объявлениях картинками - не вариант.

Можно выдавать телефон после ввода капчи.

Solmyr:
Какие есть идеи, как воспрепятствовать?

Если парсит объявления туповато, то можно включать в текст объявления сигнатуры - для каждого ИП свою. Увидев сигнатуру на ресурса грабителя - забанить ИП с которого он сграбил и/или выдавать этому ИП в дальнейшему пургу.

Кроме того, можно попробовать сделать "динамическую" верстку.

То <div вписать, то <span то вместо <b class id > написать <b id class>, в общем поизвращаться с ключевыми зацепками для граббера.

Разработка крупных и средних проектов. Можно с криптой. Разумные цены. Хорошее качество. Адекватный подход. Продаем lenovo legion в спб, дешевле магазинов, новые, запечатанные. Есть разные. skype: edogssoft
Solmyr
На сайте с 10.09.2007
Offline
501
#4
kxk:
Solmyr, Динамические куки понимает ?

Пока не пробовал, и проверку на javascript не пробовал, но скорее всего запрограммирует - оно ему очень надо.

edogs:
Диапозон скорее всего неизменен, раз провайдер, значит можно цепляться за диапозон. Попробуйте так же отреверсить IP в имя узла, возможно увидите нечто вроде client-2588.provider.ru - это тоже показатель.
Правда следующий шаг у грабителя будет прокси.

Не в том дело что диапазон, а в том что провайдера этого банить нельзя.

edogs:
Обрабатывает ли яваскрипт и/или запрашивает ли картинки? Это признак за который можно цеплятся (главное яндексов всяких не отсеять при этом).

Это надо обмозговать. Понятно что при нужде легко запрограммирует, но вероятно есть существенные нюансы в обработке картинок броузером и тем скриптом что он напишет. С поисковиками я его конечно не спутаю.

edogs:
Можно выдавать телефон после ввода капчи.

Неудобно для людей.

edogs:
Если парсит объявления туповато, то можно включать в текст объявления сигнатуры - для каждого ИП свою. Увидев сигнатуру на ресурса грабителя - забанить ИП с которого он сграбил и/или выдавать этому ИП в дальнейшему пургу.

Пока что на данный момент, я его выявлять могу по "поведению бота" - по тому порядку в котором он урлы запрашивает, и еще по паре признаков. Банить по этим признаком не хочу пока - боюсь что поумнее что придумает, тогда я сам его видеть перестану. Кстати мысля на банить, а выдвать его боту вместо бана автогенерированную пургу у меня имеется.

Хочу вот еще какие будут идеи послушать.

zhitov
На сайте с 30.01.2005
Offline
219
#5
edogs:
сделать "динамическую" верстку

Лучше всего, замучается парсер править...

Строительные калькуляторы ( https://www.zhitov.com/ )
N
На сайте с 06.05.2007
Offline
419
#6

zhitov, это еще не известно что больше времени займет, попытки сверстать разными тегами чтобы выглядело одинаково или написание парсера под очередной выкрутас.

тут в соседнем разделе говорят, что написание xpath выражений занимает 5 минут на сайт /ru/forum/721179. А эти выражения могут весьма разнообразные фокусы скушать.

ТС, "смирись и расслабься".

Кнопка вызова админа ()
Solmyr
На сайте с 10.09.2007
Offline
501
#7

Не, расслабиться не годится. Как насчет вебвизороподобных технологий?

edogs software
На сайте с 15.12.2005
Offline
775
#8
netwind:
zhitov, это еще не известно что больше времени займет, попытки сверстать разными тегами чтобы выглядело одинаково или написание парсера под очередной выкрутас.
тут в соседнем разделе говорят, что написание xpath выражений занимает 5 минут на сайт /ru/forum/721179. А эти выражения могут весьма разнообразные фокусы скушать.

Надо просто верстку "динамически" скриптом генерить с тем прицелом что бы xpath бился. Тут правда не знаем как яндексы могут отнестись к тому, что каждая страница со своей версткой, впрочем может даже положительно:)

Solmyr:
Не, расслабиться не годится. Как насчет вебвизороподобных технологий?

По сути яваскрипты и картинки, отслеживание мыши и т.д.? Неплохая идея против "обычных" грабберов.

Но не абсолютный киллер, если человек грабит чем-то вроде humanemulator или типа того (т.е. непосредственно браузером через АПИ ходят по сайту).

LEOnidUKG
На сайте с 25.11.2006
Offline
1774
#9
zhitov:
Лучше всего, замучается парсер править...

Да ладно?

if (между дивами >N количество символов) {Парсить}

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/
R
На сайте с 13.06.2012
Offline
1
#10
1. Парсит с динамически выделяемых IP городского провайдера, после бана IPа быстро его меняет.

А тебе этот городской провайдер много трафика приносит? Забань всю его подсеть?

Путать теги или ещё что-то рандомно менять.. Во всех рандомах всегда найдутся константы, от них и будут плясать.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий