Что делать с чересчур умным парсером?

501

Solmyr

12 июня 2012, 16:16

1214

В общем проблема предельно проста. Нехороший человек парсит сайты и копирует с них свежий контент (объявления). Однако есть ряд существенных осложнений, которые затрудняют блокирование:

1. Парсит с динамически выделяемых IP городского провайдера, после бана IPа быстро его меняет.

2. Все заголовки подделывает правильно.

3. С других сайтов (не с моего) копирует в.т.ч используя OCR, поэтому делать номера телефонов в объявлениях картинками - не вариант.

Какие есть идеи, как воспрепятствовать?

P

168

pistol

12 июня 2012, 17:00

#1

Пусть дальше парсит, ничего тут не сделать. Если отображается на мониторе - значит доступно.

990

kxk

12 июня 2012, 17:14

#2

Solmyr, Динамические куки понимает ?

1

Ваш DEVOPS

775

edogs software

12 июня 2012, 17:21

#3

Solmyr:
1. Парсит с динамически выделяемых IP городского провайдера, после бана IPа быстро его меняет.

Диапозон скорее всего неизменен, раз провайдер, значит можно цепляться за диапозон. Попробуйте так же отреверсить IP в имя узла, возможно увидите нечто вроде client-2588.provider.ru - это тоже показатель.

Правда следующий шаг у грабителя будет прокси.

Solmyr:
2. Все заголовки подделывает правильно.

Обрабатывает ли яваскрипт и/или запрашивает ли картинки? Это признак за который можно цеплятся (главное яндексов всяких не отсеять при этом).

Solmyr:
3. С других сайтов (не с моего) копирует в.т.ч используя OCR, поэтому делать номера телефонов в объявлениях картинками - не вариант.

Можно выдавать телефон после ввода капчи.

Solmyr:
Какие есть идеи, как воспрепятствовать?

Если парсит объявления туповато, то можно включать в текст объявления сигнатуры - для каждого ИП свою. Увидев сигнатуру на ресурса грабителя - забанить ИП с которого он сграбил и/или выдавать этому ИП в дальнейшему пургу.

Кроме того, можно попробовать сделать "динамическую" верстку.

То <div вписать, то <span то вместо <b class id > написать <b id class>, в общем поизвращаться с ключевыми зацепками для граббера.

2

Разработка крупных и средних проектов. Можно с криптой. Разумные цены. Хорошее качество. Адекватный подход. Продаем lenovo legion в спб, дешевле магазинов, новые, запечатанные. Есть разные. skype: edogssoft

Спам от конкурента, скликивание Внимание! Помогаем составит ФАК, Парсигнатор и двиг недвижимости

501

Solmyr

12 июня 2012, 19:57

#4

kxk:
Solmyr, Динамические куки понимает ?

Пока не пробовал, и проверку на javascript не пробовал, но скорее всего запрограммирует - оно ему очень надо.

edogs:
Диапозон скорее всего неизменен, раз провайдер, значит можно цепляться за диапозон. Попробуйте так же отреверсить IP в имя узла, возможно увидите нечто вроде client-2588.provider.ru - это тоже показатель.
Правда следующий шаг у грабителя будет прокси.

Не в том дело что диапазон, а в том что провайдера этого банить нельзя.

edogs:
Обрабатывает ли яваскрипт и/или запрашивает ли картинки? Это признак за который можно цеплятся (главное яндексов всяких не отсеять при этом).

Это надо обмозговать. Понятно что при нужде легко запрограммирует, но вероятно есть существенные нюансы в обработке картинок броузером и тем скриптом что он напишет. С поисковиками я его конечно не спутаю.

edogs:
Можно выдавать телефон после ввода капчи.

Неудобно для людей.

edogs:
Если парсит объявления туповато, то можно включать в текст объявления сигнатуры - для каждого ИП свою. Увидев сигнатуру на ресурса грабителя - забанить ИП с которого он сграбил и/или выдавать этому ИП в дальнейшему пургу.

Пока что на данный момент, я его выявлять могу по "поведению бота" - по тому порядку в котором он урлы запрашивает, и еще по паре признаков. Банить по этим признаком не хочу пока - боюсь что поумнее что придумает, тогда я сам его видеть перестану. Кстати мысля на банить, а выдвать его боту вместо бана автогенерированную пургу у меня имеется.

Хочу вот еще какие будут идеи послушать.

Автоматическая регистрация более чем Проблема с капчей яндекса Ссылки с хакнутых сайтов

219

zhitov

12 июня 2012, 20:23

#5

edogs:
сделать "динамическую" верстку

Лучше всего, замучается парсер править...

Строительные калькуляторы ( https://www.zhitov.com/ )

N

419

netwind

13 июня 2012, 07:07

#6

zhitov, это еще не известно что больше времени займет, попытки сверстать разными тегами чтобы выглядело одинаково или написание парсера под очередной выкрутас.

тут в соседнем разделе говорят, что написание xpath выражений занимает 5 минут на сайт /ru/forum/721179. А эти выражения могут весьма разнообразные фокусы скушать.

ТС, "смирись и расслабься".

Кнопка вызова админа ()

Качественное ручное размножение англоязычных Прогон вашей статьи по Составить XPath'ы для сайтов

501

Solmyr

13 июня 2012, 07:50

#7

Не, расслабиться не годится. Как насчет вебвизороподобных технологий?

775

edogs software

13 июня 2012, 09:09

#8

netwind:
zhitov, это еще не известно что больше времени займет, попытки сверстать разными тегами чтобы выглядело одинаково или написание парсера под очередной выкрутас.
тут в соседнем разделе говорят, что написание xpath выражений занимает 5 минут на сайт /ru/forum/721179. А эти выражения могут весьма разнообразные фокусы скушать.

Надо просто верстку "динамически" скриптом генерить с тем прицелом что бы xpath бился. Тут правда не знаем как яндексы могут отнестись к тому, что каждая страница со своей версткой, впрочем может даже положительно:)

Solmyr:
Не, расслабиться не годится. Как насчет вебвизороподобных технологий?

По сути яваскрипты и картинки, отслеживание мыши и т.д.? Неплохая идея против "обычных" грабберов.

Но не абсолютный киллер, если человек грабит чем-то вроде humanemulator или типа того (т.е. непосредственно браузером через АПИ ходят по сайту).

GameLeads - до 130$ [JavaScript] эффект прокурутки каринок Дружина РФ - очередной

1784

LEOnidUKG

13 июня 2012, 09:09

#9

zhitov:
Лучше всего, замучается парсер править...

Да ладно?

if (между дивами >N количество символов) {Парсить}

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/

R

1

r3al

13 июня 2012, 09:31

#10

1. Парсит с динамически выделяемых IP городского провайдера, после бана IPа быстро его меняет.

А тебе этот городской провайдер много трафика приносит? Забань всю его подсеть?

Путать теги или ещё что-то рандомно менять.. Во всех рандомах всегда найдутся константы, от них и будут плясать.

Стоит ли платить $60 опять задержки с выплатами Упоминание названия сайта в

Переиграть и победить: как анализировать конкурентов для продвижения сайта

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи