- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
В общем проблема предельно проста. Нехороший человек парсит сайты и копирует с них свежий контент (объявления). Однако есть ряд существенных осложнений, которые затрудняют блокирование:
1. Парсит с динамически выделяемых IP городского провайдера, после бана IPа быстро его меняет.
2. Все заголовки подделывает правильно.
3. С других сайтов (не с моего) копирует в.т.ч используя OCR, поэтому делать номера телефонов в объявлениях картинками - не вариант.
Какие есть идеи, как воспрепятствовать?
Пусть дальше парсит, ничего тут не сделать. Если отображается на мониторе - значит доступно.
Solmyr, Динамические куки понимает ?
1. Парсит с динамически выделяемых IP городского провайдера, после бана IPа быстро его меняет.
Диапозон скорее всего неизменен, раз провайдер, значит можно цепляться за диапозон. Попробуйте так же отреверсить IP в имя узла, возможно увидите нечто вроде client-2588.provider.ru - это тоже показатель.
Правда следующий шаг у грабителя будет прокси.
2. Все заголовки подделывает правильно.
Обрабатывает ли яваскрипт и/или запрашивает ли картинки? Это признак за который можно цеплятся (главное яндексов всяких не отсеять при этом).
3. С других сайтов (не с моего) копирует в.т.ч используя OCR, поэтому делать номера телефонов в объявлениях картинками - не вариант.
Можно выдавать телефон после ввода капчи.
Какие есть идеи, как воспрепятствовать?
Если парсит объявления туповато, то можно включать в текст объявления сигнатуры - для каждого ИП свою. Увидев сигнатуру на ресурса грабителя - забанить ИП с которого он сграбил и/или выдавать этому ИП в дальнейшему пургу.
Кроме того, можно попробовать сделать "динамическую" верстку.
То <div вписать, то <span то вместо <b class id > написать <b id class>, в общем поизвращаться с ключевыми зацепками для граббера.
Solmyr, Динамические куки понимает ?
Пока не пробовал, и проверку на javascript не пробовал, но скорее всего запрограммирует - оно ему очень надо.
Диапозон скорее всего неизменен, раз провайдер, значит можно цепляться за диапозон. Попробуйте так же отреверсить IP в имя узла, возможно увидите нечто вроде client-2588.provider.ru - это тоже показатель.
Правда следующий шаг у грабителя будет прокси.
Не в том дело что диапазон, а в том что провайдера этого банить нельзя.
Обрабатывает ли яваскрипт и/или запрашивает ли картинки? Это признак за который можно цеплятся (главное яндексов всяких не отсеять при этом).
Это надо обмозговать. Понятно что при нужде легко запрограммирует, но вероятно есть существенные нюансы в обработке картинок броузером и тем скриптом что он напишет. С поисковиками я его конечно не спутаю.
Можно выдавать телефон после ввода капчи.
Неудобно для людей.
Если парсит объявления туповато, то можно включать в текст объявления сигнатуры - для каждого ИП свою. Увидев сигнатуру на ресурса грабителя - забанить ИП с которого он сграбил и/или выдавать этому ИП в дальнейшему пургу.
Пока что на данный момент, я его выявлять могу по "поведению бота" - по тому порядку в котором он урлы запрашивает, и еще по паре признаков. Банить по этим признаком не хочу пока - боюсь что поумнее что придумает, тогда я сам его видеть перестану. Кстати мысля на банить, а выдвать его боту вместо бана автогенерированную пургу у меня имеется.
Хочу вот еще какие будут идеи послушать.
сделать "динамическую" верстку
Лучше всего, замучается парсер править...
zhitov, это еще не известно что больше времени займет, попытки сверстать разными тегами чтобы выглядело одинаково или написание парсера под очередной выкрутас.
тут в соседнем разделе говорят, что написание xpath выражений занимает 5 минут на сайт /ru/forum/721179. А эти выражения могут весьма разнообразные фокусы скушать.
ТС, "смирись и расслабься".
Не, расслабиться не годится. Как насчет вебвизороподобных технологий?
zhitov, это еще не известно что больше времени займет, попытки сверстать разными тегами чтобы выглядело одинаково или написание парсера под очередной выкрутас.
тут в соседнем разделе говорят, что написание xpath выражений занимает 5 минут на сайт /ru/forum/721179. А эти выражения могут весьма разнообразные фокусы скушать.
Надо просто верстку "динамически" скриптом генерить с тем прицелом что бы xpath бился. Тут правда не знаем как яндексы могут отнестись к тому, что каждая страница со своей версткой, впрочем может даже положительно:)
Не, расслабиться не годится. Как насчет вебвизороподобных технологий?
По сути яваскрипты и картинки, отслеживание мыши и т.д.? Неплохая идея против "обычных" грабберов.
Но не абсолютный киллер, если человек грабит чем-то вроде humanemulator или типа того (т.е. непосредственно браузером через АПИ ходят по сайту).
Лучше всего, замучается парсер править...
Да ладно?
if (между дивами >N количество символов) {Парсить}
А тебе этот городской провайдер много трафика приносит? Забань всю его подсеть?
Путать теги или ещё что-то рандомно менять.. Во всех рандомах всегда найдутся константы, от них и будут плясать.