Защита от парсера, гонка вооружений

12 3
humbert
На сайте с 16.03.2006
Offline
536
2720

Прочитал /ru/forum/450188, кое-что для себя взял.

Надо защитить сайт от парсинга, устроим мозговой штурм?:)

Сам часто занимался написанием парсеров, не припомню ни одного случая, когда не удавалось спарсить, разве что Яндекс с Гуглом не сильно поддавались. Но я и парсильщик так себе.

Какая защита поможет защититься от парсинга?

Парсинг прайс-листов, наполнение интернет-магазина товаром. (https://humbert.ru) Любая CMS (Битрикс, OpenCart, Prestashop и даже Woo Commerce )
IO
На сайте с 23.09.2012
Offline
1
#1

1. Доступность данных после автоизации.

2. Проверка user-agent иногда помогает.

3. Плавающие фреймы

humbert
На сайте с 16.03.2006
Offline
536
#2

Авторизация не катит

User-agent нормальным парсером подделывается

про плавающие фреймы не понял

А вот такой вопрос, часто ли парсеры выполняют скрипт ajax на сайте?

WEB-мастер
На сайте с 23.07.2009
Offline
174
#3
humbert:
А вот такой вопрос, часто ли парсеры выполняют скрипт ajax на сайте?

Не видел таких.

RSS отключите ☝

Лучший парсер ( https://goo.gl/aw7tPJ ) чего угодно.
IL
На сайте с 20.04.2007
Offline
435
#4
WEB-мастер:
Не видел таких.

Любой десктопный (delphi, c++ builder/.net и тд) парсер, в котором используется компонент "веб-браузер" (или аналогичный) выполнит любой js,ajax-запрос и может даже мышкой поводить. :)

Кроме того, есть скрипты для браузеров (вроде обезьянки для файрфокса) и для ОС (AutoIt, к примеру). Да, часть парсеров на такой проверке отвалится... Однако, если "ну очень надо будет" - разобраться с логикой ajax-запроса (в любом случае, код доступен) и curl-ом отправить можно и из консольки/скрипта...

... :) Облачные серверы от RegRu - промокод 3F85-3D10-806D-7224 ( http://levik.info/regru )
humbert
На сайте с 16.03.2006
Offline
536
#5

RSS потому что парсит его в первую очередь?

DV
На сайте с 01.05.2010
Offline
644
#6

Потому что самый доступный.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
WEB-мастер
На сайте с 23.07.2009
Offline
174
#7
humbert:
RSS потому что парсит его в первую очередь?

По моему мнению 99% парсинга идет именно через него.

---------- Добавлено 30.09.2012 в 00:22 ----------

ivan-lev:
Любой десктопный (delphi, c++ builder/.net и тд) парсер, в котором используется компонент "веб-браузер" (или аналогичный) выполнит любой js,ajax-запрос и может даже мышкой поводить. :)

Какой школьник будет так изворачиваться, лучше найдет другой сайт для парсинга.

vandamme
На сайте с 30.11.2008
Offline
675
#8

видал в магазах на разных страницах товара идет разная html разметка, естественно парсить их будет сложно

LEOnidUKG
На сайте с 25.11.2006
Offline
1762
#9

Спарсю с любой защитой :D

Обращайтесь.

---------- Добавлено 30.09.2012 в 01:05 ----------

vandamme:
видал в магазах на разных страницах товара идет разная html разметка, естественно парсить их будет сложно

Ой ну сколько там?

Ozone у каждого отдела своя вёрстка, 20 костылей и всё ок.

Ebay чуть по-меньше 7 мь костылей.

---------- Добавлено 30.09.2012 в 01:06 ----------

ivan-lev:
Любой десктопный (delphi, c++ builder/.net и тд) парсер, в котором используется компонент "веб-браузер" (или аналогичный) выполнит любой js,ajax-запрос и может даже мышкой поводить. :)
Кроме того, есть скрипты для браузеров (вроде обезьянки для файрфокса) и для ОС (AutoIt, к примеру). Да, часть парсеров на такой проверке отвалится... Однако, если "ну очень надо будет" - разобраться с логикой ajax-запроса (в любом случае, код доступен) и curl-ом отправить можно и из консольки/скрипта...

Я вас умоляю 🍿

Зачем такие сложности? Открываем сохранённую копию из гугла и парсим в своё удовольствие.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/
юни
На сайте с 01.11.2005
Offline
922
#10

Сделайте мне кто-нибудь парсер поисковой выдачи, который не нужно было бы перекраивать после каждой смены вёрстки.

И вообще, без регулярок, пжалста.

И парсе результатов работы js, после браузерной обработки. И чтобы перед обфусцированным кодом не пасовал.

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий