Как парсить сайт, который быстро блокирует?

З
На сайте с 25.03.2006
Offline
118
349

Добрый день.

Нам необходимо каждый день парсить один сайт справочный некоммерческий, но там капча + быстро блокирует.

Никакой возможности платного API тем сервисом не предусмотрено.

Как обойти эти блокировки?

Мысли примерно следующие - может сделать что-то по аналогии с сервисами для накрутки поведенческих факторов? Чтобы у 1000 или 10000 пользователей стояла какая-то программа, и запускалась с их компа? Но не вирусом, а как-то цивилизованно...

Stolz
На сайте с 25.01.2007
Offline
177
#1

Цивилизованно - это договориться о доступе с владельцем сайта.

Dolph
На сайте с 08.04.2008
Offline
215
#2
Зорро:):
но там капча + быстро блокирует

Капча-сервис и прокси Вас спасут :)

Stolz:
Цивилизованно - это договориться о доступе с владельцем сайта.

К примеру https://гибдд.рф/check/fines - один из сайтов которые все подряд очень любят парсить и при этом никому они так и не дали доступа к API проверке штрафов, всем приходится ReCaptcha решать.

RuCaptcha.com ( http://www.RuCaptcha.com ) отечественный капча-сервис 20-44 руб за 1000 решений ($0,61 максимум!) на простые капчи ReCaptcha V2/V3/Invis, FunCaptcha, HCaptcha, GeeTest, Capy, KeyCaptcha
З
На сайте с 25.03.2006
Offline
118
#3

Да, мне тоже нужно гос.сайт информационный, там договариваться год придётся...

R
На сайте с 18.02.2019
Offline
4
#4

Вы можете заходить через прокси, с интервалами от 30сек.

Тогда думаю никаких проблем не будет.

Индивидуальные IP и Proxy для работы c SEO и для любых других задач (http://www.primeproxy.net)!
anchous
На сайте с 12.10.2010
Offline
138
#5

параллелить через прокси - либо мобильные, либо статические. но если парсинг активный (судя по тому что банят), надо десятки мобильных или сотни статики

Купить быстрые анонимные прокси в России, Европе и США (http://proxy4seo.net/)
Twickbot
На сайте с 13.03.2017
Offline
56
#6
anchous:
параллелить через прокси - либо мобильные, либо статические.

Сейчас, если сильно умные, обычные прокси палят по фингерпиринту.

Поэтому, если нужна надежность - то только мобильные.

А капча решается подключением к сервису решения капч.

---------- Добавлено 03.07.2019 в 16:12 ----------

Зорро:):
Как обойти эти блокировки?

А какова интенсивность парсинга?

Автоматизация работы в браузере. Пишу парсеры, постеры, кликеры, лайкеры, и т.п.
anchous
На сайте с 12.10.2010
Offline
138
#7
Twickbot:
Сейчас, если сильно умные, обычные прокси палят по фингерпиринту.

не сильно умные, а сильно богатые, вроде фб. больше не знаю сервисов, кто реально запаривается на счет соответствия сетевого стека и юзерагента

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий