Вернуться   Форум об интернет-маркетинге > >
Ответ
 
Опции темы
Старый 31.03.2020, 18:02   #1
Аспирант
 
Регистрация: 30.11.2016
Сообщений: 129
Репутация: -4588

По умолчанию Парсинг на бесплатных прокси

Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси https://awmproxy.com/freeproxy.php
Я пытаюсь использовать эти прокси в своём PHP-скрипте, но в 90% случаев я получаю ошибку с кодом 409 (если паршу сайт на http) и 400 (если на https).
Все прокси, которые выдавали подобную ошибку хостятся на cloudflare, например: 104.28.16.153:80
В разделе помощи на cloudflare перечислены несколько причин, почему может возникать такая ошибка: https://support.cloudflare.com/hc/en...9472#error1001
Кто-нибудь сталкивался с подобными ошибками? Как их обходили?
И если с подобным не сталкивались, то можете посоветовать бесплатные/платные прокси, которые бы поддерживали ~200 одновременных соединений? Сейчас покупаю прокси на https://buy.fineproxy.org/, но там ограничение на 25 одновременных запросов.
PendalF89 вне форума   Ответить с цитированием

Реклама
Старый 31.03.2020, 21:13   #2
knowing2business
Профессор
 
Регистрация: 08.12.2009
Сообщений: 870
Репутация: -13174

По умолчанию Re: Парсинг на бесплатных прокси

А зачем столько много потоков одновременных? Не проще поставить 10 потоков с небольшой задержкой и радоваться тому что нет никаких ошибок?
knowing2business вне форума   Ответить с цитированием
Старый 31.03.2020, 22:02   #3
-= Serafim =-
Moderator
 
Регистрация: 10.12.2006
Сообщений: 22,788
Репутация: 2070581

По умолчанию Re: Парсинг на бесплатных прокси

Цитата:
Сообщение от PendalF89
Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси
А зачем список бесплатных прокси?
-= Serafim =- вне форума   Ответить с цитированием
Старый 01.04.2020, 01:02   #4
drDaemon
Дипломник
 
Регистрация: 16.05.2012
Сообщений: 52
Репутация: 4644

По умолчанию Re: Парсинг на бесплатных прокси

400 ошибка как правило при не соответствии протокола прокси и сайта
409 в случае с клоудфлэр - просто не используйте. вы ее не победите.
еще бывает 407 ошибка на прочеканной рабочей проксе - требуется авторизация. Такие тоже можно смело выкидывать из списка.

Одно время я использовал ProxyBroker - он собирает прокси с нескольких сайтов, чекает их и имеет еще разную функциональность, но качество проксей оставляет желать лучшего.


Цитата:
Сообщение от -= Serafim =- Посмотреть сообщение
А зачем список бесплатных прокси?
Что бы немного денег сэкономить... Как показывает моя практика - 5-10 млн. веб страниц в день можно и через бесплатные прокси вытащить. И платные прокси иногда бывают не лучше бесплатных. Конечно, надо вносить попраку на условия задачи.
__________________
Разработка систем сбора данных на Python/Golang
drDaemon вне форума   Ответить с цитированием
Старый 04.04.2020, 08:17   #5
NEWProject
Аспирант
 
Аватар для NEWProject
 
Регистрация: 16.01.2011
Адрес: Всемирная сеть
Сообщений: 109
Репутация: 5812
Социальные сети Профиль в ВКонтакте

По умолчанию Re: Парсинг на бесплатных прокси

Есть еще shared прокси, стоят в среднем 33р. за штуку. Их дают до 3х чел на руки. Меня еще не подводили, даже при сборе популярных сайтов. Я стараюсь собирать данные, в среднем, не больше 5 потоков + задержки.
Если интересно по share, можете посмотреть у меня на блоке ссылку и скидку https://bestweb4u.net/proxy-for-parsing/
NEWProject вне форума   Ответить с цитированием
Ответ

Метки
парсинг , прокси



Опции темы

Быстрый переход


Регистрация Справка Календарь Поддержка Все разделы прочитаны