Парсинг на бесплатных прокси

PF
На сайте с 30.11.2016
Offline
78
383

Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси https://awmproxy.com/freeproxy.php

Я пытаюсь использовать эти прокси в своём PHP-скрипте, но в 90% случаев я получаю ошибку с кодом 409 (если паршу сайт на http) и 400 (если на https).

Все прокси, которые выдавали подобную ошибку хостятся на cloudflare, например: 104.28.16.153:80

В разделе помощи на cloudflare перечислены несколько причин, почему может возникать такая ошибка: https://support.cloudflare.com/hc/en-us/articles/360029779472#error1001

Кто-нибудь сталкивался с подобными ошибками? Как их обходили?

И если с подобным не сталкивались, то можете посоветовать бесплатные/платные прокси, которые бы поддерживали ~200 одновременных соединений? Сейчас покупаю прокси на https://buy.fineproxy.org/, но там ограничение на 25 одновременных запросов.

Z0G SYSTEM
На сайте с 08.12.2009
Offline
126
#1

А зачем столько много потоков одновременных? Не проще поставить 10 потоков с небольшой задержкой и радоваться тому что нет никаких ошибок?

-S
На сайте с 10.12.2006
Online
Модератор1355
#2
PendalF89:
Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси

А зачем список бесплатных прокси?

DD
На сайте с 16.05.2012
Offline
82
#3

400 ошибка как правило при не соответствии протокола прокси и сайта

409 в случае с клоудфлэр - просто не используйте. вы ее не победите.

еще бывает 407 ошибка на прочеканной рабочей проксе - требуется авторизация. Такие тоже можно смело выкидывать из списка.

Одно время я использовал ProxyBroker - он собирает прокси с нескольких сайтов, чекает их и имеет еще разную функциональность, но качество проксей оставляет желать лучшего.

-= Serafim =-:
А зачем список бесплатных прокси?

Что бы немного денег сэкономить... Как показывает моя практика - 5-10 млн. веб страниц в день можно и через бесплатные прокси вытащить. И платные прокси иногда бывают не лучше бесплатных. Конечно, надо вносить попраку на условия задачи.

Разработка систем сбора данных на Python/Golang/NodeJs
NEWProject
На сайте с 16.01.2011
Offline
102
#4

Есть еще shared прокси, стоят в среднем 33р. за штуку. Их дают до 3х чел на руки. Меня еще не подводили, даже при сборе популярных сайтов. Я стараюсь собирать данные, в среднем, не больше 5 потоков + задержки.

Если интересно по share, можете посмотреть у меня на блоке ссылку и скидку https://bestweb4u.net/proxy-for-parsing/

Универсальный парсер Datacol, скидка 20% и ПРОЕКТ в ПОДАРОК!! (https://bestweb4u.net/skidka-na-datacol/) БЛОГ о парсинге, Datacol! (https://bestweb4u.net/) Купить прокси для парсинга от 33р. Купон на скидку Y23y4sXqYP (https://proxy6.net/?r=55325)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий