- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси https://awmproxy.com/freeproxy.php
Я пытаюсь использовать эти прокси в своём PHP-скрипте, но в 90% случаев я получаю ошибку с кодом 409 (если паршу сайт на http) и 400 (если на https).
Все прокси, которые выдавали подобную ошибку хостятся на cloudflare, например: 104.28.16.153:80
В разделе помощи на cloudflare перечислены несколько причин, почему может возникать такая ошибка: https://support.cloudflare.com/hc/en-us/articles/360029779472#error1001
Кто-нибудь сталкивался с подобными ошибками? Как их обходили?
И если с подобным не сталкивались, то можете посоветовать бесплатные/платные прокси, которые бы поддерживали ~200 одновременных соединений? Сейчас покупаю прокси на https://buy.fineproxy.org/, но там ограничение на 25 одновременных запросов.
А зачем столько много потоков одновременных? Не проще поставить 10 потоков с небольшой задержкой и радоваться тому что нет никаких ошибок?
Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси
А зачем список бесплатных прокси?
400 ошибка как правило при не соответствии протокола прокси и сайта
409 в случае с клоудфлэр - просто не используйте. вы ее не победите.
еще бывает 407 ошибка на прочеканной рабочей проксе - требуется авторизация. Такие тоже можно смело выкидывать из списка.
Одно время я использовал ProxyBroker - он собирает прокси с нескольких сайтов, чекает их и имеет еще разную функциональность, но качество проксей оставляет желать лучшего.
А зачем список бесплатных прокси?
Что бы немного денег сэкономить... Как показывает моя практика - 5-10 млн. веб страниц в день можно и через бесплатные прокси вытащить. И платные прокси иногда бывают не лучше бесплатных. Конечно, надо вносить попраку на условия задачи.
Есть еще shared прокси, стоят в среднем 33р. за штуку. Их дают до 3х чел на руки. Меня еще не подводили, даже при сборе популярных сайтов. Я стараюсь собирать данные, в среднем, не больше 5 потоков + задержки.
Если интересно по share, можете посмотреть у меня на блоке ссылку и скидку https://bestweb4u.net/proxy-for-parsing/