Списки прокси для парсинга выдачи Google?

123
Дмитрий Удимов
На сайте с 05.05.2010
Offline
274
#11
Cthulchu:
делайте задержку, хотя бы. от 1 секунды. я при парсинге гугла делаю 3-5 секунд. в вашем случае это должно окупиться стабильностью шестнадцати потоков.

куки я каждый раз обнуляю, типа, куки не сохраняются у клиентов и, возможно, я не прав, но чтобы сохранять еще и куки, мне бы пришлось из каждого потока бадяжить полноценную сессию. на самом деле, мне влом было выдумывать под это ТЗ и я забил, ибо знал, что и без кук будет отлично парситься.

юзерагент важней кук.

Если куки выключены, он может начать спамить капчу на каждый запрос, типа заносит в блек лист если сессии нет.

Топвизор — аккредитованный регистратор доменов .ru и .рф (https://topvisor.com/ru/domain-registration/) — честная цена 299 руб. за регистрацию и продление.
Cthulchu
На сайте с 09.09.2011
Offline
50
#12

у мну такого не происходит, при минимальной задержке больше 2х секунд. кстати, когда я пишу 3-5, это рендомная задержка от 3 до 5.

я смею всё, что смеет человек. кто смеет больше, тот не человек.
Дмитрий Удимов
На сайте с 05.05.2010
Offline
274
#13
Cthulchu:
у мну такого не происходит, при минимальной задержке больше 2х секунд. кстати, когда я пишу 3-5, это рендомная задержка от 3 до 5.

Я понимаю, что рэндомная )

В общем, по парсингу решил попробовать сделать полноценные сессии на каждый поток (User-Agent + cookie + другие данные - типа уникальные профили), чтобы все это генерилось автоматически.

Вы лист из скольки User-Agent используете, есть ли готовые списки только с браузерами без роботов?

С куки просто у Яндекса меньше шансов словить вечно повторяющуюся капчу

---------- Добавлено 19.04.2013 в 16:07 ----------

юни:
Запросов, суточная нагрузка.

1200 wmz ориентировочно.

Сколько проксей то? В чем измеряется 1200 wmz? Или Вы мне парсинг предлагаете?

---------- Добавлено 19.04.2013 в 16:09 ----------

Cthulchu:
какие задержки между запросами в одном потоке?
мы для парсинга яндекса тысячами прокси юзаем. преимущественно, свои. некоторые исп (в основном, в россии и америке) предлагают /25-/26 вместе с колоколом.

можете посоветовать какие то прокси листы или /25-/26 колокейшен?

юни
На сайте с 01.11.2005
Offline
901
#14
Ditmar:
В чем измеряется 1200 wmz?

Один миллион запросов в сутки стоит 1200 wmz в месяц.

Ditmar:
Сколько проксей то?

Много. В пиках суммарная нагрузка может достигать двадцати и более миллионов запросов в сутки. Справляемся.

Ditmar:
по парсингу решил попробовать сделать полноценные сессии

На промышленных объёмах это - первое дело. Более того, нужно исполнять скрипты, флеш-куки, качать картинки и т.п. Парсинг текстовой части без минимального соответствия человеческому (браузерному) характеру трафика закончился несколько лет назад.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Cthulchu
На сайте с 09.09.2011
Offline
50
#15
можете посоветовать какие то прокси листы или /25-/26 колокейшен?

инфобокс столько дает за денежку, с разных сеточек. на самом деле, если обьемы те, что описал юни, то реально уместным становится самому заиметь диапазоны в разных сетях, получив необходимые сертификаты. и скупить пару стоечек в ДЦ каком-то.

На промышленных объёмах это - первое дело. Более того, нужно исполнять скрипты, флеш-куки, качать картинки и т.п. Парсинг текстовой части без минимального соответствия человеческому (браузерному) характеру трафика закончился несколько лет назад.

да, да, да, тоже обо всем этом думал. но, пока, не нужно :) чтобы дергать за флешки и js-ки - надо сразу на порядок увеличивать производительность железа для внедрения гуи-ядра, либо извращаться консольными дергалками, что редко заканчивается хорошо.

Дмитрий Удимов
На сайте с 05.05.2010
Offline
274
#16
юни:
Парсинг текстовой части без минимального соответствия человеческому (браузерному) характеру трафика закончился несколько лет назад.

Согласен, это все у робота предусмотрено, пока без js правда

юни
На сайте с 01.11.2005
Offline
901
#17

Если цена устраивает - обращайтесь.

Alexey Gordienko
На сайте с 25.09.2010
Online
312
#18

Ditmar, http://awmproxy.com пробовали?

Обучение арбитражу трафика. Affiliate marketing education. 199$. only for 7 people. +48726327717 ( TG | WhatsApp )
Дмитрий Удимов
На сайте с 05.05.2010
Offline
274
#19
юни:
Если цена устраивает - обращайтесь.

Выходит дороже, чем арендовать сервак с 250+ ip на борту, а вы так и не озвучили, что конкретно вы предлагаете.

юни
На сайте с 01.11.2005
Offline
901
#20

Прокси-сервис для промышленного парсинга. IP там будет значительно больше одной подсети /24.

К тому же, 200к в сутки, это 2,3 запроса в секунду - одна подсеть долго не протянет при таких регулярных нагрузках. Не говоря об 1 млн. запросов в сутки.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий