Дмитрий Удимов

Дмитрий Удимов
Рейтинг
274
Регистрация
05.05.2010
Должность
Топвизор
Интересы
Интернет-маркетинг

А приятель не рассказывает чем хоть занимался?

Cthulchu:
у мну такого не происходит, при минимальной задержке больше 2х секунд. кстати, когда я пишу 3-5, это рендомная задержка от 3 до 5.

Я понимаю, что рэндомная )

В общем, по парсингу решил попробовать сделать полноценные сессии на каждый поток (User-Agent + cookie + другие данные - типа уникальные профили), чтобы все это генерилось автоматически.

Вы лист из скольки User-Agent используете, есть ли готовые списки только с браузерами без роботов?

С куки просто у Яндекса меньше шансов словить вечно повторяющуюся капчу

---------- Добавлено 19.04.2013 в 16:07 ----------

юни:
Запросов, суточная нагрузка.

1200 wmz ориентировочно.

Сколько проксей то? В чем измеряется 1200 wmz? Или Вы мне парсинг предлагаете?

---------- Добавлено 19.04.2013 в 16:09 ----------

Cthulchu:
какие задержки между запросами в одном потоке?
мы для парсинга яндекса тысячами прокси юзаем. преимущественно, свои. некоторые исп (в основном, в россии и америке) предлагают /25-/26 вместе с колоколом.

можете посоветовать какие то прокси листы или /25-/26 колокейшен?

Cthulchu:
делайте задержку, хотя бы. от 1 секунды. я при парсинге гугла делаю 3-5 секунд. в вашем случае это должно окупиться стабильностью шестнадцати потоков.

куки я каждый раз обнуляю, типа, куки не сохраняются у клиентов и, возможно, я не прав, но чтобы сохранять еще и куки, мне бы пришлось из каждого потока бадяжить полноценную сессию. на самом деле, мне влом было выдумывать под это ТЗ и я забил, ибо знал, что и без кук будет отлично парситься.

юзерагент важней кук.

Если куки выключены, он может начать спамить капчу на каждый запрос, типа заносит в блек лист если сессии нет.

Cthulchu:
какие задержки между запросами в одном потоке?

короче, у вас парсер должен делить по потоку на проксю и выжимать их до конца, при этом, выдавать рендомные юзерагенты. задержки лично я выставляю 3-5 секунд и даже каптчи не ловлю. иногда, когда делаю 1-3 секунды - получаю бан. в таком случае, я делаю сеспенд проксе на три часа, потом опять продолжаю парсинг с нее.
/28 - это что, 16 ойпе? маловато для таких работ. мы для парсинга яндекса тысячами прокси юзаем. преимущественно, свои. некоторые исп (в основном, в россии и америке) предлагают /25-/26 вместе с колоколом.

Мы используем задержку от 0-5 секунд сейчас.

User-Agent не меняем, а как вы поступаете с куками (генерится новая с каждым User-Agent)?

/28 - это 16 IP да

LEOnidUKG:
Распознавание каптч не прикручивали?

Прикручено ) 20к без проблем парсим, а вот как безопасно парсить большее количество запросов 200к? 1м?

юни:
250-300 wmz в месяц стоит такой объём, в зависимости от подхода к парсингу.

Объем чего? Прокси?

юни:
Насколько регулярно?

Каждый день

Будут больше напрямую парсить, лишнюю нагрузку создавать

Carbrand.ru

Аукцион завершен

Всего: 3458