Yahooo

Рейтинг
20
Регистрация
09.09.2013

Попробовал. Хорошая вещь. Скорость неплохая, но все равно с моим объемом инфы (7 млн) парсить будет где-то год. Есть ли кто-нибудь желающий сделать это за деньги более быстро? Сумму обговорим.

> Парсил с месяца два назад 4к запросов (40к страниц) из выдачи в 1 поток без задержек, ни разу капчи не было. Выпарсил за часов 8-16.

А какое количество проксей использовал?

> a-parser

Пытаюсь подсчитать бюджет. Кто-нибудь парсил что-то похожее? Нужно побольше проксей и желательно "чистых". Во сколько примерно все это может обойтись по времени и по деньгам?

> для чего такой список? доры клепать?

Нет, для мирных целей:). Для программы одной, которой нужно знать насколько часто встречаются слова.

> А свой PHP скрипт запустить в несколько потоков (сделать копии в разные папки) не получится?

Но ведь он же использует одни и те же прокси. А гугл видимо засекает время между запросами. Один раз был глюк так что запустилось 3 копии скрипта одновременно. Так гугл быстренько все 100 проксей и забанил. Приходится парсить с задержкой по 5 секунд между запросами.

Хуман эмулятор - звучит интересно, почитал немного про него. Но кто-нибудь уже использовал для подобных задач? Хорошо было бы знать проверенный способ, чтобы не тратить время на то чтобы пробовать.

Прокси все-таки нормальные, это у меня ошибка была.

Впервые слышу чтобы у курла были какие-то проблемы с юзер агентом. Кажется мне что дело не в нем...

А смена рандомно юзер-агента как-то влияет на антибан? И еще, если кто-то уже парсил выдачу Гугла, какие задержки лучше использовать, чтобы не попасть в бан?

Нашел грубую ошибку у себя в коде. Весь день потратил на поиски другой причины в другом месте😮

Прокси-то где берёте, HTTP_FORWARDED_FOR в каком состоянии?
Я столкнулся с тем, что большинство паблик-прокси перманентно забанены.

Купил список прокси недорого. Вроде бы не паблик, хотя, как их отличить? У меня прокси с паролями временными.

А авторизованные куки не пробовали подсовывать?

Нет, куки были отключены. При ближайшей возможности попробую этот вариант.

Публичных? Посмотрите хуизы, к примеру, хостинги определяются уже на этой стадии.

Насколько я понял, не публичные. Зашел на хуиз сервис, просмотрел - на какой параметр обращать внимание?

Помогает
1. Авторизация (куки).
2. Покупка пула прокси.
3. Использование апи сервиса платного распознавания капч.
О каком объеме парсинга идет речь?

Спасибо за советы! Объем парсинга (как я понял из прочтения похожих тем на форуме) - маленький - на данный момент нужно отпарсить 10 000 ключевых слов. Скорость - чем больше тем лучше, но на данный момент 7-12 поисков в минуту.

Удивительно, что вы хотя бы 1 проход с ними умудряетесь делать

Нашел и устранил грубую ошибку у себя в коде. Пока что парсинг работает нормально 30 минут, потом завершается сам. Скорее всего где-то параметр нужно выставить. От user-agent пришлось отказаться, CURL с этим параметром не хочет работать - ошибки пишет.

Задержка в 5-8 секунд очень сказывается на скорости. Хотелось бы немного быстрее, т.е. меньше задержку, т.к. с такими темпами парсить будет больше суток. Какую минимально можно использовать?