Попробовал. Хорошая вещь. Скорость неплохая, но все равно с моим объемом инфы (7 млн) парсить будет где-то год. Есть ли кто-нибудь желающий сделать это за деньги более быстро? Сумму обговорим.
> Парсил с месяца два назад 4к запросов (40к страниц) из выдачи в 1 поток без задержек, ни разу капчи не было. Выпарсил за часов 8-16.
А какое количество проксей использовал?
> a-parser
Пытаюсь подсчитать бюджет. Кто-нибудь парсил что-то похожее? Нужно побольше проксей и желательно "чистых". Во сколько примерно все это может обойтись по времени и по деньгам?
> для чего такой список? доры клепать?
Нет, для мирных целей:). Для программы одной, которой нужно знать насколько часто встречаются слова.
> А свой PHP скрипт запустить в несколько потоков (сделать копии в разные папки) не получится?
Но ведь он же использует одни и те же прокси. А гугл видимо засекает время между запросами. Один раз был глюк так что запустилось 3 копии скрипта одновременно. Так гугл быстренько все 100 проксей и забанил. Приходится парсить с задержкой по 5 секунд между запросами.
Хуман эмулятор - звучит интересно, почитал немного про него. Но кто-нибудь уже использовал для подобных задач? Хорошо было бы знать проверенный способ, чтобы не тратить время на то чтобы пробовать.
Прокси все-таки нормальные, это у меня ошибка была.
А смена рандомно юзер-агента как-то влияет на антибан? И еще, если кто-то уже парсил выдачу Гугла, какие задержки лучше использовать, чтобы не попасть в бан?
Нашел грубую ошибку у себя в коде. Весь день потратил на поиски другой причины в другом месте😮
Купил список прокси недорого. Вроде бы не паблик, хотя, как их отличить? У меня прокси с паролями временными.
Нет, куки были отключены. При ближайшей возможности попробую этот вариант.
Насколько я понял, не публичные. Зашел на хуиз сервис, просмотрел - на какой параметр обращать внимание?
Спасибо за советы! Объем парсинга (как я понял из прочтения похожих тем на форуме) - маленький - на данный момент нужно отпарсить 10 000 ключевых слов. Скорость - чем больше тем лучше, но на данный момент 7-12 поисков в минуту.
Нашел и устранил грубую ошибку у себя в коде. Пока что парсинг работает нормально 30 минут, потом завершается сам. Скорее всего где-то параметр нужно выставить. От user-agent пришлось отказаться, CURL с этим параметром не хочет работать - ошибки пишет.
Задержка в 5-8 секунд очень сказывается на скорости. Хотелось бы немного быстрее, т.е. меньше задержку, т.к. с такими темпами парсить будет больше суток. Какую минимально можно использовать?