- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Нужно прогнать гуглом список из 7 млн. слов и фраз и получить по каждому запросу количество, которое он выдаст (то, которое над результатами пишется). Недавно написал свой парсер на php, около 100000 слов он отпарсил за несколько недель (юзал прокси). Но 7 млн. это будет очень долго. Посоветуйте, какие есть варианты решения такой задачи. Готов заплатить.
a-parser 10 апарсеров
Нужно прогнать гуглом список из 7 млн. слов и фраз и получить по каждому запросу количество, которое он выдаст (то, которое над результатами пишется). Недавно написал свой парсер на php, около 100000 слов он отпарсил за несколько недель (юзал прокси). Но 7 млн. это будет очень долго. Посоветуйте, какие есть варианты решения такой задачи. Готов заплатить.
Можно Хуман эмулятором без проксей и в многопоток спарсить. Капчу если будет выдавать распознавать через антигейт.
А свой PHP скрипт запустить в несколько потоков (сделать копии в разные папки) не получится?
для чего такой список? доры клепать?
> a-parser
Пытаюсь подсчитать бюджет. Кто-нибудь парсил что-то похожее? Нужно побольше проксей и желательно "чистых". Во сколько примерно все это может обойтись по времени и по деньгам?
> для чего такой список? доры клепать?
Нет, для мирных целей:). Для программы одной, которой нужно знать насколько часто встречаются слова.
> А свой PHP скрипт запустить в несколько потоков (сделать копии в разные папки) не получится?
Но ведь он же использует одни и те же прокси. А гугл видимо засекает время между запросами. Один раз был глюк так что запустилось 3 копии скрипта одновременно. Так гугл быстренько все 100 проксей и забанил. Приходится парсить с задержкой по 5 секунд между запросами.
Хуман эмулятор - звучит интересно, почитал немного про него. Но кто-нибудь уже использовал для подобных задач? Хорошо было бы знать проверенный способ, чтобы не тратить время на то чтобы пробовать.
Хуман эмулятор - звучит интересно, почитал немного про него. Но кто-нибудь уже использовал для подобных задач? Хорошо было бы знать проверенный способ, чтобы не тратить время на то чтобы пробовать.
Я повседневно его использую. Это аналог зеннопостера, только в нем пишется на php, что намного для меня удобнее, проще и функциональнее.
Если php знаете, ничего особо сложного в изучении не будет. Для ваших целей и дэмка подойдет. Единственное что он не запустится в несколько копий, придется виртуальные машины использовать.
Парсил с месяца два назад 4к запросов (40к страниц) из выдачи в 1 поток без задержек, ни разу капчи не было. Выпарсил за часов 8-16.
> Парсил с месяца два назад 4к запросов (40к страниц) из выдачи в 1 поток без задержек, ни разу капчи не было. Выпарсил за часов 8-16.
А какое количество проксей использовал?
> Парсил с месяца два назад 4к запросов (40к страниц) из выдачи в 1 поток без задержек, ни разу капчи не было. Выпарсил за часов 8-16.
А какое количество проксей использовал?
Ни одного. Парсил без проксей со своего IP.
Скачайте дэмку и затестите, скрипт пишется за пол часа. Вот пример скрипта для того что бы понять как открывать страницы и брать его html код:
$a = file("mykey.txt");
for ($i = 0; $i < count($a); $i++) {
$browser->navigate("https://www.google.ru/search?q=".trim($a[$i]));
$browser->wait_for(5,1);
$kol = 0;
if(preg_match('#Результатов: (.+?)<nobr>#is', $webpage->get_body(), $match)) $kol = $match[1];
}
Попробовал. Хорошая вещь. Скорость неплохая, но все равно с моим объемом инфы (7 млн) парсить будет где-то год. Есть ли кто-нибудь желающий сделать это за деньги более быстро? Сумму обговорим.
Зайдите на какой-нибудь каталог хостеров и арендуйте побольше - у многих есть срок на тестирование - распараллелите работу за те же деньги, но самостоятельно. А может и гораздо дешевле.
Предвижу негодование хостеров. Думаю, напрасно - такой клиент активный рано или поздно один из сервисов может своим основным сделать.
Попробовал. Хорошая вещь. Скорость неплохая, но все равно с моим объемом инфы (7 млн) парсить будет где-то год. Есть ли кто-нибудь желающий сделать это за деньги более быстро? Сумму обговорим.
Какой у вас бюджет на данную работу?