Парсинг 7 млн. слов и фраз в Google - варианты

Y
На сайте с 09.09.2013
Offline
20
1494

Нужно прогнать гуглом список из 7 млн. слов и фраз и получить по каждому запросу количество, которое он выдаст (то, которое над результатами пишется). Недавно написал свой парсер на php, около 100000 слов он отпарсил за несколько недель (юзал прокси). Но 7 млн. это будет очень долго. Посоветуйте, какие есть варианты решения такой задачи. Готов заплатить.

AK
На сайте с 23.02.2009
Offline
117
#1

a-parser 10 апарсеров

Vladimir-AWM
На сайте с 07.02.2010
Offline
50
#2
Yahooo:
Нужно прогнать гуглом список из 7 млн. слов и фраз и получить по каждому запросу количество, которое он выдаст (то, которое над результатами пишется). Недавно написал свой парсер на php, около 100000 слов он отпарсил за несколько недель (юзал прокси). Но 7 млн. это будет очень долго. Посоветуйте, какие есть варианты решения такой задачи. Готов заплатить.

Можно Хуман эмулятором без проксей и в многопоток спарсить. Капчу если будет выдавать распознавать через антигейт.

А свой PHP скрипт запустить в несколько потоков (сделать копии в разные папки) не получится?

ЖЖ Ферма (http://goo.gl/GSN1es), Твиттер Групп (http://goo.gl/z4dP6J), Многопоточная пинговалка (http://goo.gl/7y40HR), Магазин аккаунтов (http://goo.gl/Wqv19X), Индивидуальные прокси (http://goo.gl/3Njiyj).
cblcg
На сайте с 28.06.2012
Offline
232
#3

для чего такой список? доры клепать?

Y
На сайте с 09.09.2013
Offline
20
#4

> a-parser

Пытаюсь подсчитать бюджет. Кто-нибудь парсил что-то похожее? Нужно побольше проксей и желательно "чистых". Во сколько примерно все это может обойтись по времени и по деньгам?

> для чего такой список? доры клепать?

Нет, для мирных целей:). Для программы одной, которой нужно знать насколько часто встречаются слова.

> А свой PHP скрипт запустить в несколько потоков (сделать копии в разные папки) не получится?

Но ведь он же использует одни и те же прокси. А гугл видимо засекает время между запросами. Один раз был глюк так что запустилось 3 копии скрипта одновременно. Так гугл быстренько все 100 проксей и забанил. Приходится парсить с задержкой по 5 секунд между запросами.

Хуман эмулятор - звучит интересно, почитал немного про него. Но кто-нибудь уже использовал для подобных задач? Хорошо было бы знать проверенный способ, чтобы не тратить время на то чтобы пробовать.

Vladimir-AWM
На сайте с 07.02.2010
Offline
50
#5
Yahooo:
Хуман эмулятор - звучит интересно, почитал немного про него. Но кто-нибудь уже использовал для подобных задач? Хорошо было бы знать проверенный способ, чтобы не тратить время на то чтобы пробовать.

Я повседневно его использую. Это аналог зеннопостера, только в нем пишется на php, что намного для меня удобнее, проще и функциональнее.

Если php знаете, ничего особо сложного в изучении не будет. Для ваших целей и дэмка подойдет. Единственное что он не запустится в несколько копий, придется виртуальные машины использовать.

Парсил с месяца два назад 4к запросов (40к страниц) из выдачи в 1 поток без задержек, ни разу капчи не было. Выпарсил за часов 8-16.

Y
На сайте с 09.09.2013
Offline
20
#6

> Парсил с месяца два назад 4к запросов (40к страниц) из выдачи в 1 поток без задержек, ни разу капчи не было. Выпарсил за часов 8-16.

А какое количество проксей использовал?

Vladimir-AWM
На сайте с 07.02.2010
Offline
50
#7
Yahooo:
> Парсил с месяца два назад 4к запросов (40к страниц) из выдачи в 1 поток без задержек, ни разу капчи не было. Выпарсил за часов 8-16.

А какое количество проксей использовал?

Ни одного. Парсил без проксей со своего IP.

Скачайте дэмку и затестите, скрипт пишется за пол часа. Вот пример скрипта для того что бы понять как открывать страницы и брать его html код:

$a = file("mykey.txt");

for ($i = 0; $i < count($a); $i++) {

$browser->navigate("https://www.google.ru/search?q=".trim($a[$i]));
$browser->wait_for(5,1);

$kol = 0;
if(preg_match('#Результатов: (.+?)<nobr>#is', $webpage->get_body(), $match)) $kol = $match[1];

}
Y
На сайте с 09.09.2013
Offline
20
#8

Попробовал. Хорошая вещь. Скорость неплохая, но все равно с моим объемом инфы (7 млн) парсить будет где-то год. Есть ли кто-нибудь желающий сделать это за деньги более быстро? Сумму обговорим.

Stolz
На сайте с 25.01.2007
Offline
181
#9

Зайдите на какой-нибудь каталог хостеров и арендуйте побольше - у многих есть срок на тестирование - распараллелите работу за те же деньги, но самостоятельно. А может и гораздо дешевле.

Предвижу негодование хостеров. Думаю, напрасно - такой клиент активный рано или поздно один из сервисов может своим основным сделать.

Дмитрий Удимов
На сайте с 05.05.2010
Offline
274
#10
Yahooo:
Попробовал. Хорошая вещь. Скорость неплохая, но все равно с моим объемом инфы (7 млн) парсить будет где-то год. Есть ли кто-нибудь желающий сделать это за деньги более быстро? Сумму обговорим.

Какой у вас бюджет на данную работу?

Топвизор — аккредитованный регистратор доменов .ru и .рф (https://topvisor.com/ru/domain-registration/) — честная цена 299 руб. за регистрацию и продление.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий