Попробуйте парсить выдачу поисковиков - Doorways & Cloaking - Практические вопросы оптимизации

Собрать сайты из гугла

69let · 2010-11-01T23:25:04.0000000Z

Допустим ввел в гугл запрос: Site:GOV винни-пух Гугл вернул результат из 100000 сайтов. Нужно собрать все ссылки сайтов на первых 20 страничках. Какая софтина умеет это делать? Нашел только hkey google parser , но там прокси нельзя юзать, гугл банит быстро

132

bell387

4 ноября 2010, 12:17

#11

WwWork:
Раньше я так тоже делал, но теперь хрефер рулит!

потри пожалуйста свой пост.

чем меньше людей его пользуют, тем дольше он будет работать.

файловый трафик конверчу в 20-30 баксов\кило (http://bitcash.ru/user/registration.html?r=470) здесь конвертятся диеты (http://www.moneysyst.biz?rid=354) лучший декстопный дорген (/ru/forum/436133)

[Удален]

4 ноября 2010, 12:30

#12

bell387:
потри пожалуйста свой пост.
чем меньше людей его пользуют, тем дольше он будет работать.

Если есть мозг, можно найти замену любому способу.

132

bell387

4 ноября 2010, 12:33

#13

cibenite:
Если есть мозг, можно найти замену любому способу.

зачем изобретать велосипед, если пока что есть готовые способы решения?

[Удален]

4 ноября 2010, 12:44

#14

bell387:
зачем изобретать велосипед, если пока что есть готовые способы решения?

Чтобы развиватся дальше и иметь в запасе на экстренный случай...

86

quickmouse

4 ноября 2010, 13:12

#15

Для парсинга понадобятся 2 программы:

1. Download Master (бесплатная).

2. Extract Link (скачать). Программа не требует установки, просто скачиваете и запускаете.

Допустим, нам нужна база блогов. Покажу на примере рейтинга блогов, как ее получить.

1. Прокручиваем страницу рейтинга вниз и копируем ссылку на последнюю страницу:

2. Открываем Download Master и добавляем группу закачек:

3. Вставляем скопированный урл последней страницы, заменяем «111» на «$» и говорим, что переменная должна меняться от 0 до 111, нажимаем ОК, потом еще раз:

4. Выбираем, куда сохранить html-файлы и начинаем закачку:

5. После того, как все html-страницы сохранились, нам нужно выдрать из них ссылки на блоги, для этого используем Extract Link. Нажимаем кнопку «New Search», выбираем папку с сохраненными html-страницами, на вкладке Option отметьте галочками «Remove duplicate results» и «Remove duplicate base», на вкладке Exclude/Exclude Text напишите построчно feedburner.com и blograte.ru, чтобы в базе было меньше ненужных урлов:

6. После парсинга html-страниц получим список урлов, встречающихся на сохраненных страницах. У меня получилось 3343 урлов вместо 3337 (6 ссылок на главной странице лишние). Результат сохраняете в txt или excel-файл:

Аналогично можно парсить выдачу поисковиков

собираю на домик в ГОА

В Яндексе рассказали, как Вышла новая версия PositionMeter 17 советов по использованию

[Удален]

4 ноября 2010, 13:20

#16

Вот, пожалуйста, человек не пожалел время и выложил полезную инфу. И не пишет - потри, а то не дай Бог еще кто то спалит, не дай Бог кому то будет полезно.

220

Solo_by

4 ноября 2010, 13:21

#17

cibenite:
Вот, пожалуйста, человек не пожалел время и выложил полезную инфу. И не пишет - потри, а то не дай Бог еще кто то спалит, не дай Бог кому то будет полезно.

бери пример

220

Solo_by

4 ноября 2010, 13:26

#18

cibenite:
Да я то причем, я репу постами не набиваю.

Ну да, тебе больше нравится загаживать раздел. Я это уже понял.

220

Solo_by

4 ноября 2010, 13:28

#19

Дима_Васильков:
Вот сам бы стал нарезать картинки и мануалы писать для не знакомого человека ?

Раньше писал что-то полезное. Сейчас просто уже не для кого. Из-за клонов и тонн флуда исходящих от них, из раздела давно все разбежались кто куда.

T

24

terramona

4 ноября 2010, 13:28

#20

думаю телепорт про при правильной настройке сможет собрать с первых 20 сайтов все ссылки

ну а если нет, написать можно рублей за 100 (американских)

покупаю худеющий ру-траф в любых кол-вах от $15 за кило | стоимость смс на номер (http://stoimost-sms.ru) | мой опыт работы с секс-шопами (/ru/forum/552912)

Что делать, если ваша email-рассылка попала в спам

Open AI тестирует память для ChatGPT

Собрать сайты из гугла