Как работать с полной выдачей Гугла

12 3
NS
На сайте с 10.10.2007
Offline
55
1076

Приветствую,

возник вопрос, у меня стоит задача получить некоторые данные из выдачи Гугла, но

полностью работать при запросе содержащем большое кол-во результатов не получается,

может кто знает, как это возможно реализовать?

Заранее благодарю

ПС еще момент, был бы очень благодарен, если бы кто помог составить запрос поиска определенных доменов с условием указания буквы (нескольких букв) в домене и учетом, что кроме нее могу другие буквы

как пример: site:*din*.ru - я пытался вывести все сайты со словосочетанием din в имени домена и любыми слева и справа от него, но что-то не как думал этот запрос обрабатывается, может у кого есть опыт по составлению таких запросов? спасибо.

Дятлы свили гнездо в интернете (/ru/users/15134")
Sower
На сайте с 30.12.2009
Offline
651
#1

Стоит задача напарсить спам базу? :D

запрос +1

запрос +2

запрос +а

запрос +б

запрос +site:ru

запрос -site:ru

итд

__________________Бесплатная накрутка ПФ: посещаемость, просмотры, переходы с поисковиков по ключевикам, итд.
__________________Все посетители живые, не боты. (http://livesurf.ru/promo/80271)
NS
На сайте с 10.10.2007
Offline
55
#2

Не) не спам, наоборот даже:)

мне надо чтобы отбор только по имени домена шел

Sower
На сайте с 30.12.2009
Offline
651
#3

Полную выдачу гугл не покажет по тому, что в его индексе нет столько страниц, сколько он заявляет.

M
На сайте с 27.10.2006
Offline
111
#4

По поводу второго момента:

Чтобы не ломать голову сложными regex-ами:

  • берите все, что между тэгами <span class=f><cite> и следующим </cite>
  • добавляйте "http://"
  • юзайте parse_url()
  • ищите нужные буквы в поделенном точками ['host'] через strpos()
Бесплатное хранилище данных (http://bit.ly/gJYy9Z) (5GB) с синхронизацией. По ссылке — бонус 500MB.
T
На сайте с 24.11.2008
Offline
18
#5
NewSign:
как пример: site:*din*.ru

не получится. Вам нужно взять список доменов зоны ru, выцепить оттуда нужные имена и парсить их по отдельности.

Для парсинга поисковых запросов из гугл очень хорошо подходит allsubmitter - быстро, если нужно выводит каптчу в окошке.

M
На сайте с 27.10.2006
Offline
111
#6

Насколько я понял, ТС-а интересуют домены из выдачи.

NS
На сайте с 10.10.2007
Offline
55
#7
Насколько я понял, ТС-а интересуют домены из выдачи.

все точно, отобранные по определенным параметрам

я только не понял, откуда такие теги?

<cite>

и у меня пока вопрос стоит не как разобрать, а как отобрать по нужным условиям из выдачи

T
На сайте с 24.11.2008
Offline
18
#8

<cite> - тег из выдачи гугл. Вы лучше конкретней сформулируйте задачу. Что в конечном итоге нужно?

NS
На сайте с 10.10.2007
Offline
55
#9

видно просто пропустил его в коде..

мне нужно отобрать из выдачи домены, с учетом определенных параметров, желательно, чтобы была возможность использовать какой-то символ имеющий значение - любой знак

в идеале, чтобы поиск шел только по имени домена, а не по урл сайта полностью

как пример,

отобрать все домены со словом в имени домена fish

отобрать все домены со словом в имени домена fish* и любым продолжением после этого слова

отобрать все домены со словом в имени домена *fish и любым продолжением до этого слова

ну и такой вариант *fish*

T
На сайте с 24.11.2008
Offline
18
#10

Можно пробовать что-то вроде inurl:"*fish*.ru/" - но работает не очень хорошо. Лучше сначала выбрать ВСЕ существующие домены, соодержащие Ваше слово и потом парсить результаты site:domain + Ваши определенные параметры.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий