Парсер Гугла с глубиной более 1000

12
[Удален]
2536

Есть ли программа, или скрипт, которые парсят Гугл на всю глубину запроса, или на ту, что задана?

Z
На сайте с 01.06.2008
Offline
182
#1

К сожалению такой программы или скрипта нет. Это защита от скрипт-кидс. Если бы такое было возможно, то у многих бы были милионные базы. Выход: использовать встроеные операторы :)

[Удален]
#2

zuziken, как я понимаю, site, или есть ещё какой-нибудь вариант?

Dusty Kid
На сайте с 11.11.2008
Offline
20
#3
claygod:
zuziken, как я понимаю, site, или есть ещё какой-нибудь вариант?

для начала парсить за один подход одну доменную зону. далее начинается полет воображения, при знании расширенных операторов поиска и четкого понимания того, что нужно напарсить (основные признаки для парсинга).

на позитиве...
BLACK_DANTE
На сайте с 24.03.2007
Offline
188
#4

Тогда другой вопрос, у меня вообще дальше 200-ой позиции не выводит при использовании inurl Как можно обойти? На доменные зоны разбиваю, по 100 результатов на странице... и даже капчу не дает чтобы ввести :(

Будьте людьми.
Z
На сайте с 01.06.2008
Offline
182
#5

Вот полный список операторов Google

1. cache:

Пример: cache:site.ru

Выводит страницу из кэша с указанным URL. C другими поисковыми операторами не сочетается.

2. link:

Пример: link:site.ru

Показывает внешние ссылки на веб-сайт.

3. related:

Пример: related:site.ru

Выводит сайт тематически (по ключевикам, title - ам) связaнные с названным.

4. info:

Пример: info:site.ru

Показывает информацию о странице. Не сочетается с другими операторами, нельзя использовать пробелы.

5. stocks:

Пример: stocks: goog

Поиск биржевых котировок по нескольким источникам (используются службы Yahoo Finance, Fool.com, MSN MoneyCentral и ClearStation)

Не сочетается с другими операторами и ключевыми словами. В поиске используется пробел.

6. allinurl:

Пример: allinurl:тренинг

Находит страницы, в URL которых встречаются указанные ключевые слова. Не сочетается с другими операторами и ключевыми словами.

7. inurl:

Пример: money inurl:business

Это значит, что будют найдены сайты, вернее страницы, в адресе которых находится слово business, а на самой странице содержится слово money.

Хорошо сочетается с другими операторами. Не ведется поиск по наименованию протокола (http:// ftp:// и так далее).

Поскольку в URL могут встречаться спецсимволы, не обрабатываемые Google, это может привести к неожиданным результатам поиска.

8. inanchor:

Пример: рестораны inanchor:money

Ищет ключевые слова в тексте ссылок. Хорошо сочетается с другими операторами.

9. movie:

Пример: movie: Платон

Ищет обзоры кинофильмов, места, где данный фильм транслируется. Используется с пробелом.

10. book

Пример: book Сто лет одиночества

Ищет среди книг, можно найти полный текст книги.

11. phonebook:

Пример: phonebook: bill jones NY

Поиск телефонных номеров по обычным или бизнес-справочникам. Не сочетается с другими операторами. Актуален в первую очередь для Северной Америки.

12. site:

Пример: тренинги site:site.ru

Ищет ключевое слово исключительно на страницах указанного сайта. Хорошо сочетается с другими операторами.

Между оператором и ключевым словом не ставится пробел. Поскольку такой запрос разбирается справа налево, необходимо обязательно указывать домен верхнего уровня .net, .com, .by, .ru и т.д.

13. allintitle:

Пример: allintitle: бизнес тренинги

Ищет страницы, в теге Title которых используется ключевое слово или фраза. Используется с пробелом, плохо сочетается с другими операторами.

14. intitle:

Пример: intitle: кино

Похож на предыдущий, но тот ищет все слова, которые вы указали, этот - определенное.

15. allintext:

Пример: allintext:белые ночи

Ищет страницы, где в тексте страницы встречаются все указанные слова.Не сочетается с другими операторами.

16. filetype:

Пример: Вечная молодость filetype:mp3

Ищет файты нужного вам формата (mp3, doc, pdf и так далее). Хорошо сочетается с другими операторами и несколькими ключевыми словами.

17. numrange:

Пример: Наполеон numrange:1812-1815

Ищет нужное ключевое слово, соответсвенно указанным датам. В этом запросе покажет сайта, на которых содержаться сведения о Ниполеоне периода 1812-1815

18. author:

Пример: flying author:Hamish author:Reid

Ищет в GOGLE groups. То есть просто для поиска в вебе бесполезен. Ищет по автору сообщения.

Хорошо сочетается с другими операторами и несколькими ключевыми словами.

19. group:

Пример: ivan doig group:rec.arts.books

Ищет по определенным группам ( в Google Groups)

20. insubject:

Пример: insubject:"crazy quilts"

Ищет сообщения с указанными словами в тексте сообщения. Поиск по Google Groups.

21. Msgid:

Поиск сообщений, с конкретно указанным ID. Поиск по Google Groups.

22. source:

Пример: peace source:ha_aretz

Поиск новостей из указанных источников. Поиск по Google News

23. location:

Пример: queen location:uk

Поиск новостей в указанном регионе. Поиск в Google News. Запрос, приведенный в качестве примера найдет новoсти про королеву Великобритании.

24. store:

Пример: jeans store:gap

Поиск товаров в каталоге Froogle

Вот ещё несколько полезных советов:

  • По–умолчанию Google ищет страницы, которые содержат все слова из поискового запроса, но можно воспользоваться логическим оператором ИЛИ. Ему соответствует символ "|"
  • Пример: деньги|сапа|бабло
  • Если вам необходимо найти определенную фразу дословно, можно использовать кавычки.
  • Пример: "Hotel California"
  • Для того, чтобы исключить из результата страницы, которые содержат определенное слово, в поисковом запросе необходимо использовать символ "".
  • Пример: linux distrib download -suse
  • Для того, чтобы Google искал слова, похожие на заданное, используйте символ "~". Будут найдены синонимы и слова с альтернативными окончаниями.
  • Пример: ~деньги
  • Используйте оператор define: для быстрого поиска определений.
  • Пример: define:Ктулху
  • Символ "*" можно использовать как маску — условное обозначение произвольного количества любых символов. Это может быть полезно, например, если вы пытаетесь найти текст песни, но не можете при этом точно вспомнить слова.
  • Пример: добро пожаловать *microsoft.com
  • В Google существует еще одна малоизвестная возможность — поиск числовых интервалов, которые можно задавать с помощью крайних значений, разделенных последовательностью из двух точек.
  • Пример: Букер 2004..2007

Материал для размышления предоставил...дальше уже сами 🙄

zuziken добавил 30.12.2008 в 16:35

BLACK_DANTE:
Тогда другой вопрос, у меня вообще дальше 200-ой позиции не выводит при использовании inurl Как можно обойти? На доменные зоны разбиваю, по 100 результатов на странице... и даже капчу не дает чтобы ввести

Что за запрос? Если по запросу находится слишком много похожей информации, то Google выдаст мало...т.к есть вероятность спарсивания информации, т.к это противоречит правилам использования ПС :)

BLACK_DANTE
На сайте с 24.03.2007
Offline
188
#6

inurl:"/url.php"site:ru

Выводит до 200 результата и пишет 403 ошибку... :(

Можно обойти? т.к. результатов несколько тысяч...

Без выбора по доменной зоне тоже самое...

Z
На сайте с 01.06.2008
Offline
182
#7

Если нужно найти что-то конкретное, то используй оператор intitle или intext

Например: intext:"Добавить" intitle:"Каталог" inurl:"add.php" site:ru

В общем в этом духе :)

BLACK_DANTE
На сайте с 24.03.2007
Offline
188
#8

Вы не правильно поняли, какой оператор мне нужен я сам прекрасно знаю, я говорю про то, что не пускает дальше 200-ой позиции, как обойти?

Z
На сайте с 01.06.2008
Offline
182
#9

В том то и дело, что никак! Это защита Гугля )))

Ufaweb
На сайте с 03.03.2008
Offline
182
#10
BLACK_DANTE:
не пускает дальше 200-ой позиции, как обойти?

Работать через яху. Он более лоялен к парсерам.

zuziken, респект за метериал. Треть поста - новая инфа для меня :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий