Парсим выдачу

12
D
На сайте с 28.10.2007
Offline
1
1493

Даю запрос в гуглю. Ну о-о-очень точный. больше миллиона найденных страниц. Как можно получить их все а не только первые 500 вариантов? пробую разбавлять запрос случайным словом из словаря, релевантность выдачи снижается :-(. Пробую всякие там операторы уточняющие, он гад, мой скрипт роботом обзывает :-((. Как быть, если нужен весь миллион?

S
На сайте с 25.08.2006
Offline
51
#1

>пробую разбавлять запрос случайным словом из словаря, релевантность выдачи снижается

а ты не случайным разбавляй а тематическим

>Пробую всякие там операторы уточняющие, он гад, мой скрипт роботом обзывает

хорошие прокси тебе в помощь

d1ma
На сайте с 18.03.2007
Offline
102
#2

Вообще-то можно 1000, а не 500 брать с обычного запроса.

DASich
На сайте с 08.08.2007
Offline
35
#3

прокси +1 (но, найти хорошие проксики не очень то просто, с теми что можно бесплатно собрать - один геморой)

dooraway, попробуйте собирать по 1к с разных датацентров, когда-то прокатывало....

--- 7.62 это не калибр. Это аргумент --- --- Authentic Designer Sunglasses (http://www.ManPradaSunglasses.com) ---
Q
На сайте с 20.12.2006
Offline
40
#4

Конкретизируй запрос. На пример site:com site:org inurl:bla-bla allinurl: в общем используй доп. запросы, их ОЧЕНЬ МНОГО можно придумать. И с каждого вытащишь по 1000 урлов. Главное потом на дублирование проверяй.

M
На сайте с 01.04.2004
Offline
125
#5

Qvent в точку попал.

собирай с разных доменных зон, ищи по вхождению в урле чего-нибудь и т.д.

D
На сайте с 28.10.2007
Offline
1
#6

да ошибся, 1000 выдает.

sergwm, разбавлять тематичеcки плохо получается, мало там текста, да и однообразный он приемущественно...

насчет проксей... только если платный сервис заюзать... а с беспатными каши не сваришь :(

DASich, а как это с разных датацентров? я так не умею.

Qvent, спасибо, то что надо. Хотя я вобщем то так и делал. только не те операторы использовал. точнее не те фразы под оператором. Он оказывается некоторые фразы под intitle сразу считает нехорошими ;-)

We're sorry...
... but your query looks similar to automated requests from a computer virus or spyware application. To protect our users, we can't process your request right now.
D
На сайте с 28.10.2007
Offline
1
#7

да, вот еще мысль пришла.

может есть поисковики какие нибудь малоизвестные, где нет ограничения на размер выдачи?

Q
На сайте с 20.12.2006
Offline
40
#8
dooraway:
да, вот еще мысль пришла.
может есть поисковики какие нибудь малоизвестные, где нет ограничения на размер выдачи?

Только вот и индекс у них другого размера наверное :)

А по поводу проксей, не согласен. Вот к примеру сервис с нормальными проксями, сам его юзаю http://proxy-list.org/

Q
На сайте с 20.12.2006
Offline
40
#9
DASich:
попробуйте собирать по 1к с разных датацентров, когда-то прокатывало....

А это по моему совсем не пролезет. Выдача отличается по датацентрам, только когда гугл трясёт, хотя могу ошибаться.

Komaric
На сайте с 06.01.2007
Offline
9
#10

ТС извени конечно, но самый простой способо собрать то что очень нужно это руками...

А вообще хороший парсер(+прокси), метод подстановки и знание операторов гугла :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий