Анализатор робота Гуглы

TK
На сайте с 06.04.2009
Offline
17
711

Доброе,

Есть крайне глупый вопрос, с одним "но", хотелось бы получить не глупый ответ :D:

Наверно не для кого не секрет, что гуглом можно пользоваться не как калькулятором и не сайтом где можно поглупицо надо Google logo. В нем можно искать :idea:

Так вот на основе фичи "поиска" хочется создать некоторый хитрый парсер-анализатор результатов выдачи. Т.е. вот что имеется ввиду, вводим в строке поиска например "SEO рулит" он дает нам офигительную выдачу из чуть меньше 30к сайтов. Вот я хочу все, именно все эти ~30к сайтов самому проанализировать и попробовать дать именно такую выдачу в своем парсере.

Т.е. будет анализ бэков(не только количество, но и вес каждого бэка хочу считать), анализ уникальности контента\ключей, время индексации, количество раз сколько гугля туда лазила и прочие примочки)

Так вот встал на одной задачи это получить эти 30к сайтов ибо Гугля в выдачу дает только около 1000 сайтов. А я хочу все, ибо наибольшая ценность для меня(пока наибольшая) это сайты находящиеся в самом низу(топовые сайты долго будут думацо)

Подскажите милые други как заставить гуглю дать полную выдачу, мозг очень болит уже думать об этой проблемы начинал от Google API, уже дошел до YQL(прием тут сервис Яху долго расказывать)

Цель понять механику работы гугла, не приблизительную) а близкую к иделу)

ЗЫ. Я нуп, помидорами кидать можно) и нужно)

Sm@RT
На сайте с 03.11.2006
Offline
135
#1
TepKuH:
Доброе,

Так вот встал на одной задачи это получить эти 30к сайтов

Сначала все сайты начинающиеся на "а" потом на "b" )))

если много - дробить в глубь

за 1 запрос он не дает больше 1К насколько помнится

Куплю домены различных тематик в CO.UK, бюджет достаточный. Рассмотрю размещение статей на UK сайтах. Писать в личку
[Удален]
#2

Проще взять какой-то скрипт поиска и автоматизировать забивание сайтов выдачи гугла.

Дописать потом анализатор бэков и прочие фичи, оно Вам надо? :)

Soft
На сайте с 22.06.2008
Offline
34
#3

Больше 1000 не даст, в политике google считается, что обычному человеку будет более чем достаточно 1к сайтов....

Советую использовать вариации...

Например искать по доменным зонам

site:.su

Пример запроса: Seo рулит в зоне su

Язык запросов google http://www.google.com/help/operators.html

Список разных доменных зон, используемые в ру сегменте:

.ru

.su

ucoz.ru

narod.ru

.net

.org

.biz

.info

.ua

.by

.in

.lv

.lv

.lt

net.ru

net.su

net.com

.tv

.kz

.az

.ge

.kg

.mobi

co.il

co.in

cv.ua

da.ru

dn.ua

dp.ua

in.ua

km.ru

ks.ua

lg.ua

me.uk

my.uk

od.ua

oo.lv

pp.ru

sc.ru

sp.ru

vl.ru

3dn.ru

5kg.ru

avo.ru

bir.ru

biz.ru

biz.ua

cbg.ru

cmw.ru

com.ru

com.ua

edu.ru

h15.ru

ibe.ru

inc.ru

int.ru

irk.ru

jar.ru

khv.ru

kms.ru

kmv.ru

kmx.ru

msk.ru

msk.su

net.ru

net.su

nkz.ru

nov.ru

nsk.ru

nsk.su

orc.ru

org.ru

org.ua

org.uk

ptz.ru

ret.ru

rnd.ru

rsm.ru

ru.net

rzn.ru

sib.ru

snz.ru

spb.ru

spb.su

stv.ru

tom.ru

tsk.ru

udm.ru

vip.su

vrn.ru

2122.ru

aiya.ru

amur.ru

boom.ru

chel.ru

film.su

hit1.ru

hit2.ru

kchr.ru

kiev.ua

komi.ru

komi.su

mail.ru

mari.ru

msef.ru

nnov.ru

omsk.ru

paru.ru

perm.ru

tula.ru

tuva.ru

tuva.su

tver.ru

87937.ru

altai.ru

bodr.net

chita.ru

jamal.ru

kazan.ru

kirov.ru

kuban.ru

kursk.ru

mgimo.ru

mytis.ru

mytop.ua

oryol.ru

oskol.ru

penza.ru

pskov.ru

secms.ru

sochi.ru

sochi.su

tagil.ru

tomsk.ru

walla.ru

xiron.ru

yamal.ru

zgrad.ru

amursk.ru

arbitr.ru

baikal.ru

crimea.ua

diveak.ru

e-burg.ru

gamecd.ru

gelnet.ru

grozny.ru

kaluga.ru

koenig.ru

kurgan.ru

lenreg.ru

marine.ru

mavrik.ru

mosreg.ru

murman.ru

myvnc.com

nazist.ru

nizhny.ru

palana.ru

ria-bv.ru

TK
На сайте с 06.04.2009
Offline
17
#4
Sm@RT:
Сначала все сайты начинающиеся на "а" потом на "b" )))

если много - дробить в глубь

за 1 запрос он не дает больше 1К насколько помнится

а как это сделать? Я думал, идея простая и лежит на поверхности, только средств гугли, яшы, яху я не нашел так фильтровать.

>Проще взять какой-то скрипт поиска и автоматизировать забивание сайтов выдачи гугла.

не понял😕 Самого то списка сайтов у меня нету. У меня есть ключевик, есть результат выдачи. А я наоборот хочу достать список сайтов реагирующих на этот ключевик и уже с каждым разбирацо(PR, backlinks, unique...).

>Например искать по доменным зонам site:.su

не катит, думал. У меня по опреденным ключам до нескольких мульонов возвратов, надо все достать( причем начать с самого низа.

Я не думаю что это не возможно. По определенным косвенным признакам как то получают выдачи такие. Например для сбора баз для спама. По некоторым косвенным признакам собирают базы форумов, чатов, движков... а их тыщи.

Soft
На сайте с 22.06.2008
Offline
34
#5

ТС, Вы совсем не хотите разбераться, хотите что бы вам дал кто-то готовое решение, а его нет... или собрал базу за вас?

Я дал Вам ссылку на язык запросов, зная язык google не сложно забрать все сайты по определённому запросу или признакам.

Лично собирал милиооные базы сайтов, не говоря уже о 30к.

Даже если Вы сами создадите скрипт-парсер, то гугл быстро Вас забанит по IP.

Используйте готовые программы, например - Hrefer (платная), которая позволяет использовать аноимные прокси.

TK
На сайте с 06.04.2009
Offline
17
#6
Soft:
ТС, Вы совсем не хотите разбераться, хотите что бы вам дал кто-то готовое решение, а его нет... или собрал базу за вас?
Я дал Вам ссылку на язык запросов, зная язык google не сложно забрать все сайты по определённому запросу или признакам.
Лично собирал милиооные базы сайтов, не говоря уже о 30к.
Даже если Вы сами создадите скрипт-парсер, то гугл быстро Вас забанит по IP.
Используйте готовые программы, например - Hrefer (платная), которая позволяет использовать аноимные прокси.

Если чесно я вас немного не понимаю, дали ссылку. Я видел её. Красивая, но без полезная. С помощью каких query types я смогу собрать базу? Намек, дайте хотя бы если хотите заставить меня подумать. Но ссылку я видел, я перерыл кучи документов. Я ведь не зря написал что я перепробовал много инструментов начиная от google api, заканчивая yql. Этим инструментарием что вы дали я её богу не знаю что делать. Как мне например поможет "cache:" или "link:" или еще какой там черт с рогами.

Покажите кусок мне кода плз, я знаю большое кол-во языков, я разберусь. А миллионные базы это хорошо, это я по адресу зашел) Но то что вы предложили использовать доп. фильтры доменов это мне не подходит(серезно не подходит, мало того что мне трудно будет оценить вес сайтов в реальной позиции по ключу, так еще и не хватит мне 1000 ответов от гуглы даже еще делить доп. на зоны)

Насчет бана меня гуглей не извольте беспокоится. Я знаю слово валшебное - "пожалуста". Не банит меня гугла, вообщем не проблема это(кстате гугла банит не только по ИП, у гуглы хитрая механика заголовков, печенек, временные задержки + ИП, не надо даже в большинстве случаем прятаться за проксями)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий