Парсинг выдачи Google

d4k
На сайте с 02.03.2010
Offline
146
d4k
4802

Добрый день, коллеги и просто интересующиеся)

Возник очень интересный нюанс при парсинге Гугла... Меня интересует перебор всех страниц пользователей на определенном сайте. Для того чтобы любимый Гоша выдал то, что я ищу я ввожу следующий запрос:

"Просмотр профиля *" site:http://forum.guitarplayer.ru/index.php?action=profile;u= -inurl:topic

Как известно, гугл, как и большинство других поисковых систем, даёт спарсить только 1000 результатов выдачи (хоть, порой, и находит значительно больше...) Но, после ввода данного запроса видим вот что:

Гоогле выдает всего один результат и "ненавязчиво" спрашивает: "Хотите ли вы увидеть еще N кол-во однотипных результатов?" - Соглашаемся и кликаем, после чего уже видим, что Гоогле съел 872к профилей с данного сайта (минус пару тысящ мусорных страниц, возможно попавших сюда же). НО, прокручивая выдачу вниз - видим всего 50, блин 50 (!) результатов из 872к, О_о WTF, господа?

Собственно, назревает вопрос: "Как мне вытянуть все эти (или большую часть, но не 50 же...) УРЛы профилей с сайта?"

Как бороться с такой "дескриминацией" от Гугла? :madd:

d4k
На сайте с 02.03.2010
Offline
146
d4k
#1

Разве никто не знает как с таким бороться?

Artisan
На сайте с 04.03.2005
Online
374
#2
d4k:
Разве никто не знает как с таким бороться?

Предложите денег за работу,

и знатоки быстро найдутся.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
Nomiki
На сайте с 28.03.2012
Offline
117
#3

d4k

Мда, в соседней ветке обсуждают, там парсер ТС'a вытягивает больше 1000 с гоши, пообщайтесь с ним ;)

Заказать дизайн сайта: nomiki@yandex.ru | Портфолио: behance.net/nomiki | ВК: vk.com/nmk_msk
d4k
На сайте с 02.03.2010
Offline
146
d4k
#4

Спасибо, очень заманчивый парсер. Но, у меня есть свой))

Вопрос стоит в том, что я, как юзер, задаю запрос и, при многотысячной выдаче, Гугл мне дает увидеть всего 50(!) результатов... С чем это связано ? Баг, или настройки поиска (еще чего-либо?)

Wandex
На сайте с 15.04.2012
Offline
19
#5
d4k:
Спасибо, очень заманчивый парсер. Но, у меня есть свой))

Вопрос стоит в том, что я, как юзер, задаю запрос и, при многотысячной выдаче, Гугл мне дает увидеть всего 50(!) результатов... С чем это связано ? Баг, или настройки поиска (еще чего-либо?)

Скорее один из алгоритмов оптимизации отсекает лишние результаты... Не баг.

TBAG
На сайте с 28.05.2012
Offline
78
#6

Если я правильно понял, то Вы попадаете на так называемые "сопли" или "опущенные результаты", причина тут только одна - это дубли страниц. По этому Вам их и не показывают.

http://presite.ru/ (http://presite.ru/) - SMM (http://presite.ru/karta-sayta-1.html) только самые качественные материалы (http://www.presite.ru/#top) по раскрутке сайтов и их оптимизации в поисковых системах (http://presite.ru/index.php?option=com_xmap&sitemap=1&view=xml).
C1
На сайте с 22.07.2012
Offline
4
#7
Возник очень интересный нюанс при парсинге Гугла... Меня интересует перебор всех страниц пользователей на определенном сайте. Для того чтобы любимый Гоша выдал то, что я ищу я ввожу следующий запрос:
Цитата:
"Просмотр профиля *" site:http://forum.guitarplayer.ru/index.p...ion=profile;u= -inurl:topic

Может попросить парсер погуглить каждую из этих страниц по списку, составляющему (кладу руку на хрустальный шар) 40815 строк, но с нумерацией начиная единицей и до 95429 (часть пользователей - удалены.):

с "Kuzmitch"

site:http://forum.guitarplayer.ru/index.php?action=profile;u=1 -inurl:topic

до "Anton Undegro"

site:http://forum.guitarplayer.ru/index.php?action=profile;u=95429 -inurl:topic

nukex
На сайте с 11.05.2007
Offline
130
#8

нужно копать в сторону search api. Но и там есть лимиты.

project33
На сайте с 30.04.2011
Offline
94
#9
d4k:
"Как мне вытянуть все эти (или большую часть, но не 50 же...) УРЛы профилей с сайта?"

если речь идет о конкретно профилях на сайте, то имхо лучше их с самого сайта и парсить, не привлекая к этому гугл

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий