Как отфильтровать лишние результаты выдачи Гугла?

S
На сайте с 02.06.2008
Offline
16
677

Пошарился по форуму, похожей темы не нашел...

Никто не подскажет, по каким критериям можно определить "лишние" ссылки в СЕРПе, которые увеличивают количество результатов? Допустим, я ставлю в настройках отображать 100 результатов поиска. По определенным запросам вижу ссылки такого вида:

http://books.google.com/books?id=........&resnum=101&ct=result

В которых уже можно заметить, что они выдаются 101-м результатом. Т.е. если при этом парсить СЕРП и выцеплять link из результатов вида class=r><a href="link" (html-код, соответствующий выдаче Гугла), то периодически к выдаче 100 результатов прибавляется штучка-другая "левых" ссылок, от которых хотелось бы избавиться.

Несложным экспериментом выясняется, что с таким же кодом в выдаче появляется images.google.com - если Гугл находит картинку, соответствующие запросу, то именно она идет первым результатом в поиске, а уже потом 100 ссылок результатов. Также путем пристального изучения результатов парсинга были обнаружены странные ссылки, начинающиеся с

/url?=....

которые тоже "левые" и прибавляются к сотне.

Никто не знает полного списка таких ссылок, который можно отфильтровать? Чтобы после парсинга 1000 кейвордов я получал 100000 ссылок (а не 100072, как получается на практике)?

Или можно как-нибудь обойти эту проблему, задав более точный код для парсера?

Я понимаю, что страдаю фигней, но если кто-нибудь подскажет, буду очень благодарен:)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий