Посоветуйте как спарсить информацию из поиска Яндекса

[Удален]
1154

Необходимо собрать список страниц которые есть в индексе Яндекса, сравнить с нужным списком страниц, отфильтровать страницы ошибок, дубли и прочую чепуху, тем самым отдавать Яндексу только правильные и нужные странички. Отсюда вопрос >>>

Как можно вытянуть из индекса яндекса свыше 1500 страниц сайта?

При использовании обычного поиска - он не выдаёт свыше 1000 страниц.

При использовании XML, запросом вида "site:http://www.site.ru", он сообщает, что найдено 1597 по моему сайту, но отдаёт только 1 ссылку. Если же вбить просто любое слово, то возвращает нормальный результат по 10 ссылок на страницу.

FANTiK123
На сайте с 30.12.2008
Offline
76
#1

Спарсить страницы сайта, и чекать каждую на индекс. Я больше 1к (ну чуть больше) не даст, даже если парсить страницы при различных поисковых запросах в пределах одного домена.

Универсальный парсер контента для создания интернет-магазинов (http://sbfactory.ru/?p=600) и не только ;)
Белый Ум
На сайте с 27.04.2009
Offline
251
#2

поищите слова вариаторы для парсинга

Белый Ум добавил 09.02.2011 в 15:53

FANTiK123:
Спарсить страницы сайта, и чекать каждую на индекс

Вариант

FANTiK123:
Я больше 1к (ну чуть больше) не даст, даже если парсить страницы при различных поисковых запросах в пределах одного домена.

как это не даст? допустим слово ложки есть только на 1 странице сайта они и покажется. Осталось найти много таких слов, и объединить их выдачу.

Skype: shum_beliy
Codd
На сайте с 13.01.2011
Offline
65
#3

Можно парсить по разделам на сайте, например

http://yandex.ru/yandsearch?text=http://newsland.ru/news&site=newsland.ru&lr=46

http://yandex.ru/yandsearch?text=http://newsland.ru/page&site=newsland.ru&lr=46

подойдет, но ограничение на 1000 ссылок в результатах поиска по 1 запросу и здесь не обойти.

Белый Ум
На сайте с 27.04.2009
Offline
251
#4
Codd:
Можно парсить по разделам на сайте, например
http://yandex.ru/yandsearch?text=http://newsland.ru/news&site=newsland.ru&lr=46
http://yandex.ru/yandsearch?text=http://newsland.ru/page&site=newsland.ru&lr=46

подойдет, но ограничение на 1000 ссылок в результатах поиска по 1 запросу и здесь не обойти.

Это нужно в ручную настраивать а автоматом можно например по дате.

По дате автоматом с разницей в 1 день можно даже с вики вытащить огромное количество за день 300 за день 100

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий