Как получить проиндексированные страницы сайта?

SX
На сайте с 05.04.2004
Offline
83
681

У меня такой вопрос. Мне надо получить все проиндексированные страницы одного сайта Яндексом. Если ли программа, которая может это сделать? Отпарсить не получается, потому что выдача идёт максимум 50 штук на страницу, а там около 400 000 страниц проидексировано.

Marketing2.Ru (http://Marketing2.Ru)
L
На сайте с 28.01.2005
Offline
62
#1

site-auditor - хотя не подойдет...

K
На сайте с 31.01.2001
Offline
737
#2
SplideX:
Мне надо получить все проиндексированные страницы одного сайта Яндексом. Если ли программа, которая может это сделать? Отпарсить не получается, потому что выдача идёт максимум 50 штук на страницу, а там около 400 000 страниц проидексировано.

Да, тут есть принципиальное ограничение. И не потому, что по 50 штук на страницу (всегда можно зайти на следующую страницу), а потому что общее ограничение - 1000 результатов поиска.

Вы можете попробовать так:

url="www.site.ru/a*"

url="www.site.ru/b*"

....

url="www.site.ru/1*"

.....

Если брать комбинации из 2-3 символов, можно перебрать все. Только это надо делать с умом, если, например все страницы сайта кроме главной

www.site.ru/content/pages/******* :).

Думаю, идея понятна. Вот только Яндекс не обрадуется такому количеству запросов, да и зачем.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
FribbulusXax
На сайте с 24.03.2008
Offline
47
#3

Page Promoter Bar показывает проиндексированные Яндексом страницы, можно предположить, что программа Page Promoter может выводить этот список. Но это всего лишь предположение.

SplideX:
Отпарсить не получается, потому что выдача идёт максимум 50 штук на страницу, а там около 400 000 страниц проидексировано

А XML?

Libertad tu eres mi cuerpo!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий