Парсер проиндексированных страниц для большого сайта.

R
На сайте с 07.06.2009
Offline
46
366

Всем привет. У меня есть задача - спарсить все проиндексированные страницы Яндекса и Гугла моего сайта и получить их в виде списка. Возможно ли это в принципе, если количество проиндексированных страниц больше 30 000, либо нужен сначала парсить весь сайт, (с помощью Xenu, например) а потом загонять в определенные сервисы и там уже смотреть - что проиндексировано, что нет ? Кто вообще чем пользуется в таких ситуациях ? Есть ли какие-то по этому вопросу адекватные истории для таких объемов ?

twitterstore
На сайте с 02.04.2015
Offline
2
#1

Zeno Poster - хорошая программулина для таких дел. Это не парсер, а скорее бот, но очень продвинутый, с кучей функций.

Я им запарсил из вэбархива несколько сотен блогов, когда их резко удалили на одном городском портале, и им же запостил полученные страницы в LiveStreet - получился каталог статей :)

Ну и вообще прога хорошая, если голова работает можно много применений найти. На официальном сайте, она продаётся, но можно найти крякнутую, полугодовалой давности и пользоваться в своё удовольствие)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий