Программа для парсинга проидексированных страниц.

[Удален]
933

Подскажите чем сейчас можно спарсить проиндексированные яндексом страницы?

DV
На сайте с 01.05.2010
Offline
644
#1

В любом случае (задача не совсем ясна), сначала нужно извлечь URL этих страниц. Я особо не заморачивался, сохранял страницы выдачи из браузера. Потом слил все в одну (cat). Далее, с помощью grep и awk отфильтровал, с помощью sort убрал дубликаты.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
[Удален]
#2

Вообще-то я говорил не про программную реализацию, а про готовое решение... :)

Какой программой можно спарсить проиндексированные страницы?

DV
На сайте с 01.05.2010
Offline
644
#3

Реализация получения списка URL как бы готовая, там до программирования далеко. Консоль и немного логики. Если успеется (ухожу), могу на пальцах показать.

А задачу всё ещё не понял. Спарсить список URL, или получить сам контент страниц?

[Удален]
#4

Именно спарсить все проиндексированные страницы.

DV
На сайте с 01.05.2010
Offline
644
#5

Вот, значится. URL получены, их можно перенаправить в текстовый файл.

Далее, натравить на них любой менеджер закачек, тот же wget, опцией i.

Далее, задача получить из HTML TXT. Тут уж фантазия вольна, я бы скриптом, но ведь программ куча.

Какой момент вызывает непонимание?

[Удален]
#6

Момент автоматизации. Сайтов много каждую страницу выдачи сохранять не очень удобно 😒

раньше использовал яшколюб, но сейчас он не актуален.

RDS bar
На сайте с 06.04.2010
Offline
98
#7
metr0:
Подскажите чем сейчас можно спарсить проиндексированные яндексом страницы?

Эту задачу можно решить с помощью нашего десктопного приложения RDS API: http://www.recipdonor.com/rds-api

- собираем карту сайта с помощью программы Xenu's Link Sleuth: http://home.snafu.de/tilman/xenulink.html

- добавляем УРЛы в RDS API (вкладка страницы) и запускаем проверку "Индекс Я стр."

Стоимость проверки 0.3$ за 1000 проверок.

Или бесплатно с помощью плагина RDS bar для Firefox:

- установите последнюю версию плагина: https://addons.mozilla.org/ru/firefox/addon/rds-bar/versions/ и активируйте в Настройках функцию Интеграции плагина в поисковую выдачу Яндекса.

- зайдите на сайт (к примеру, devaka.ru), нажмите на значение параметра "Индекс Я" для перехода на страницу со списком 1000 проиндексированных страниц сайта http://yandex.ru/yandsearch?text=url:www.devaka.ru*%20|%20url:devaka.ru*&lr=213

- затем с помощью сочетания кнопок Ctrl+Y вы можете скопировать в буфер обмена проиндексированные страницы сайта devaka.ru, которые находятся на текущей странице поисковой выдачи Яндекса

- Пройдите по остальным страницам поисковой выдачи Яндекса, последовательно переходя по ссылкам

http://yandex.ru/yandsearch?p=1&text=url%3Awww.devaka.ru*%20|%20url%3Adevaka.ru*&lr=213

...

http://yandex.ru/yandsearch?p=10&text=url%3Awww.devaka.ru*%20|%20url%3Adevaka.ru*&lr=213

...

В результате проиндексированные страницы сайта devaka.ru будут добавляться в базу данных плагина откуда их можно будет легко экспортировать: chrome://rdstb/content/user/rds.html#pageslibrary/1

Кроме того, список проиндексированных страниц сайта devaka.ru полученных из выдачи Яндекса или после проверке в баре можно будет скопировать в буфер обмена с помощью сочетания кнопок CTRL+M

Подробнее о возможностях плагина можно прочитать здесь: https://addons.mozilla.org/ru/firefox/addon/rds-bar/

RDS плагин для FF (Быстрый анализ seo показателей сайта) - http://www.recipdonor.com/bar/ (http://www.recipdonor.com/bar/) RDS API - десктопная программа для анализа seo показателей http://www.recipdonor.com/rds-api (http://www.recipdonor.com/rds-api)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий