Программа для парсинга проидексированных страниц.

[Удален]

24 ноября 2012, 08:30

936

Подскажите чем сейчас можно спарсить проиндексированные яндексом страницы?

DV

644

DenisVS

24 ноября 2012, 08:37

#1

В любом случае (задача не совсем ясна), сначала нужно извлечь URL этих страниц. Я особо не заморачивался, сохранял страницы выдачи из браузера. Потом слил все в одну (cat). Далее, с помощью grep и awk отфильтровал, с помощью sort убрал дубликаты.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )

Настройки поиска Google теперь Google: Как удалить email-адреса Яндекс.Метрика поможет узнать скорость

[Удален]

24 ноября 2012, 08:41

#2

Вообще-то я говорил не про программную реализацию, а про готовое решение... :)

Какой программой можно спарсить проиндексированные страницы?

DV

644

DenisVS

24 ноября 2012, 08:50

#3

Реализация получения списка URL как бы готовая, там до программирования далеко. Консоль и немного логики. Если успеется (ухожу), могу на пальцах показать.

А задачу всё ещё не понял. Спарсить список URL, или получить сам контент страниц?

TrustLink: Список ссылок в MegaIndex открыл API для Google AdWords вводит в

[Удален]

24 ноября 2012, 13:44

#4

Именно спарсить все проиндексированные страницы.

DV

644

DenisVS

24 ноября 2012, 13:51

#5

Вот, значится. URL получены, их можно перенаправить в текстовый файл.

Далее, натравить на них любой менеджер закачек, тот же wget, опцией i.

Далее, задача получить из HTML TXT. Тут уж фантазия вольна, я бы скриптом, но ведь программ куча.

Какой момент вызывает непонимание?

Любые вопросы про DMOZ вопрос о файле robots.txt Получить PR для очень

[Удален]

25 ноября 2012, 01:43

#6

Момент автоматизации. Сайтов много каждую страницу выдачи сохранять не очень удобно 😒

раньше использовал яшколюб, но сейчас он не актуален.

98

RDS bar

26 ноября 2012, 15:01

#7

metr0:
Подскажите чем сейчас можно спарсить проиндексированные яндексом страницы?

Эту задачу можно решить с помощью нашего десктопного приложения RDS API: http://www.recipdonor.com/rds-api

- собираем карту сайта с помощью программы Xenu's Link Sleuth: http://home.snafu.de/tilman/xenulink.html

- добавляем УРЛы в RDS API (вкладка страницы) и запускаем проверку "Индекс Я стр."

Стоимость проверки 0.3$ за 1000 проверок.

Или бесплатно с помощью плагина RDS bar для Firefox:

- установите последнюю версию плагина: https://addons.mozilla.org/ru/firefox/addon/rds-bar/versions/ и активируйте в Настройках функцию Интеграции плагина в поисковую выдачу Яндекса.

- зайдите на сайт (к примеру, devaka.ru), нажмите на значение параметра "Индекс Я" для перехода на страницу со списком 1000 проиндексированных страниц сайта http://yandex.ru/yandsearch?text=url:www.devaka.ru*%20|%20url:devaka.ru*&lr=213

- затем с помощью сочетания кнопок Ctrl+Y вы можете скопировать в буфер обмена проиндексированные страницы сайта devaka.ru, которые находятся на текущей странице поисковой выдачи Яндекса

- Пройдите по остальным страницам поисковой выдачи Яндекса, последовательно переходя по ссылкам

http://yandex.ru/yandsearch?p=1&text=url%3Awww.devaka.ru*%20|%20url%3Adevaka.ru*&lr=213

...

http://yandex.ru/yandsearch?p=10&text=url%3Awww.devaka.ru*%20|%20url%3Adevaka.ru*&lr=213

...

В результате проиндексированные страницы сайта devaka.ru будут добавляться в базу данных плагина откуда их можно будет легко экспортировать: chrome://rdstb/content/user/rds.html#pageslibrary/1

Кроме того, список проиндексированных страниц сайта devaka.ru полученных из выдачи Яндекса или после проверке в баре можно будет скопировать в буфер обмена с помощью сочетания кнопок CTRL+M

Подробнее о возможностях плагина можно прочитать здесь: https://addons.mozilla.org/ru/firefox/addon/rds-bar/

RDS плагин для FF (Быстрый анализ seo показателей сайта) - http://www.recipdonor.com/bar/ (http://www.recipdonor.com/bar/) RDS API - десктопная программа для анализа seo показателей http://www.recipdonor.com/rds-api (http://www.recipdonor.com/rds-api)

RDS bar - seo-плагин Можно ли узнать список RDS bar - seo-плагин

Все что нужно знать о DDоS-атаках грамотному менеджеру

Google: E-E-A-T не является фактором ранжирования