Парсинг всех проиндексированных страниц - 2 - Сервисы и программы для работы с SE - Практические вопросы оптимизации

52

Blaze1992

3 мая 2016, 11:26

1435

Всем доброго времени суток.

Вопрос аналогичен тому, что был задан в теме /ru/forum/516985

Есть сайт - site.ru, нужно выгрузить в документ какого либо формата тхт или эксель все проиндексированные в яндексе страницы. Страниц к слову больше 1000, так что url:site, site:site.ru - конструкции не подходят, нужно получить именно все из индекса.

Может кто сталкивался, подскажите пожалуйста.

73

sunseeker7

3 мая 2016, 12:13

#1

Пойдите от обратного спарсите страницы сайта прогой типа xenu, а потом проверьте их на индексацию в RDS Api или еще где. И все 🍿

Live to Win, Dare to Fail

W

122

Wiiseacre

4 мая 2016, 04:53

#2

sunseeker7:
Пойдите от обратного спарсите страницы сайта прогой типа xenu, а потом проверьте их на индексацию в RDS Api или еще где. И все 🍿

Такое не всегда поможет, особенно если в индексе есть старые страницы, которых уже нет на сайте.

Во-первых, проиндексированные страницы можно выгрузить из вебмастеров. Во-вторых, можете составить список категорий сайта и проиндексировать запросами "url:site.ru/category/*".

Редиректы со страниц, которых Google Updates - апдейты В Google Search Console

41

TOBBOT

4 мая 2016, 06:08

#3

Оба предложенных варианта - вполне рабочие, но плюс варианта от sunseeker7 в том, что он универсален, т.е. подойдет для любого сайта. Во втором случае нужно будет настраивать поисковые запросы для каждого сайта в отдельности.

Blaze1992, если у вас такая задача появляется регулярно, то могу написать для вас (платно) модуль для программы TOBBOT, который будет парсить страницы с вашего сайта и проверять их индексацию, например, по наличию кешированной версии страницы. Для полноценной работы скорее всего потребуются прокси и баланс на сервисе распознавания капчи.

Инструменты интернет-маркетинга - JLAB (http://jlab.io/) Бесплатная автоматизация с программой TOBBOT (http://tobbot.com/)

79

BlagFurer

13 мая 2016, 17:03

#4

Когда делаю технические аудиты поступаю так:

1. Распаршиваю пациента

2. Определяю структуру вложенности URL в эксельке, группирую URL по разделам. Статьи к статьям, карточки товаров разбиваю по категориям. Если их много, то печаль, но ничего не поделаешь.

3. Беру кусок каждого URL от максимальной вложенности к минимальной и составляю запрос типа site:site.ru inurl:shop/category1

4. Выдираю выдачу по этому запросу, в том числе и руками.

5. Что бы понять что лишнего в индексе относительно морды можно составлять сложные запросы, вычитая подразделы.

6. Сравниваю URL на сайте и URL в выдаче

7. Профит в виде нового robots.txt, URL на удаление, добавление.

215

Dolph

13 мая 2016, 18:00

#5

Хорошую статью о том, как спарсить все проиндексированные страницы на днях Алаич написал: http://parser.alaev.info/practice/

Так что компарсер в зубы и вперёт

RuCaptcha.com ( http://www.RuCaptcha.com ) отечественный капча-сервис 20-44 руб за 1000 решений ($0,61 максимум!) на простые капчи ReCaptcha V2/V3/Invis, FunCaptcha, HCaptcha, GeeTest, Capy, KeyCaptcha

Зачем быть уникальным в мире, где все можно скопировать

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Парсинг всех проиндексированных страниц - 2