Парсинг всех проиндексированных страниц - 2

Blaze1992
На сайте с 28.07.2014
Offline
52
1435

Всем доброго времени суток.

Вопрос аналогичен тому, что был задан в теме /ru/forum/516985

Есть сайт - site.ru, нужно выгрузить в документ какого либо формата тхт или эксель все проиндексированные в яндексе страницы. Страниц к слову больше 1000, так что url:site, site:site.ru - конструкции не подходят, нужно получить именно все из индекса.

Может кто сталкивался, подскажите пожалуйста.

sunseeker7
На сайте с 02.06.2009
Offline
73
#1

Пойдите от обратного спарсите страницы сайта прогой типа xenu, а потом проверьте их на индексацию в RDS Api или еще где. И все 🍿

Live to Win, Dare to Fail
W
На сайте с 13.09.2013
Offline
122
#2
sunseeker7:
Пойдите от обратного спарсите страницы сайта прогой типа xenu, а потом проверьте их на индексацию в RDS Api или еще где. И все 🍿

Такое не всегда поможет, особенно если в индексе есть старые страницы, которых уже нет на сайте.

Во-первых, проиндексированные страницы можно выгрузить из вебмастеров. Во-вторых, можете составить список категорий сайта и проиндексировать запросами "url:site.ru/category/*".

TOBBOT
На сайте с 04.11.2014
Offline
41
#3

Оба предложенных варианта - вполне рабочие, но плюс варианта от sunseeker7 в том, что он универсален, т.е. подойдет для любого сайта. Во втором случае нужно будет настраивать поисковые запросы для каждого сайта в отдельности.

Blaze1992, если у вас такая задача появляется регулярно, то могу написать для вас (платно) модуль для программы TOBBOT, который будет парсить страницы с вашего сайта и проверять их индексацию, например, по наличию кешированной версии страницы. Для полноценной работы скорее всего потребуются прокси и баланс на сервисе распознавания капчи.

Инструменты интернет-маркетинга - JLAB (http://jlab.io/) Бесплатная автоматизация с программой TOBBOT (http://tobbot.com/)
BlagFurer
На сайте с 09.12.2009
Offline
79
#4

Когда делаю технические аудиты поступаю так:

1. Распаршиваю пациента

2. Определяю структуру вложенности URL в эксельке, группирую URL по разделам. Статьи к статьям, карточки товаров разбиваю по категориям. Если их много, то печаль, но ничего не поделаешь.

3. Беру кусок каждого URL от максимальной вложенности к минимальной и составляю запрос типа site:site.ru inurl:shop/category1

4. Выдираю выдачу по этому запросу, в том числе и руками.

5. Что бы понять что лишнего в индексе относительно морды можно составлять сложные запросы, вычитая подразделы.

6. Сравниваю URL на сайте и URL в выдаче

7. Профит в виде нового robots.txt, URL на удаление, добавление.

Dolph
На сайте с 08.04.2008
Offline
215
#5

Хорошую статью о том, как спарсить все проиндексированные страницы на днях Алаич написал: http://parser.alaev.info/practice/

Так что компарсер в зубы и вперёт

RuCaptcha.com ( http://www.RuCaptcha.com ) отечественный капча-сервис 20-44 руб за 1000 решений ($0,61 максимум!) на простые капчи ReCaptcha V2/V3/Invis, FunCaptcha, HCaptcha, GeeTest, Capy, KeyCaptcha

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий