Оператор поиска Яндекс (уровень вложенности УРЛ)

H4
На сайте с 14.11.2018
Offline
23
637

Приветствую, коллеги!

Есть задача: нужно вытащить из выдачи Яндекса УРЛы одного сайта определенного УРОВНЯ вложенности.

Например для интернет-магазина example.com, требуется найти все "мусорные" страницы 6 уровня, которые генерируются CMS внутри категорий. Пример такого УРЛ: example.com/shop/elektronika/category/televizory/televizory-price-2000-to-10000/

Заранее скажу, что страницы закрыты от индексации метатегом robots, но робот не торопится их посещать. Поэтому хотелось бы составить список страниц, которые остались в индексе и их принудительно переобойти.

Составил начало запроса, но не хватает знаний, чтобы собственно выделить страницы только 6 уровня (выделять по запросу не вариант).

site:example.com inurl:category

Прошу помочь, заранее спасибо!

Игорь
На сайте с 07.02.2018
Offline
35
#1
Hita4 :

Приветствую, коллеги!

Есть задача: нужно вытащить из выдачи Яндекса УРЛы одного сайта определенного УРОВНЯ вложенности.

Например для интернет-магазина example.com, требуется найти все "мусорные" страницы 6 уровня, которые генерируются CMS внутри категорий. Пример такого УРЛ: example.com/shop/elektronika/category/televizory/televizory-price-2000-to-10000/

Заранее скажу, что страницы закрыты от индексации метатегом robots, но робот не торопится их посещать. Поэтому хотелось бы составить список страниц, которые остались в индексе и их принудительно переобойти.

Составил начало запроса, но не хватает знаний, чтобы собственно выделить страницы только 6 уровня (выделять по запросу не вариант).

site:example.com inurl:category

Прошу помочь, заранее спасибо!

Спарси все ссылки этого уровня лягушкой, тебе же все не нужны, и отправь на переобход

H4
На сайте с 14.11.2018
Offline
23
#2
Игорь #:

Спарси все ссылки этого уровня лягушкой, тебе же все не нужны, и отправь на переобход

Проблема в том, что каталог сайта динамичный и список УРЛов на текущий момент не равен тому, что было год назад.

seout
На сайте с 31.08.2007
Offline
113
#3
Через вебмастер лучше скачать, имхо. "Индексирование"-"страницы в индексе" внизу страницы архив.
H4
На сайте с 14.11.2018
Offline
23
#4
seout #:
Через вебмастер лучше скачать, имхо. "Индексирование"-"страницы в индексе" внизу страницы архив.

Да, это самое логичное решение, но wtf в том, что они там не отображаются, но в выдаче есть!

fillonon
На сайте с 24.12.2009
Offline
132
#5
а как они вам мешают?
Сайт знакомств - который скоро переплюнет Мамбу ( https://naytiparu.ru/ ), лучший массажер простаты ( https://happymans-xxl.ru/prostata-massager.html ) , Если нужно SEO продвижение ( https://seouspeh.ru/ )
H4
На сайте с 14.11.2018
Offline
23
#6
fillonon #:
а как они вам мешают?

CMS генерировала дубли и они висят в индексе, их нужно убрать

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий