Страницы, загруженные роботом Яндекса

bescom
На сайте с 09.08.2013
Offline
57
905

Наверное, многие видели такую картину в сервисе Вебмастер Яндекса:

То есть, робот загрузил страниц во много раз больше, чем проиндексировал. Но это еще полбеды, потому что загрузил он и в разы больше страниц, чем их реально есть на сайте.

В связи с этим пара вопросов:

1. Может быть, кто-то знает, как у Яндекса выпытать список загруженных роботом страниц? В Вебмастере эта информация недоступна.

2. Может быть, кто-то знает онлайн-сервисы или программы, которые считывают адреса страниц сайтов с учетом robots.txt, то есть в определенном смысле имитируют считывание адресов подобно роботу Яши?

Думаю, такая информация многим была бы полезна, а особенно тем, кто не может справиться с дублями страниц.

Проверяга - бесплатная программа для проверки наличия ссылок (http://bescomblog.com/?page_id=5080) Ходяга(АнтиМинусинск)-проклик ссылок, коррекция ПФ, генерация поискового и соцтрафика (http://bescomblog.com/?page_id=5130)
Vladimir SEO
На сайте с 19.10.2011
Offline
2059
#1

Главный онлайн сервис по дублям это Гугл

Эксперт по продуктам Google https://support.google.com/profile/58734375 ᐈ Продвижение коммерческих сайтов https://kulinenko.com/
dan-pro
На сайте с 11.02.2012
Offline
55
#2
bescom:
...

Devaka давно писал про это: http://devaka.ru/articles/duplicates

Кратко тезисы:

Основные методы поиска дублей на сайте

  • Гугл-вебмастер
  • Программа Xenu
  • Поисковая выдача
Links Forever
На сайте с 20.08.2006
Offline
329
#3
bescom:
2. Может быть, кто-то знает онлайн-сервисы или программы, которые считывают адреса страниц сайтов с учетом robots.txt, то есть в определенном смысле имитируют считывание адресов подобно роботу Яши?

sitemap generator этот http://4proxy.de/index.php?q=aHR0cDovL3dvbmRlcndlYndhcmUuY29tL3NpdGVtYXAtZ2VuZXJhdG9yLw%3D%3D&hl=2ed

Я очень люблю вкусные рецепты (https://povar24.info) квашеной капусты (https://kvashenaya-kapusta.ru/) и салат оливье (https://salatolive.ru/).
bescom
На сайте с 09.08.2013
Offline
57
#4

Спасибо всем, кто откликнулся, я прошерстил все ваши советы. Кое что интересное нашлось, но проблему перечисленные сервисы и программы не решают.

1. Гугл-вебмастер на данный сайт говорит, что дублей нет, да и вообще - Гугл и Яша несколько по-разному понимают проблему и даже синтаксис robots.txt

2. Xenu и SitmapGenerator считывают все подряд страницы без оглядки на robots.txt. Может, я чего-то не понимаю или не вижу, но я получил именно такой результат.

Где-то в комментариях у Деваки мелькнул вот этот сервис - saitreport.ru, сейчас пробую его.

Zegeberg
На сайте с 30.09.2010
Offline
306
#5

http://netpeak.ua/soft/netpeak-spider/ в настройках - сканирование - настройки robots.

Ссылки с форумов, блогов и соц сетей ( https://forumok.com/p/c1710b6b/ ) Создание, настройка и ведение РК Директ
bescom
На сайте с 09.08.2013
Offline
57
#6
Zegeberg:
http://netpeak.ua/soft/netpeak-spider/ в настройках - сканирование - настройки robots.

Это именно то, что нужно! Огромное спасибо! 🤪

Даже если найдутся и другие сервисы и программы, эта подходит для решения моего вопроса буквально "на ура".

Еще раз спасибо.

---------- Добавлено 10.06.2014 в 19:25 ----------

А вот saitreport.ru разочаровал. Он не только не соответствует поставленной задаче, но и вообще вызывает уныние. Странно то, что они за такой анализ еще и деньги берут...

---------- Добавлено 10.06.2014 в 19:35 ----------

Еще один сервис http://text.ru/url-check показал хороший результат - тоже, как и Netpeak Spider, произвел верное сканирование с учетом robots.txt

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий