- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Наверное, многие видели такую картину в сервисе Вебмастер Яндекса:
То есть, робот загрузил страниц во много раз больше, чем проиндексировал. Но это еще полбеды, потому что загрузил он и в разы больше страниц, чем их реально есть на сайте.
В связи с этим пара вопросов:
1. Может быть, кто-то знает, как у Яндекса выпытать список загруженных роботом страниц? В Вебмастере эта информация недоступна.
2. Может быть, кто-то знает онлайн-сервисы или программы, которые считывают адреса страниц сайтов с учетом robots.txt, то есть в определенном смысле имитируют считывание адресов подобно роботу Яши?
Думаю, такая информация многим была бы полезна, а особенно тем, кто не может справиться с дублями страниц.
Главный онлайн сервис по дублям это Гугл
...
Devaka давно писал про это: http://devaka.ru/articles/duplicates
Кратко тезисы:
Основные методы поиска дублей на сайте
2. Может быть, кто-то знает онлайн-сервисы или программы, которые считывают адреса страниц сайтов с учетом robots.txt, то есть в определенном смысле имитируют считывание адресов подобно роботу Яши?
sitemap generator этот http://4proxy.de/index.php?q=aHR0cDovL3dvbmRlcndlYndhcmUuY29tL3NpdGVtYXAtZ2VuZXJhdG9yLw%3D%3D&hl=2ed
Спасибо всем, кто откликнулся, я прошерстил все ваши советы. Кое что интересное нашлось, но проблему перечисленные сервисы и программы не решают.
1. Гугл-вебмастер на данный сайт говорит, что дублей нет, да и вообще - Гугл и Яша несколько по-разному понимают проблему и даже синтаксис robots.txt
2. Xenu и SitmapGenerator считывают все подряд страницы без оглядки на robots.txt. Может, я чего-то не понимаю или не вижу, но я получил именно такой результат.
Где-то в комментариях у Деваки мелькнул вот этот сервис - saitreport.ru, сейчас пробую его.
http://netpeak.ua/soft/netpeak-spider/ в настройках - сканирование - настройки robots.
http://netpeak.ua/soft/netpeak-spider/ в настройках - сканирование - настройки robots.
Это именно то, что нужно! Огромное спасибо! 🤪
Даже если найдутся и другие сервисы и программы, эта подходит для решения моего вопроса буквально "на ура".
Еще раз спасибо.
---------- Добавлено 10.06.2014 в 19:25 ----------
А вот saitreport.ru разочаровал. Он не только не соответствует поставленной задаче, но и вообще вызывает уныние. Странно то, что они за такой анализ еще и деньги берут...
---------- Добавлено 10.06.2014 в 19:35 ----------
Еще один сервис http://text.ru/url-check показал хороший результат - тоже, как и Netpeak Spider, произвел верное сканирование с учетом robots.txt