ПС и директива Disallow

Vincent_
На сайте с 24.12.2008
Offline
136
448

Поисковики ходят по страницам запрещенным в robots.txt ? О индексации речь не идет. Спасибо.

stryker
На сайте с 12.03.2006
Offline
814
#1
Vincent_:
Поисковики ходят по страницам запрещенным в robots.txt ? О индексации речь не идет. Спасибо.

На 100% сказать не могу, но, вроде бы, ходят. Иногда даже каким-то боком запрещенные к индексации страницы появляются в кеше, если память не изменяет и я внимательно смотрел когда проверял.

Но, все это не факт, возможно я "не так" смотрел что-то.

► Лучший хостинг для сайтов ( https://vk.cc/a9FN77 )
Ваня Хельсинг
На сайте с 26.09.2007
Offline
254
#2

Лазиют иногда. К тому же у ПС много разных ботов, например есть предположение, что у каждой крупной ПС есть "бот-шпион", который кладёт болт на любый запретительные директивы в роботсе и ищет любые косяки на всех страницах сайта. Раньше про яшиного "шпиона" частенько писали.

Качественная работа с репутацией в сети. Ищу постоянных заказчиков https://reputatika.ru/ Отличный хостинг для белых сайтов ( http://goo.gl/o2vSB )
samimages
На сайте с 31.05.2009
Offline
427
#3

Еще как ходят и все записывают... вот по 403 ответу они не ходят... а роботс это рекомендация как бы...

Опыт как иммунитет — приобретается в муках! Аудит семантики от 15К [долго] - ЛС
Vincent_
На сайте с 24.12.2008
Offline
136
#4
stryker:
Иногда даже каким-то боком запрещенные к индексации страницы появляются в кеше, если память не изменяет и я внимательно смотрел когда проверял.

Это да. У меня яша все страницы с мета noindex добавил, которые составили 60% от общего кол-ва. Я написал в службу, они ответили - разберемся. А в то время на те странички(метки в wp) траф небольшой пошел, думаю пусть разбираются, а noindex пока отключу. Все равно яше пофиг :)

Ваня Хельсинг:
...есть "бот-шпион", который кладёт болт на любый запретительные директивы в роботсе и ищет любые косяки на всех страницах сайта.

Ну даже не знаю. Таким образом можно только один "косяк" найти - клоакинг.

А интересовало меня это потому как думаю закрыть страницы "/page/" в блоге от индексации, но не знаю будут ли дотягиваться ПС до ранних записей. Перелинковки нет, карт тоже нет.

samimages
На сайте с 31.05.2009
Offline
427
#5

Упреждение:

Все что было проин... закачано роботом - проверяется! Я однажды так косякнул!

По этой причине:

1.Все что не используется с сервера удаляйте.

2.Все что удалено должно давать 404

3.Все что не хотите показывать должно показывать 403ъ

И не путайте загружено с индексом... загружено не показывают по запросу пользователя, но не значит что не посещают!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий