robotx.txt vs noindex

12
D
На сайте с 30.01.2021
Offline
28
881

Ребята, подскажите почему многие крупные сайты добавлять так много строк в robots.txt?
Есть же большая вероятность что эти страницы попадут в индекс
Почему сразу не использовать noindex?

Пример

Еще пример

Виктор Петров
На сайте с 05.01.2020
Offline
240
#1
Destus :
Есть же большая вероятность что эти страницы попадут в индекс
Почему сразу не использовать noindex?

Директивы роботс - не про индексацию, а про сканирование. Вы добавляете туда то, что робот не должен сканировать. В мета robots вы указываете, индексировать просканированное или нет. Это два разных процесса.
Примеры robots, кстати, очень ахтунговые. Устаревшие директивы, нарушенный порядок, риск получить баги.

богоносец
На сайте с 30.01.2007
Offline
757
#2
Destus :
Почему сразу не использовать noindex?

Потому что тогда боту надо будет сначала скачать страницу... и в условиях ограниченного количества обращений к сайту – бот будет медленнее его индексить.

D
На сайте с 30.01.2021
Offline
28
#3
Виктор Петров #:

Директивы роботс - не про индексацию, а про сканирование. Вы добавляете туда то, что робот не должен сканировать. В мета robots вы указываете, индексировать просканированное или нет. Это два разных процесса.
Примеры robots, кстати, очень ахтунговые. Устаревшие директивы, нарушенный порядок, риск получить баги.

Но если на страницу под robots идет ссылка, она может попасть в индекс
У себя на проектах было такое
Какой тогда смысл кроме меньшей нагрузки на сервер?

Виктор Петров
На сайте с 05.01.2020
Offline
240
#4
Destus #:
Но если на страницу под robots идет ссылка, она может попасть в индекс
У себя на проектах было такое

Может. robots.txt - не набор приказов, и может игнорироваться, если на страницу, скажем, ведут ссылки или есть постоянный траф. Но справедливости ради: часто ли это встречается?
А лимиты обхода никто не отменял. Гуглобот может все их тратить на левые папки, соответствующая директива в роботс может от этого избавить.

богоносец
На сайте с 30.01.2007
Offline
757
#5
Destus #:
если на страницу под robots идет ссылка, она может попасть в индекс

Только не в индекс, а в выдачу

Информация об этой странице недоступна. · Подробнее…

Когда-то давно показывали варианты "в выдаче, но не в индексе" / "в индексе, но не в выдаче"...

Окромя запретов, есть ещё и другие ограничения в протоколе взаимодействия бота с сайтом... неправильные действия вебмастера могут "испортить" больше, чем хотелось бы.

K0
На сайте с 16.05.2012
Offline
92
#6
Destus :
Ребята, подскажите почему многие крупные сайты добавлять так много строк в robots.txt?

Потому что когда делались эти крупные сайты robots.txt ещё работал. Сейчас же нужных ботов лучше никак не ограничивать.

Виктор Петров
На сайте с 05.01.2020
Offline
240
#7
kreat0r #:
Потому что когда делались эти крупные сайты robots.txt ещё работал. Сейчас же нужных ботов лучше никак не ограничивать.

Это почему это? Ничего глобально не поменялось лет за 5. А не ограничивать ботов - это получить траблы со сканированием - как пить дать.

K0
На сайте с 16.05.2012
Offline
92
#8
Виктор Петров #:

Это почему это? Ничего глобально не поменялось лет за 5. А не ограничивать ботов - это получить траблы со сканированием - как пить дать.

Потому что Гугл стал считать что имеет право разрешать своему боту индексировать страницу несмотря на запрет в robots.txt. А когда запрещаешь ему включать страницу в индекс метатегом, то он включает дурака и заявлят что его бот не видит страницу с этим метатегом из за запрета в robots.txt.

При таком раскладе проще полностью открыть доступ боту и рулить индексацией метатегами.

Виктор Петров
На сайте с 05.01.2020
Offline
240
#9
kreat0r #:
Потому что Гугл стал считать что имеет право разрешать своему боту индексировать страницу несмотря на запрет в robots.txt. А когда запрещаешь ему включать страницу в индекс метатегом, то он включает дурака и заявлят что его бот не видит страницу с этим метатегом из за запрета в robots.txt.

Ну во-первых у него эта песня уже лет 5-7, и ничего страшного тут нету.
Во-вторых - я там выше особо отметил, что роботс.тхт - это про сканирование, не про индексацию.
В-третьих, разрешая гуглоботу сканировать абсолютно всё вы рискуете нарваться на ряд неприятных проблем. Сканирование у него лимитированное, и велика вероятность, что ему больше понравится пастись не на ваших важных посадочных страницах, а, скажем, в папках шаблона, в кэшах, и всё время и лимиты сканирования он будет тратить именно там.
Это не такая уж редкая ситуация, и как по мне - разумнее лишнего гуглоботу не показывать, Гугл и без того последний год сильно тупит и тормозит.

богоносец
На сайте с 30.01.2007
Offline
757
#10
kreat0r #:
Гугл стал считать что имеет право разрешать своему боту индексировать страницу несмотря на запрет в robots.txt. А когда запрещаешь ему включать страницу в индекс метатегом, то он включает дурака и заявлят что его бот не видит страницу с этим метатегом из за запрета в robots.txt

А вы попробуйте, ограничив поиск урлом, "найти" такую страницу по словам её контента, отсутствующим в ссылках..урле. А потом уточните - что значит "индексировать"... например в подобной ситуации сми заявляли о взломе, когда админ допустил криворукость... ну так они разбираться в теме не обязаны, просто ничего другого им в голову не пришло... откуда подлый гугл может брать содержимое выдачи.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий