robotx.txt vs noindex

28

Destus

4 декабря 2021, 12:54

881

Ребята, подскажите почему многие крупные сайты добавлять так много строк в robots.txt?
Есть же большая вероятность что эти страницы попадут в индекс
Почему сразу не использовать noindex?

Пример

Еще пример

240

Виктор Петров

4 декабря 2021, 12:58

#1

Destus :
Есть же большая вероятность что эти страницы попадут в индекс
Почему сразу не использовать noindex?

Директивы роботс - не про индексацию, а про сканирование. Вы добавляете туда то, что робот не должен сканировать. В мета robots вы указываете, индексировать просканированное или нет. Это два разных процесса.
Примеры robots, кстати, очень ахтунговые. Устаревшие директивы, нарушенный порядок, риск получить баги.

https://t.me/seomagus

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

757

богоносец

4 декабря 2021, 13:05

#2

Destus :
Почему сразу не использовать noindex?

Потому что тогда боту надо будет сначала скачать страницу... и в условиях ограниченного количества обращений к сайту – бот будет медленнее его индексить.

D

28

Destus

4 декабря 2021, 13:06

#3

Виктор Петров #:

Директивы роботс - не про индексацию, а про сканирование. Вы добавляете туда то, что робот не должен сканировать. В мета robots вы указываете, индексировать просканированное или нет. Это два разных процесса.
Примеры robots, кстати, очень ахтунговые. Устаревшие директивы, нарушенный порядок, риск получить баги.

Но если на страницу под robots идет ссылка, она может попасть в индекс
У себя на проектах было такое
Какой тогда смысл кроме меньшей нагрузки на сервер?

240

Виктор Петров

4 декабря 2021, 13:24

#4

Destus #:
Но если на страницу под robots идет ссылка, она может попасть в индекс
У себя на проектах было такое

Может. robots.txt - не набор приказов, и может игнорироваться, если на страницу, скажем, ведут ссылки или есть постоянный траф. Но справедливости ради: часто ли это встречается?
А лимиты обхода никто не отменял. Гуглобот может все их тратить на левые папки, соответствующая директива в роботс может от этого избавить.

757

богоносец

4 декабря 2021, 14:52

#5

Destus #:
если на страницу под robots идет ссылка, она может попасть в индекс

Только не в индекс, а в выдачу:

Информация об этой странице недоступна. · Подробнее…

Когда-то давно показывали варианты "в выдаче, но не в индексе" / "в индексе, но не в выдаче"...

Окромя запретов, есть ещё и другие ограничения в протоколе взаимодействия бота с сайтом... неправильные действия вебмастера могут "испортить" больше, чем хотелось бы.

K0

92

kreat0r

5 декабря 2021, 14:38

#6

Destus :
Ребята, подскажите почему многие крупные сайты добавлять так много строк в robots.txt?

Потому что когда делались эти крупные сайты robots.txt ещё работал. Сейчас же нужных ботов лучше никак не ограничивать.

1

240

Виктор Петров

5 декабря 2021, 14:51

#7

kreat0r #:
Потому что когда делались эти крупные сайты robots.txt ещё работал. Сейчас же нужных ботов лучше никак не ограничивать.

Это почему это? Ничего глобально не поменялось лет за 5. А не ограничивать ботов - это получить траблы со сканированием - как пить дать.

K0

92

kreat0r

6 декабря 2021, 05:39

#8

Виктор Петров #:

Это почему это? Ничего глобально не поменялось лет за 5. А не ограничивать ботов - это получить траблы со сканированием - как пить дать.

Потому что Гугл стал считать что имеет право разрешать своему боту индексировать страницу несмотря на запрет в robots.txt. А когда запрещаешь ему включать страницу в индекс метатегом, то он включает дурака и заявлят что его бот не видит страницу с этим метатегом из за запрета в robots.txt.

При таком раскладе проще полностью открыть доступ боту и рулить индексацией метатегами.

240

Виктор Петров

6 декабря 2021, 08:16

#9

kreat0r #:
Потому что Гугл стал считать что имеет право разрешать своему боту индексировать страницу несмотря на запрет в robots.txt. А когда запрещаешь ему включать страницу в индекс метатегом, то он включает дурака и заявлят что его бот не видит страницу с этим метатегом из за запрета в robots.txt.

Ну во-первых у него эта песня уже лет 5-7, и ничего страшного тут нету.
Во-вторых - я там выше особо отметил, что роботс.тхт - это про сканирование, не про индексацию.
В-третьих, разрешая гуглоботу сканировать абсолютно всё вы рискуете нарваться на ряд неприятных проблем. Сканирование у него лимитированное, и велика вероятность, что ему больше понравится пастись не на ваших важных посадочных страницах, а, скажем, в папках шаблона, в кэшах, и всё время и лимиты сканирования он будет тратить именно там.
Это не такая уж редкая ситуация, и как по мне - разумнее лишнего гуглоботу не показывать, Гугл и без того последний год сильно тупит и тормозит.

Запрет индексации части страницы? У новых каналов YT Оптимизация google speed

757

богоносец

6 декабря 2021, 09:23

#10

kreat0r #:
Гугл стал считать что имеет право разрешать своему боту индексировать страницу несмотря на запрет в robots.txt. А когда запрещаешь ему включать страницу в индекс метатегом, то он включает дурака и заявлят что его бот не видит страницу с этим метатегом из за запрета в robots.txt

А вы попробуйте, ограничив поиск урлом, "найти" такую страницу по словам её контента, отсутствующим в ссылках..урле. А потом уточните - что значит "индексировать"... например в подобной ситуации сми заявляли о взломе, когда админ допустил криворукость... ну так они разбираться в теме не обязаны, просто ничего другого им в голову не пришло... откуда подлый гугл может брать содержимое выдачи.

Google Updates - апдейты Как раскрутить сайт? Google: тег title не

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Вышел новый Яндекс Браузер с YandexGPT и YandexART