- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Ребята, подскажите почему многие крупные сайты добавлять так много строк в robots.txt?

Есть же большая вероятность что эти страницы попадут в индекс
Почему сразу не использовать noindex?
Есть же большая вероятность что эти страницы попадут в индекс
Почему сразу не использовать noindex?
Директивы роботс - не про индексацию, а про сканирование. Вы добавляете туда то, что робот не должен сканировать. В мета robots вы указываете, индексировать просканированное или нет. Это два разных процесса.
Примеры robots, кстати, очень ахтунговые. Устаревшие директивы, нарушенный порядок, риск получить баги.
Почему сразу не использовать noindex?
Потому что тогда боту надо будет сначала скачать страницу... и в условиях ограниченного количества обращений к сайту – бот будет медленнее его индексить.
Директивы роботс - не про индексацию, а про сканирование. Вы добавляете туда то, что робот не должен сканировать. В мета robots вы указываете, индексировать просканированное или нет. Это два разных процесса.
Примеры robots, кстати, очень ахтунговые. Устаревшие директивы, нарушенный порядок, риск получить баги.
Но если на страницу под robots идет ссылка, она может попасть в индекс
У себя на проектах было такое
Какой тогда смысл кроме меньшей нагрузки на сервер?
Но если на страницу под robots идет ссылка, она может попасть в индекс
У себя на проектах было такое
Может. robots.txt - не набор приказов, и может игнорироваться, если на страницу, скажем, ведут ссылки или есть постоянный траф. Но справедливости ради: часто ли это встречается?
А лимиты обхода никто не отменял. Гуглобот может все их тратить на левые папки, соответствующая директива в роботс может от этого избавить.
если на страницу под robots идет ссылка, она может попасть в индекс
Только не в индекс, а в выдачу:
Информация об этой странице недоступна. · Подробнее…
Когда-то давно показывали варианты "в выдаче, но не в индексе" / "в индексе, но не в выдаче"...
Окромя запретов, есть ещё и другие ограничения в протоколе взаимодействия бота с сайтом... неправильные действия вебмастера могут "испортить" больше, чем хотелось бы.
Ребята, подскажите почему многие крупные сайты добавлять так много строк в robots.txt?
Потому что когда делались эти крупные сайты robots.txt ещё работал. Сейчас же нужных ботов лучше никак не ограничивать.
Потому что когда делались эти крупные сайты robots.txt ещё работал. Сейчас же нужных ботов лучше никак не ограничивать.
Это почему это? Ничего глобально не поменялось лет за 5. А не ограничивать ботов - это получить траблы со сканированием - как пить дать.
Это почему это? Ничего глобально не поменялось лет за 5. А не ограничивать ботов - это получить траблы со сканированием - как пить дать.
Потому что Гугл стал считать что имеет право разрешать своему боту индексировать страницу несмотря на запрет в robots.txt. А когда запрещаешь ему включать страницу в индекс метатегом, то он включает дурака и заявлят что его бот не видит страницу с этим метатегом из за запрета в robots.txt.
При таком раскладе проще полностью открыть доступ боту и рулить индексацией метатегами.
Потому что Гугл стал считать что имеет право разрешать своему боту индексировать страницу несмотря на запрет в robots.txt. А когда запрещаешь ему включать страницу в индекс метатегом, то он включает дурака и заявлят что его бот не видит страницу с этим метатегом из за запрета в robots.txt.
Ну во-первых у него эта песня уже лет 5-7, и ничего страшного тут нету.
Во-вторых - я там выше особо отметил, что роботс.тхт - это про сканирование, не про индексацию.
В-третьих, разрешая гуглоботу сканировать абсолютно всё вы рискуете нарваться на ряд неприятных проблем. Сканирование у него лимитированное, и велика вероятность, что ему больше понравится пастись не на ваших важных посадочных страницах, а, скажем, в папках шаблона, в кэшах, и всё время и лимиты сканирования он будет тратить именно там.
Это не такая уж редкая ситуация, и как по мне - разумнее лишнего гуглоботу не показывать, Гугл и без того последний год сильно тупит и тормозит.
Гугл стал считать что имеет право разрешать своему боту индексировать страницу несмотря на запрет в robots.txt. А когда запрещаешь ему включать страницу в индекс метатегом, то он включает дурака и заявлят что его бот не видит страницу с этим метатегом из за запрета в robots.txt
А вы попробуйте, ограничив поиск урлом, "найти" такую страницу по словам её контента, отсутствующим в ссылках..урле. А потом уточните - что значит "индексировать"... например в подобной ситуации сми заявляли о взломе, когда админ допустил криворукость... ну так они разбираться в теме не обязаны, просто ничего другого им в голову не пришло... откуда подлый гугл может брать содержимое выдачи.