Robots.txt для сайта на собственном движке

BD
На сайте с 20.06.2016
Offline
27
627

Подскажите, что еще необходимо записать в роботс для сайта на собственном движке?

User-agent: *

Disallow: /index.php

Disallow: /login.php

Disallow: /verifylogin

Disallow: /admin

Disallow: /*print

Host: sitename.pro

Sitemap: http://sitename.pro/sitemap.xml

Svetoch1980
На сайте с 06.06.2008
Offline
107
#1

Есть мнение, что host надо в отдельную секцию для Яндеха вынести

Внедрение CRM и RPA. Автоматизация бизнес-процессов. Интеграции.
P5
На сайте с 18.09.2010
Offline
69
#2

Не надо выносить host для яндекса отдельно.

А /index.php не лишний? Главную страницу тоже надо запретить?

Mish-ka
На сайте с 08.06.2011
Offline
414
#3
Parviz555:
А /index.php не лишний? Главную страницу тоже надо запретить?

http://sitename.pro/

http://sitename.pro/index.php

http://sitename.pro

http://www.sitename.pro/

"Главных" может быть много разных, но это не "роботсом" разруливается.

Серч уже не торт => https://se.guru
BD
На сайте с 20.06.2016
Offline
27
#4

Mish-ka, про главную - это да, согласен. Просто на автомате сразу один дубль прописал.

А что по теме сказать можете?

Mish-ka
На сайте с 08.06.2011
Offline
414
#5
BorisDenisenko:
А что по теме сказать можете?

Так, а что по теме?

Роботс на собственном движке ничем не отличается от роботса на каком-то другом движке.

Закрывайте административную часть, и все, что не нужно для индексации.

Или у вас есть какие-то особенности движка, которые могут потребовать каких-то более тонких настроек?

BlagFurer
На сайте с 09.12.2009
Offline
79
#6

Умиляют вопросы про правильность robots.txt

Если с точки зрения правильности прописывания директив и расположения секций, то оценить легко. Но что касается правильности указания что закрыть что открыть без осмотра сайта ничего сказать нельзя. Для каждого сайта robots пишется свой и зависит от множества факторов.

— Для начала разберите свой сайт доступным парсером

— Дальше спарсите все странички в выдаче для своего сайта

— Потом сравните что есть в выдаче и нет в результатах парсера. Вот вам первый список кандидатов на добавление директив в этот славный файл.

— Сравните то, что есть в парсере и нет в выдаче. Вот вам список страниц, кандидатов на проверку "не закрыта ли страница случайно от ПС" и поправьте robots.txt

— После этих операций у вас появится список директив применительный конкретно к вашему сайту с вашей структурой.

— Дальше добавьте в директивы прописные истины типа избавления от параметров "?" и страниц авторизации пользователей

— Составьте выборочный список страниц, которые точно должны быть доступны ПС и выборочный список страниц, которые должны быть закрыты.

— Идете в https://webmaster.yandex.ru/tools/robotstxt/ подгружаете свой роботс и вставляете проверочный список страниц из пункта выше.

— Если все соответствует ожиданиям - поздравляю вы составили правильный роботс.

По сабжу.

host - межсессионная директива. Не важно где она будет использована, хоть в самое начало файла поставьте.

Если параметры в урлах (например в пагинации) не юзаете сразу поставьте Disallow: *?, если юзаете, то пишите дополнительно исключения.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий