технические страницы скрывать от индексации

R
На сайте с 11.10.2015
Offline
35
rgz
794

Я правильно понимаю, что следующие страницы нужно исключать в robots.txt

  • страница 404
  • страницы веб-форм заказов
  • страница "спасибо, ваша заявка получена (и перечень ссылок на другие услуги)"
bath11
На сайте с 23.08.2011
Offline
52
#1
rgz:
Я правильно понимаю, что следующие страницы нужно исключать в robots.txt
  • страница 404
  • страницы веб-форм заказов
  • страница "спасибо, ваша заявка получена (и перечень ссылок на другие услуги)"

404 страница - ее не существует для поискового робота, т.е. ее не надо скрывать от индексации.

А если в выдаче есть такие страницы, то это совсем другой разговор.

Последние 2 думаю да.

Satisfaction
На сайте с 10.05.2012
Offline
33
#2
rgz:
страница 404

Такой страницы не должно быть. Кроме того, поисковые системы не индексируют страницы с ответом отличным от 200. Исключением является ответ 3XX, поисковая система следует правилам, например, переадресации.

rgz:
страницы веб-форм заказов
страница "спасибо, ваша заявка получена (и перечень ссылок на другие услуги)"

Такой тип страниц должен генерироваться исходя из POST-запроса. Поисковый робот запрашивает страницы только методом GET, поэтому, страниц сгенерированные основываясь на POST-запрос, доступны поисковому роботу не будут.

R
На сайте с 11.10.2015
Offline
35
rgz
#3
Satisfaction:
Такой страницы не должно быть. Кроме того, поисковые системы не индексируют страницы с ответом отличным от 200. Исключением является ответ 3XX, поисковая система следует правилам, например, переадресации.



Такой тип страниц должен генерироваться исходя из POST-запроса. Поисковый робот запрашивает страницы только методом GET, поэтому, страниц сгенерированные основываясь на POST-запрос, доступны поисковому роботу не будут.

Страница 404 отдает код 404 НО редиректит на красиво оформленную /page_not_found

А вот веб форма, когда ее отправляешь отдает 302.

Satisfaction
На сайте с 10.05.2012
Offline
33
#4
rgz:
Страница 404 отдает код 404 НО редиректит на красиво оформленную /page_not_found

Не нужно перенаправлять с несуществующих адресов на другой несуществующий адрес. Например, если пользователь попал на /page-1 перейдя по ссылке с вашего или внешнего сайта, а вы его перенаправите на /page_not_found, он не сможет скопировать URL /page-1, чтобы найти сохраненную копию страницы в поисковой системе либо чтобы сообщить о несуществующей странице администратору сайта. И это только один из примеров.

rgz:
А вот веб форма, когда ее отправляешь отдает 302.

Поисковый робот не будет отправлять POST-запрос, то-есть, не будет заполнять форму и соответственно, не попадет на эту страницу. Хорошим тоном является отдавать 404 при запросе таких страниц методом GET. В этом случае, не заполнив форму, нельзя даже узнать о наличии таких страниц. Соответственно, если вы не будете сами информировать поисковых роботов о наличии таких обработчиков средствами robots.txt, поисковые роботы и не узнают о наличии таких страниц.

Также, перечисление адресов POST-обработчиков в robots.txt, упрощает работу людям, которые ищут пути для взлома вашего сайта.

R
На сайте с 11.10.2015
Offline
35
rgz
#5
Satisfaction:
Не нужно перенаправлять с несуществующих адресов на другой несуществующий адрес. Например, если пользователь попал на /page-1 перейдя по ссылке с вашего или внешнего сайта, а вы его перенаправите на /page_not_found, он не сможет скопировать URL /page-1, чтобы найти сохраненную копию страницы в поисковой системе либо чтобы сообщить о несуществующей странице администратору сайта. И это только один из примеров.

Скопировать сможет, .т.к. ссылка остается. Если набрать site/00fdsds (не сущ) то ссылка останется. У меня движок Друпал и я там в настройках указал "Страница по умолчанию для ошибки 404 (не найдено)" "Введите путь, на который будет выполняться перенаправление при возникновении 404-ой ошибки (страница не найдена)."

Satisfaction:

Поисковый робот не будет отправлять POST-запрос, то-есть, не будет заполнять форму и соответственно, не попадет на эту страницу. Хорошим тоном является отдавать 404 при запросе таких страниц методом GET. В этом случае, не заполнив форму, нельзя даже узнать о наличии таких страниц. Соответственно, если вы не будете сами информировать поисковых роботов о наличии таких обработчиков средствами robots.txt, поисковые роботы и не узнают о наличии таких страниц.

Также, перечисление адресов POST-обработчиков в robots.txt, упрощает работу людям, которые ищут пути для взлома вашего сайта.

А вот что с Вебформами. У меня так: кнопки типа "обр звонок", "вызвать спеца", "онлайн заявка" открываются в popup аяксом и сразу отдают post и статус 200 без редиректа. Следующий post запрос тоже аяксом без перезагрузки типа "спасибо заявка принята" в том же окне.

Но есть так же и Вебформы с полями, их не нужно вызывать они всегда на странице. Эти формы заполняешь и Request Method:POST Status Code:302 Found. Т.е. у меня метод пост, но при этом статус 302 - временное перенаправление на страницу типа "спасибо Ваша заявка получена" "возможно Вы захотите так же заказать".

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий