Почему гугл индексирует закрытые страницы

12 3
Д7
На сайте с 26.03.2013
Offline
20
4057

Всех приветствую.

Есть проблема. В роботсе прописан запрет для обоих поисковиков на ряд страниц (страницы фильтров товаров по разным параметрам) по типу

User-Agent: *

Disallow: /*?order=

и т.д.

Гугл, несмотря на эти запреты все равно индексирует все эти страницы. В итоге куча дублей в поиске.

Для него что-то отдельно в роботсе нужно прописывать или в чем проблема?

Интернет-магазин на битриксе.

И3
На сайте с 23.03.2011
Offline
221
#1

То что Вы прописали в роботсе не дает запрета роботу ходить по вашим страницам. Как вариант, пропишите в .htaceess.

A
На сайте с 25.10.2014
Offline
99
#2

Как раз наоборот. Запрещён краулинг вот этого всего ?order= (если правильно правило сформулировали). Но индексирование нет, ибо robots.txt управляет только краулером. Чтобы выкурить из индекса всё, что туда запустили, нужно дать в robots.txt доступ краулеру (иначе он ничего не узнает об изменениях на страницах), а на страницы повесить метатег. В противном случае закрытые страницы в robots.txt потеряют сниппет и уйдут в "сопли".

А вот тут матчасть.

Так же проблему дублей можно решать с помощью канонизации ссылок.

OsirisUA
На сайте с 24.05.2013
Offline
33
#3
Иван34:
То что Вы прописали в роботсе не дает запрета роботу ходить по вашим страницам. Как вариант, пропишите в .htaceess.

+1 В роботс прописываются рекомендации. Он всегда индексит, только прописывает, что сайт закрыт в роботс.тхт

Проводим водолазные работы (http://diving-ms.com.ua/ru/articles/100-diving-operations) в Украине
AR
На сайте с 01.04.2012
Offline
78
#4

Все прошли мы через это, что в индекс попадает пагинация, сортировка и страницы с параметрами от фильтра, результаты поиска... и иногда наступаем на те же грабли- забываем закрывать их со старта.

Речь о чём. Просто при самом старте проекта нужно было максимально ограничить в "роботс" доступ к тем страницам, которые будут как дубли. Аналогичная ситуация у меня с одним магазином. Около 3000 товаров, и на всё это залетели в индекс страницы с вариантами когда "по фильтру" выбирать =)

Вот сидим тоже ждём 2 месяц, когда поисковики повыплёвывают из себя эти страницы, закрыв дорогу к этим страницам в "роботс" Тут нужно просто оживить проект, обновлять новыми статьями, менять на главной что-то.. и постоянно скармливать новым файлом "sitemaps.xml" Гугл и Яндекс,

И поверить еще в "гуглвебмастере" стоит ли дополнительный запрет в разделе "Параметры URL" на нежелаемые страницы с параметром: route, product_id, page, sort, order, path....

п.с. ответил в этой теме, так как тоже интересно, как долго могут быть в результатах индекса страницы, запрещённые уже позже в "роботс"

websdag
На сайте с 23.10.2014
Offline
44
#5

robots.txt носит чисто рекомендательный характер

Купить кабель (http://golden-cable.com.ua/) в Киеве, Харькове, провода и электротовары Доставка цветов Харьков (https://florina.kh.ua/) Florina http://focusrent.com.ua/ (http://focusrent.com.ua/)
A
На сайте с 25.10.2014
Offline
99
#6

Как работает robots в Google, и чем отличается сканирование от индексирования.

Рекомендательный - неудачное определение переводчика (первоисточник - Robots.txt instructions are directives only). Это не в том смысле, что можно делать, а можно не делать, а в том, что не стандартизированные прямые команды. В частности, у Яндекс другой механизм работы с robots.txt.

Краулер - сканирующий механизм, включает заход бота на страницу. Механизм называется по-русски "сканирование" (чтение страницы без обработки) .

Robots.txt управляет только сканированием. То есть включает/выключает доступ для робота. К индексированию, то есть процессам вне сайта он уже не имеет отношения.

Метатег robots с параметром noindex (аналог заголовок x-robots) управляет уже индексированием. Страница с данным метатегом продолжает сканироваться роботом, но параметр noindex запрещает ей попадать или оставаться в поисковой базе (->выдаче).

Например, если повесить метатег noindex и запретить страницу в robots.txt, она останется в индексе, потому что Google не сможет считать параметр метатега из-за закрытого доступа.

Если до момента публикации контента закрыть в robots страницы, они не попадут в индекс, потому что бот не будет их читать. Если закрыть после публикации, они останутся в индексе в том состоянии, в котором находились до момента закрытия. Информация по ним не обновится, Google сотрёт сниппет (по правилам необновляемой информации) и отправит в "похожие" страницы.

Инструкции Robots.txt полностью поддерживаются Google согласно правилам ПС, и никаких случаев "читает-не читает" быть не должно. Убийство robots.txt на работающем сайте, насколько я помню, должно привести к ограничению доступа для робота.

забываем закрывать их со старта.

вот именно

как долго могут быть в результатах индекса страницы, запрещённые уже позже в "роботс"

По сути бесконечно, опускаясь в самый зад. Иногда группируются в дубли. Может что-то ещё экспериментальное происходит.

M
На сайте с 15.06.2010
Offline
158
#7
websdag:
robots.txt носит чисто рекомендательный характер

Согласен, клал на не Гыыгл

Посетите мой сайт: https://www.sweet-shop.kiev.ua/
R
На сайте с 03.05.2013
Offline
26
#8

т.е. если уж так случилось, то нужно поставить ноиндекс а в роботсе открыть доступ к таким страницам?

или уже в принципе нечего рыпаться, просто закрыть в роботсе, а основную страницу просто переписать?

r27
На сайте с 11.06.2012
Offline
105
r27
#9
websdag:
robots.txt носит чисто рекомендательный характер

Недавно google у одного сайта не правильно показывал адаптивную версию. Оказалось, что css и скрипты были закрыты в robots. И выдавал ошибку, что googlebot не может получить доступ к таким то ресурсам. После их открытия в роботсе, все стало нормально.

Никого не консультирую и ничего не оптимизирую.
R
На сайте с 03.05.2013
Offline
26
#10
r27:
Недавно google у одного сайта не правильно показывал адаптивную версию. Оказалось, что css и скрипты были закрыты в robots. И выдавал ошибку, что googlebot не может получить доступ к таким то ресурсам. После их открытия в роботсе, все стало нормально.

мне тоже начал ныть, что не может правильно отображать страницу, как переехал на адаптивнуй шаблон. открыл ему доступ...

но это кажись к текущей теме не относится

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий