Почему гугл индексирует закрытые страницы

20

Дикообраз73

17 августа 2015, 02:43

4081

Всех приветствую.

Есть проблема. В роботсе прописан запрет для обоих поисковиков на ряд страниц (страницы фильтров товаров по разным параметрам) по типу

User-Agent: *

Disallow: /*?order=

и т.д.

Гугл, несмотря на эти запреты все равно индексирует все эти страницы. В итоге куча дублей в поиске.

Для него что-то отдельно в роботсе нужно прописывать или в чем проблема?

Интернет-магазин на битриксе.

И3

223

Иван34

17 августа 2015, 03:37

#1

То что Вы прописали в роботсе не дает запрета роботу ходить по вашим страницам. Как вариант, пропишите в .htaceess.

A

99

aldous

17 августа 2015, 07:11

#2

Как раз наоборот. Запрещён краулинг вот этого всего ?order= (если правильно правило сформулировали). Но индексирование нет, ибо robots.txt управляет только краулером. Чтобы выкурить из индекса всё, что туда запустили, нужно дать в robots.txt доступ краулеру (иначе он ничего не узнает об изменениях на страницах), а на страницы повесить метатег. В противном случае закрытые страницы в robots.txt потеряют сниппет и уйдут в "сопли".

А вот тут матчасть.

Так же проблему дублей можно решать с помощью канонизации ссылок.

1

Как сравнить какие страницы Страницы без внутренних ссылок Нет входящих ссылок на

33

OsirisUA

17 августа 2015, 19:12

#3

Иван34:
То что Вы прописали в роботсе не дает запрета роботу ходить по вашим страницам. Как вариант, пропишите в .htaceess.

+1 В роботс прописываются рекомендации. Он всегда индексит, только прописывает, что сайт закрыт в роботс.тхт

Проводим водолазные работы (http://diving-ms.com.ua/ru/articles/100-diving-operations) в Украине

AR

78

And-rey

18 августа 2015, 06:35

#4

Все прошли мы через это, что в индекс попадает пагинация, сортировка и страницы с параметрами от фильтра, результаты поиска... и иногда наступаем на те же грабли- забываем закрывать их со старта.

Речь о чём. Просто при самом старте проекта нужно было максимально ограничить в "роботс" доступ к тем страницам, которые будут как дубли. Аналогичная ситуация у меня с одним магазином. Около 3000 товаров, и на всё это залетели в индекс страницы с вариантами когда "по фильтру" выбирать =)

Вот сидим тоже ждём 2 месяц, когда поисковики повыплёвывают из себя эти страницы, закрыв дорогу к этим страницам в "роботс" Тут нужно просто оживить проект, обновлять новыми статьями, менять на главной что-то.. и постоянно скармливать новым файлом "sitemaps.xml" Гугл и Яндекс,

И поверить еще в "гуглвебмастере" стоит ли дополнительный запрет в разделе "Параметры URL" на нежелаемые страницы с параметром: route, product_id, page, sort, order, path....

п.с. ответил в этой теме, так как тоже интересно, как долго могут быть в результатах индекса страницы, запрещённые уже позже в "роботс"

Важные страницы блокируются в Страницы "Разрешено"(анализатор robots) не Разные УРЛ страниц с

44

websdag

18 августа 2015, 08:46

#5

robots.txt носит чисто рекомендательный характер

1

Купить кабель (http://golden-cable.com.ua/) в Киеве, Харькове, провода и электротовары Доставка цветов Харьков (https://florina.kh.ua/) Florina http://focusrent.com.ua/ (http://focusrent.com.ua/)

A

99

aldous

18 августа 2015, 09:35

#6

Как работает robots в Google, и чем отличается сканирование от индексирования.

Рекомендательный - неудачное определение переводчика (первоисточник - Robots.txt instructions are directives only). Это не в том смысле, что можно делать, а можно не делать, а в том, что не стандартизированные прямые команды. В частности, у Яндекс другой механизм работы с robots.txt.

Краулер - сканирующий механизм, включает заход бота на страницу. Механизм называется по-русски "сканирование" (чтение страницы без обработки) .

Robots.txt управляет только сканированием. То есть включает/выключает доступ для робота. К индексированию, то есть процессам вне сайта он уже не имеет отношения.

Метатег robots с параметром noindex (аналог заголовок x-robots) управляет уже индексированием. Страница с данным метатегом продолжает сканироваться роботом, но параметр noindex запрещает ей попадать или оставаться в поисковой базе (->выдаче).

Например, если повесить метатег noindex и запретить страницу в robots.txt, она останется в индексе, потому что Google не сможет считать параметр метатега из-за закрытого доступа.

Если до момента публикации контента закрыть в robots страницы, они не попадут в индекс, потому что бот не будет их читать. Если закрыть после публикации, они останутся в индексе в том состоянии, в котором находились до момента закрытия. Информация по ним не обновится, Google сотрёт сниппет (по правилам необновляемой информации) и отправит в "похожие" страницы.

Инструкции Robots.txt полностью поддерживаются Google согласно правилам ПС, и никаких случаев "читает-не читает" быть не должно. Убийство robots.txt на работающем сайте, насколько я помню, должно привести к ограничению доступа для робота.

забываем закрывать их со старта.

вот именно

как долго могут быть в результатах индекса страницы, запрещённые уже позже в "роботс"

По сути бесконечно, опускаясь в самый зад. Иногда группируются в дубли. Может что-то ещё экспериментальное происходит.

Подскажите, почему Google видит Google индексирует страницы запрещенные Проиндексировано, несмотря на блокировку

M

158

Milash

18 августа 2015, 11:05

#7

websdag:
robots.txt носит чисто рекомендательный характер

Согласен, клал на не Гыыгл

Посетите мой сайт: https://www.sweet-shop.kiev.ua/

R

26

Raensul

18 августа 2015, 12:09

#8

т.е. если уж так случилось, то нужно поставить ноиндекс а в роботсе открыть доступ к таким страницам?

или уже в принципе нечего рыпаться, просто закрыть в роботсе, а основную страницу просто переписать?

105

r27

18 августа 2015, 12:18

#9

websdag:
robots.txt носит чисто рекомендательный характер

Недавно google у одного сайта не правильно показывал адаптивную версию. Оказалось, что css и скрипты были закрыты в robots. И выдавал ошибку, что googlebot не может получить доступ к таким то ресурсам. После их открытия в роботсе, все стало нормально.

Никого не консультирую и ничего не оптимизирую.

Googlebot не может получить Письмо от гугл. Googlebot Googlebot не может получить

R

26

Raensul

18 августа 2015, 12:32

#10

r27:
Недавно google у одного сайта не правильно показывал адаптивную версию. Оказалось, что css и скрипты были закрыты в robots. И выдавал ошибку, что googlebot не может получить доступ к таким то ресурсам. После их открытия в роботсе, все стало нормально.

мне тоже начал ныть, что не может правильно отображать страницу, как переехал на адаптивнуй шаблон. открыл ему доступ...

но это кажись к текущей теме не относится

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, если ваша email-рассылка попала в спам