Это стало происходить после обновления версии Wordpress. Раньше такого не было. Индексируются дубликаты страниц с вопросом на конце, а потом выпадают из индекса. Что можно сделать, чтобы этого не происходило?
В robots.txt.
Disallow: */?
Отвечаю сам себе: для Гугла это является ошибкой.
Гугл потихоньку добавляет страницы пагинации в индекс, с пометкой "Страница недоступна по причине блокировки в файле robots.txt".Решил закрыть страницы листинга мета-тегом robots noindex,nofollow.Из файла robots.txt запреты удалил.
Буду наблюдать, не выпадут ли из органики важные страницы и насколько пострадает переобход важных страниц.
Одна страница пагинации уже попала в поиск Гугла, несмотря на блокировку в файле robots.txt.В Сёрч Консоли появилось предупреждение.
Я удивляюсь только одному.Страница закрыта от сканирования, но Гугл всё равно её индексирует, то есть добавляет в выдачу документ с заблокированным содержимым.
Посмотрю, окажутся ли сайты "в соплях".
Повторюсь, что в течение 5 лет никаких проблем с индексированием и сканированием не было. В файле robots.txt листинг был закрыт правилом Disallow: /*page*
Буду смотреть, сколько заблокированных страниц пагинации добавит в индекс полоумный Гугл. Техподдержка Яндекса напротив рекомендует использовать robots.txt, а не мета-тег noindex,follow для закрытия от индексации маловостребованных (малоценных) страниц листинга.
Я тоже не вижу явных причин для ухудшения ранжирования, если робот будет иметь для переобхода дополнительный круг из числа бесполезных для индекса страниц перечня.
Проблем с индексацией не было, когда страницы листинга были закрыты в файле robots.txt.
Буду наблюдать, анализировать, делать выводы.
Так я и не выдумываю.Успешные конкуренты закрывают пагинацию в robots.txt.
Если говорить предельно открыто, то в течение примерно 5 лет я тоже придерживался этого правила.Проблем с индексацией не было.
Затем 4 года закрывал страницы мета-тегом <meta name="robots" content="noindex, follow">.На такие страницы робот Гугла почти не заходил.
Я хочу, чтобы роботы не только не индексировали, но и не сканировали постраничную навигацию.
Noindex follow больше не поддерживается. Можно прописать robots noindex.Но исходя из собственной практики, страницы с разрешённым переходом по внутренним ссылкам, но запрещённые к индексированию, роботами посещаются крайне редко.
Повторюсь, что это мой собственный опыт.На мой взгляд, тут или открывать листинг (дубли, низкокачественные не целевые страницы) или блокировать его к такой-то бабушке, отслеживая сканирование и индексирование важных страниц.
Искренняя благодарность Вам за ответ!
Потому что нет никакой необходимости держать листинги ни в поиске, ни в качестве url для переобхода.
Позвольте задать Вам ещё один принципиально важный вопрос.Заранее благодарен Вам за ответ.Допустим, что для информационника-многостраничника я использую корректную карту сайта в формате XML.Она, как и у всех без исключения конкурентов, формирует папки с количеством прямых ссылок на посты.В году 12 месяцев. Значит ровно столько же и папок.
Робот Яндекса и Гугла регулярно обходит карту сайта. Последняя дата обхода конкретной папки отображается в панели Вебмастера.
Вопрос заключается в следующем.
Если сайты имеют не слишком оптимальную структуру, а статьи между собой перелинкованы далеко не все, то каким образом робот доберётся до всех постов?Постраничная навигация закрыта a файле robots.txt!
Яндекс утверждает, что ему достаточно только карты сайта XML для того, чтобы просканировать все статьи и, если документ достоин выдачи, его благополучно добавить в индекс.
Достаточно ли поисковым системам только одной карты сайта XML, чтобы обнаружить все адреса страниц, предлагаемых Вебмастером для индексации?Может ли робот совершать переобход страниц, переходя исключительно по прямым ссылкам с карты сайта, планируя тем самым краулинговый бюджет?
Не является. Это ваше право ограничивать служебные страницы для внимания поисковых роботов.
При правильно реализованной навигации и корректно реализуемой XML карты сайта все эти страницы не нужны, они лишь занимают поисковую квоту, - тогда как её лучше использовать для индексации/переиндексации целевых страниц.
Спасибо за ответ, Антоний Олегович!Если я Вас правильно понимаю, лучшим решением будет заблокировать страницы пагинации не мета-тегом robots noindex nofollow, а правилом Disallow: /page* в файле robots.txt?
Скажите, пожалуйста, насколько необходимо в данном случае использование карты sitemap html?5200 ссылок на одной странице не совсем уместно?