Всплекс ошибок - Проиндексировано, несмотря на блокировку в файле robots.txt

Елистратов
На сайте с 21.04.2007
Offline
229
4250

Собственно сабж.

В последнии две недели наблюдается бешеный рост проиндексированных страниц запрещенных в robots.txt, и это не 10-20 стр.

Казалось бы типичная ситуация - на страницу появилась внешняя ссылка либо на данную страницу достаточное количество внутренних ссылок и гоша кушает ее.

Но, загвоздка в том что ни внешних, ни коем образом кучи внутренних нет. На каждую такую страницу есть всего одна такая ссылка на самом сайте.

Ну для примера, у нас адаптив и мы для моб версии выводим ссылку на полную версию /?version=full

Либо у нас постраничный вывод ?page=2... Тут ситуация такая же и даже каноникл есть, но в индексе.

А теперь о парадоксах - удаляю страницы в ГСК. Пара дней и - Здравствуйте, мы снова в индексе.

Вообще первый раз с подобным сталкиваюсь, перепроверил на 4-5 сайтах, нет таких проблем ни у оного.

сейчас уже убрал такие конструкции и на подобные ссылки поставил 301, но это уже скорее отчаянные меры.

C уважением, Евгений. Покупаю аккаунты AdSense ()
XPraptor
На сайте с 15.10.2004
Offline
333
#1

Мне на нескольких доменах приходит эта чушь в новой консоли.

Она ни на что не влияет, они балуются видимо там.

Вот я не пойму гугла с этими игрульками, для чего мне эта чушь нужна? Ну заблочена страница в роботсе, ну стоит у нее noindex в самом коде - раз ты её индексируешь все-равно, я то тут при чем? Зачем мне это овно-сообщение в консоли о ваших кривых руках из **пы - гугл удивляет в последнее время (вернее уровень его разрабов новых).

Елистратов
На сайте с 21.04.2007
Offline
229
#2
XPraptor:
Мне на нескольких доменах приходит эта чушь в новой консоли.
Она ни на что не влияет, они балуются видимо там.
Вот я не пойму гугла с этими игрульками, для чего мне эта чушь нужна? Ну заблочена страница в роботсе, ну стоит у нее noindex в самом коде - раз ты её индексируешь все-равно, я то тут при чем? Зачем мне это овно-сообщение в консоли о ваших кривых руках из **пы - гугл удивляет в последнее время (вернее уровень его разрабов новых).

Вы перечитайте, поймите суть проблемы.

И насчет сообщений в консоли - все на что ругается в консоли... Все имеет значение. Забивать точно не стоит.

Часто просто мы не сталкиваемся с не типичными проблемами где логики вообще нет.

Вот пример. Живет сайтик, была когда-то у него рубрика. Ну решили мы что нам она не нужна. Грохаем ее и естественно у нас все те страницы что были в рубрике теперь 404. Ну нет их больше же. Логично. Сайт живет, все норм. И скорее всего не ощутит ни каких проблем.

Но решили домен поменять, ну обычное дело, ничего криминального, клеим. УПС... На старый раздел было много ссылок из другого раздела и третьего раздела да и еще внешние ссылки имеются на удаленный раздел и попрежнему прекрасно ссылаются на него и гугл это видит.

Оформлено все по уму 404 как полагается, на ней все рекомендации гугла учтены, все как по книжке. Ну нет теперь у нас этого документа, а тот документ что ссылается говорит что было когда-то или думает что есть.

Нет.. Гугл теперь считает что более 20% ссылок битых значит - сайт фильтруем.

И тут начинается бред. Перечитываете хелп все что находите это смена кода ответа сервера с 404 на 410, а сама страница остается такой же.

Ну что? поможет? Если бы, на одном сайте год был фильтр. Как? Блин, за что? Где логика? Почему не убирает фильтр?

Не мучайтесь... 301 с битых ставьте на главную и пропингуйте гуглом. 7-10 дней и фильтра нет.

Что-то еще не нравиться? Ваши проблемы..

Вот он индексирует... Это не его проблема, это уже моя проблема. Он Титлы присвоил уже таким страницам. Типичный Титл который использует в ротации для сайта сейчас. А вот это уже серьезно.

Станислав Романенко
На сайте с 05.09.2007
Offline
325
#3

У гугла в справке написано, что если страницы нужно запретить для индексации, то robots.txt не поможет, обязательно нужен мета-тег noindex. А индексировать он их может из-за наличия в sitemap.xml, например.

Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).
Usery
На сайте с 01.02.2017
Offline
100
#4

И у меня последнее время такое наблюдается. НО не могу списать это ни на что иное, как ГЛЮК.

Я использую на сайте WordPress плагин подписки на комментарии, который добавляет под формой комментария ссылочку, которая ведёт на внутреннюю техническую страницу, где можно ввести свой электронный ящик, пример таких страниц:

site.ru/manage-subs/?srp=100&srk=8089fg098gf09sg8&sra=s&srsrc=f
site.ru/manage-subs/?srp=133&srk=fl8ва9kjlk78jkl4jjjb&sra=s&srsrc=f

И с недавних пор эти страницы стали залетать в индекс! ХОТЯ в robots.txt указан запрет на обход (*/manage-subs/*), А ТАКЖЕ на этих страницах имеется тег <meta name='robots' content='noindex,follow'>

Т.е. даже если Гугл игнорирует robots.txt из-за технического сбоя, посчитав его недоступным, то он всё равно никак не должен добавлять в индекс эти страницы!!! На них и контента то нет никакого, просто короткое сообщение, что введя в форму чуть ниже свою почту, вы можете подписаться на комментарии.

В итоге действием с моей стороны стало добавление rel=nofollow для ссылок, что размещает плагин подписки на комментарии. Может это поможет решить проблему с этим глюком.

Доброго времени суток

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий