Спасибо за разъяснение - Google - Поисковые системы

Google игнорирует robots.txt

trirepetae · 2013-01-22T09:55:30.0000000Z

Уже видел такие темы на этом форуме и не только, но ответа что делать не нашел. Есть сайт со статьями, Яндекс обходит запрещенные для индексации страницы стороной. Гугл нет. Вебмастер от Гугл стоит на сайте, путь к robots.txt там указан. Но периодически в индекс попадают страницы, которых там быть не должно и постоянно подчищаю индекс через вебмастер. Теперь надоело, так как робот стал добавлять в индекс страницы, которые я уже исключал через вебмастер в ручную давным-давно, т.е. пошел по второму кругу. Хотелось бы избавить себя от ручной работы и я был бы рад если бы мне посоветовали что делать. Если я пропустил какую-ту тему с ответом, то не обессуйте и киньте ссылку:)

211

New Member

22 января 2013, 21:19

#11

webrock:
<META name="ROBOTS" content="NOINDEX, NOFOLLOW">

Я этим закрываю от индексации страницы, но все равно иногда жрет их, но в серпе пишет в сниппете, что доступ закрыт в файле robots.txt

обычно и там, и там блочу, не всегда помогает

Раскрутка сайтов (https://seomasters.com.ua/)

E

283

easywind

22 января 2013, 21:41

#12

New Member, ок. Указанная страница проиндексированна? По запросу site:имя_страницы и_текст_с_нее находится в ПС?

T

46

trirepetae

23 января 2013, 06:41

#13

easywind:
trirepetae, плохо ищите. Файл роботс не управляет индексированием, а управляет сканированием. Тоесть установив запрет на сканирование в роботс Вы просто даете команду боту не сканировать и если страница ранее была проиндексирована то она так и будет висеть в инлексе.
Установите в коде
<meta name="robots" content="noindex"> и уберите запрет на сканирование в роботс чтобы бот получил команду прочитать страницу. После прочтения он ее выкинет из индекса.

Да, я даю команду не сканировать, но ведь страницу из индекса я удалил через вебмастер, т.е. е уже там не было, но она все равно появилась несмотря на запрет роботс.

В любом случае запрет через <meta name="robots" content="noindex">, на каждой странице, попадание которой в индекс нежелательно, для сайта на wordpress технически реализуется сложно. Я даже не знаю как.

Гугл игнорирует роботс Удаление страницы из индекса Как отнесутся поисковые роботы

E

283

easywind

23 января 2013, 07:49

#14

trirepetae, Вы можете урл страницы + скрин удаления показать в ЛС?

S3

109

sok3535

23 января 2013, 07:53

#15

trirepetae:

В любом случае запрет через <meta name="robots" content="noindex">, на каждой странице, попадание которой в индекс нежелательно, для сайта на wordpress технически реализуется сложно. Я даже не знаю как.

реализуй - http://wordpress.org/extend/plugins/ultimate-noindex-nofollow-tool/ 😂

1

155

YaanGle

23 января 2013, 08:07

#16

New Member:
Вы уверены? А это что http://clip2net.com/s/2K5uw
В общем-то гугл часто забивает болт на все это, у меня в коде мета-тег на многих страницах noindex, но он все равно в итоге в серпе показывает вот так
http://clip2net.com/s/2K5uw

У документа условно можно выделить разные зоны. Так вот, гугл может знать о существовании данного урл, но не индексировать содержимое по данному адресу (по разным причинам). Т.е. по тексту страницы вы его не найдете (при условии отсутствии данного текста в анкор-листе). Соответственно, в серпе данный урл тоже может появится по некоторым запросам (в том числе поиск страниц сайта, или запрос есть в анкор-листе). По крайней мере, мне это видится так :)

Надуманная аналогия из жизни: вы сами лично ни разу не были в заведении "Барсучья нора", но при этом вы слышали, что в этом месте, которое расположено по такому-то адресу, каждую пятницу звучит лаундж и выступает группа "Мобидик". Поэтому, если Вас бы спросили, "Не подскажешь заведение, где в пятницу можно отдохнуть, и желательно там звучит лаундж, да и вообще мне мобидики нравятся" то вы бы ответили "Барсучья нора" :)

Как лучше сделать короткие Текст ссылки с морды Новый продукт: ссылки навсегда

E

283

easywind

23 января 2013, 08:09

#17

YaanGle:
У документа условно можно выделить разные зоны. Так вот, гугл может знать о существовании данного урл, но не индексировать содержимое по данному адресу. Т.е. по тексту страницы вы его не найдете (при условии отсутствии данного текста в анкор-листе). По крайней мере, мне это видится так

как вариант страница добавлена в сайтмап :)

155

YaanGle

23 января 2013, 08:17

#18

easywind:
как вариант страница добавлена в сайтмап :)

Сайтмап, ссылки на самом сайте, сторонних ресурсах и т.д. Я хотел сказать, что запрет на индексирование содержимого не означает запрет на знание о существовании самого адреса :)

E

283

easywind

23 января 2013, 08:28

#19

YaanGle:
Сайтмап, ссылки на самом сайте, сторонних ресурсах и т.д. Я хотел сказать, что запрет на индексирование содержимого не означает запрет на знание о существовании самого адреса

Спасибо конечно за разъяснение я не плохо разбираюсь в справках гугла как "ВУ" на форуме гугла :)

УС

65

Утренний стояк

30 января 2013, 08:13

#20

easywind:
trirepetae, плохо ищите. Файл роботс не управляет индексированием, а управляет сканированием. Тоесть установив запрет на сканирование в роботс Вы просто даете команду боту не сканировать и если страница ранее была проиндексирована то она так и будет висеть в инлексе.
Установите в коде
<meta name="robots" content="noindex"> и уберите запрет на сканирование в роботс чтобы бот получил команду прочитать страницу. После прочтения он ее выкинет из индекса.

подтверждаю правоту easywind

страницы были закрыты <meta name="robots" content="noindex"> и в роботс но из индекса не выпадали. убрал блокировку из роботс - через 2 недели выпали. спасибо! (В ГУГЛЕ)

бамболео бамболео

Open AI тестирует память для ChatGPT

Что делать, если ваша email-рассылка попала в спам

Google игнорирует robots.txt