Попробуйте закрыть страницу в индексе Гугля. Индексируется не доступный для робота материал, а просто общедоступный - Google

Задолбался удалять из индекса гугла закрытые в robots страницы

terrell · 2011-08-02T15:35:29.0000000Z

Смысл в том, что гугл их вносит в индекс, я их сношу через инструменты для вебмастеров , но эта фигня действует всего 90 дней, в итоге срок проходит и они опять в индекс попадают. Роботсом они закрыты и тег закрывающий индексацию стоит. Есть ли способ удалить, чтобы они не на 90 дней, а совсем удалились. С яшей подобной проблемы нет, все ОК, а вот гуля аже задолбал в этом плане...

781

богоносец

5 августа 2011, 15:32

#31

semenov:
А для проиндексированых robots.txt он еще и тайтлы придумывает

http://www.google.com/search?q=inurl:robots.txt

http://www.google.com/search?q=inurl:sitemap.xml

По какому принципу эти ИО тайтлов?

445

Таггу x_x

5 августа 2011, 15:36

#32

FOX555:
сайт отдает 404 но гуглу пофиг он все это добро сует в индекс

Каким же это образом, что в индекс-то попадает?

☠️☠️☠️

781

богоносец

6 августа 2011, 09:38

#33

Как-то попадает.

Делаем выдуманный запрос site:404.yandex.ru


http://404.yandex.ru/1



GET /1 HTTP/1.1

Host: 404.yandex.ru

User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3

Accept-Encoding: gzip, deflate

Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7

Keep-Alive: 115

Connection: keep-alive

DNT: 1



HTTP/1.1 404 Not Found

Date: Sat, 06 Aug 2011 09:01:11 GMT

Server: Apache/1.3.41 (Unix) mod_perl/1.30 PHP/4.4.9

Connection: close

Transfer-Encoding: chunked

Content-Type: text/html; charset=windows-1251

Но почему-то Народовой страницы 404 в индексе Гугля нету!

AC

62

ax_cash

6 августа 2011, 16:10

#34

У меня точно такой же ахтунг случился.

Сайту пол года, нормально индексировался, все лишнее было закрыто в robots.txt.

А сегодня я обнаружил, что страниц в индексе стало в 2 раза больше благодаря URL-ам вида http://site.ru/articles/blablabla/feed.

В гугл вебмастере показывается что ссылки запрещены к индексации.

Мистика короче.

Иногда меня преследуют умные мысли, но я быстрее.

Яндекс отказывается индексировать сайт Индексация WP - мистика! Все вопросы по robots.txt

G

62

Galr

6 августа 2011, 17:09

#35

О, у меня такая же фигня, на сайте про автомобили. В robots.txt все нормально, проверил в "вебмастере" и яндекса, и гугла. Попробую еще тегами в шаблоне закрыть.

174

StaroverovMax

8 августа 2011, 05:06

#36

semenov:
Google кладет на robots.txt, 404, метатеги, редиректы и отсутствие ссылок, упорно отображая страницы в списке проиндексированных, а удаление через вебмастер всего лишь скрывает страницы на 90 дней, продолжая хранить их в индексе

А для проиндексированых robots.txt он еще и тайтлы придумывает: http://www.google.ru/search?q=inurl:%22com/robots.txt%22

В общем придерживаюсь того же мнения.

Тем более, цикл в 90 дней - это очень похоже.

Тайтлы порадовали!!!

Сила есть - ума еще больше надо.. Фитнес, бодибилдинг (http://sportmashina.com), а форум - закачаешься! (http://forum.sportmashina.com/index.php)

VF

113

VF

8 августа 2011, 08:40

#37

Ladycharm:
terrell, вот свежие рекоммендации самого Google.

Цитируйте полностью

Важно помнить, что указание определённой страницы в файле robots.txt предотвратит её сканирование нашей системой, но при наличии на неё ссылок с других страниц (на вашем или других сайтах) мы всё равно можем проиндексировать её. В результате адрес страницы (URL), а также, возможно, и другая общедоступная информация, как например, анкорный текст ссылок ведущих на неё, могут появится в результатах поиска Google.

То есть в индексе будет храниться информация о странице, доступная на внешнем сайте. А не содержимое страницы, закрытое robots.txt. По крайней мере, так утверждают в Гугл. Может практика и расходится с этими утверждениями, но в Гугл не заявляют "нам пофиг на robots".

Странный способ поднять ТИЦ Страница проиндексирована гуглом, но пинг новых записей в

174

StaroverovMax

8 августа 2011, 09:07

#38

VF:
Цитируйте полностью

То есть в индексе будет храниться информация о странице, доступная на внешнем сайте. А не содержимое страницы, закрытое robots.txt. По крайней мере, так утверждают в Гугл. Может практика и расходится с этими утверждениями, но в Гугл не заявляют "нам пофиг на robots".

Верно, кэш страницы не отдаётся..

В результатах поиска - только ссылка на закрытую в роботс страницу.

Закрывать в роботс "частично" содержимое страницы? Как?

Или пусть сам определяет, что "частично" индексить, а что целиком?

"Можем" и "возможно" - как-то не утвердительно..

Яндекс индексирует страницы закрытые Как в robots.txt закрыть Полюбившийся рубрика весёлое рядом.

VF

113

VF

8 августа 2011, 10:38

#39

StaroverovMax:
Закрывать в роботс "частично" содержимое страницы? Как?
Или пусть сам определяет, что "частично" индексить, а что целиком?

robots работает на уровне URL, то есть целых страниц. Ни о каких правилах частичной индексации с помощью robots.txt речи идти не может.

Также как нельзя с помощью robots.txt запретить собирать данные о странице, опубликованные на других сайтах (URL и анкор, как в рекомендация Гугл).

Запрет индексации страниц с Robots.TXT 301 редирект и запрет

174

StaroverovMax

8 августа 2011, 11:20

#40

VF:
Ни о каких правилах частичной индексации с помощью robots.txt речи идти не может.

Вот только правила пишутся не утвердительно и двузначно.

..."Можем" и "возможно, и другая общедоступная информация"...

Вместо сторонних ссылок гугл может использовать бар и т.п.

Индексируется не доступный для робота материал, а просто общедоступный.

Спасибо, разобрался уже.

Кто-то подавал в суд Что для Гугла doorway? Google не учитывает nofollow

Что такое Power BI и зачем это нужно бизнесу

Open AI тестирует память для ChatGPT

Задолбался удалять из индекса гугла закрытые в robots страницы