Задолбался удалять из индекса гугла закрытые в robots страницы

1 234
богоносец
На сайте с 30.01.2007
Offline
769
#31
semenov:
А для проиндексированых robots.txt он еще и тайтлы придумывает

http://www.google.com/search?q=inurl:robots.txt

http://www.google.com/search?q=inurl:sitemap.xml

По какому принципу эти ИО тайтлов?

Таггу x_x
На сайте с 31.10.2005
Offline
445
#32
FOX555:
сайт отдает 404 но гуглу пофиг он все это добро сует в индекс

Каким же это образом, что в индекс-то попадает?

☠️☠️☠️
богоносец
На сайте с 30.01.2007
Offline
769
#33

Как-то попадает.

Делаем выдуманный запрос site:404.yandex.ru


http://404.yandex.ru/1

GET /1 HTTP/1.1
Host: 404.yandex.ru
User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive
DNT: 1

HTTP/1.1 404 Not Found
Date: Sat, 06 Aug 2011 09:01:11 GMT
Server: Apache/1.3.41 (Unix) mod_perl/1.30 PHP/4.4.9
Connection: close
Transfer-Encoding: chunked
Content-Type: text/html; charset=windows-1251

Но почему-то Народовой страницы 404 в индексе Гугля нету!

AC
На сайте с 30.04.2010
Offline
62
#34

У меня точно такой же ахтунг случился.

Сайту пол года, нормально индексировался, все лишнее было закрыто в robots.txt.

А сегодня я обнаружил, что страниц в индексе стало в 2 раза больше благодаря URL-ам вида http://site.ru/articles/blablabla/feed.

В гугл вебмастере показывается что ссылки запрещены к индексации.

Мистика короче.

Иногда меня преследуют умные мысли, но я быстрее.
G
На сайте с 18.07.2010
Offline
62
#35

О, у меня такая же фигня, на сайте про автомобили. В robots.txt все нормально, проверил в "вебмастере" и яндекса, и гугла. Попробую еще тегами в шаблоне закрыть.

StaroverovMax
На сайте с 31.05.2006
Offline
174
#36
semenov:
Google кладет на robots.txt, 404, метатеги, редиректы и отсутствие ссылок, упорно отображая страницы в списке проиндексированных, а удаление через вебмастер всего лишь скрывает страницы на 90 дней, продолжая хранить их в индексе

А для проиндексированых robots.txt он еще и тайтлы придумывает: http://www.google.ru/search?q=inurl:%22com/robots.txt%22

В общем придерживаюсь того же мнения.

Тем более, цикл в 90 дней - это очень похоже.

Тайтлы порадовали!!!

Сила есть - ума еще больше надо.. Фитнес, бодибилдинг (http://sportmashina.com), а форум - закачаешься! (http://forum.sportmashina.com/index.php)
VF
На сайте с 26.01.2002
Offline
113
VF
#37
Ladycharm:
terrell, вот свежие рекоммендации самого Google.

Цитируйте полностью

Важно помнить, что указание определённой страницы в файле robots.txt предотвратит её сканирование нашей системой, но при наличии на неё ссылок с других страниц (на вашем или других сайтах) мы всё равно можем проиндексировать её. В результате адрес страницы (URL), а также, возможно, и другая общедоступная информация, как например, анкорный текст ссылок ведущих на неё, могут появится в результатах поиска Google.

То есть в индексе будет храниться информация о странице, доступная на внешнем сайте. А не содержимое страницы, закрытое robots.txt. По крайней мере, так утверждают в Гугл. Может практика и расходится с этими утверждениями, но в Гугл не заявляют "нам пофиг на robots".

StaroverovMax
На сайте с 31.05.2006
Offline
174
#38
VF:
Цитируйте полностью

То есть в индексе будет храниться информация о странице, доступная на внешнем сайте. А не содержимое страницы, закрытое robots.txt. По крайней мере, так утверждают в Гугл. Может практика и расходится с этими утверждениями, но в Гугл не заявляют "нам пофиг на robots".

Верно, кэш страницы не отдаётся..

В результатах поиска - только ссылка на закрытую в роботс страницу.

Закрывать в роботс "частично" содержимое страницы? Как?

Или пусть сам определяет, что "частично" индексить, а что целиком?

"Можем" и "возможно" - как-то не утвердительно..

VF
На сайте с 26.01.2002
Offline
113
VF
#39
StaroverovMax:
Закрывать в роботс "частично" содержимое страницы? Как?
Или пусть сам определяет, что "частично" индексить, а что целиком?

robots работает на уровне URL, то есть целых страниц. Ни о каких правилах частичной индексации с помощью robots.txt речи идти не может.

Также как нельзя с помощью robots.txt запретить собирать данные о странице, опубликованные на других сайтах (URL и анкор, как в рекомендация Гугл).

StaroverovMax
На сайте с 31.05.2006
Offline
174
#40
VF:
Ни о каких правилах частичной индексации с помощью robots.txt речи идти не может.

Вот только правила пишутся не утвердительно и двузначно.

..."Можем" и "возможно, и другая общедоступная информация"...

Вместо сторонних ссылок гугл может использовать бар и т.п.

Индексируется не доступный для робота материал, а просто общедоступный.

Спасибо, разобрался уже.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий