Google индексерует то, что запрещено в robots.txt

12
Continental
На сайте с 23.07.2005
Offline
48
972

У.... Сделал новый сайт. Сразу же поставил robots.txt

User-agent: *

Disallow: /

И что Вы думаете, ради интереса, сегодня, решил проверить, кем он проиндексирован, и к моему удивлению, нашел его в Google & Yahoo!

Google: http://www.google.com/search?&q=allinurl:www.konstantinivanov.info/+site:www.konstantinivanov.info

Google search: http://www.google.com/search?hl=ru&q=konstantinivanov&lr=

Yahoo: http://search.yahoo.com/search?ei=UTF-8&p=site%3Awww.konstantinivanov.info

Как бы информация вроде не заиндексировалась, но ведь ссылка-то есть. По названию домена он находится. Как это понимать?

Continental.
Tube
На сайте с 20.08.2005
Offline
167
#1

Disallow: / - это значит не индексировать все, что лежит глубже www.name.zone/

www.name.zone как Вы понимаете лежит выше...

Continental
На сайте с 23.07.2005
Offline
48
#2

Выходит Яндекс и буржуйский поисковики по разному толкуют "/". Я-то думал, прочитав Яндекс, что запрещается все, включая корень, цитриую:

User-Agent: *

Disallow: /

который запрещает индексирование всего сайта.

Источник: http://www.yandex.ru/info/webmaster2.html#HostDirective

Rayan
На сайте с 30.09.2005
Offline
49
#3
Tube:
Disallow: / - это значит не индексировать все, что лежит глубже www.name.zone/

www.name.zone как Вы понимаете лежит выше...

Это где написано? Полнейший бред.

Тут все прввильно:

User-agent: *

Disallow: /

Проблема в другом

"симфонияки" - symfony forum (http://forum.symfony.org.ua/)
Continental
На сайте с 23.07.2005
Offline
48
#4

Точно вводят в заблуждения. Вот и у Google накопал:

User-agent: Googlebot

Disallow: /

http://www.google.com/webmasters/remove.html

Как запретить индесацию ВСЕГО сайта или части страниц в Гогль-Могле?

Я, конечно, потом пущу его в Гугьль, но не весь. А если он мне ВсЕ проиндексируют, то это просто караул! Почитал форуМ, этот поисковик часто игнорирует disallow. Что делать-то?

ДЖАЗЗ!
На сайте с 10.02.2004
Offline
291
#5

кэша то нет. это просто адрес

S
На сайте с 25.12.2003
Offline
173
#6

<meta Name=robots Content="noindex, Nofollow, Noarchive">

Красивые сниппеты Google ( https://saney.com/tools/google-snippets-generator.html )
pelvis
На сайте с 01.09.2005
Offline
345
#7

самую первую оферту заставляет подписывать Ms . при выходе в сеть они предупреждают "сведения...... будут доступны...." и как говорится "кто не спрятался, я не виноват" :)

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
EF
На сайте с 16.06.2005
Offline
21
#8

стандарт один, и работать по нему должны все боты

первоисточник тут: http://www.robotstxt.org/wc/exclusion.html#robotstxt

Spectre
На сайте с 26.09.2005
Offline
145
#9

Ну как вариант: просто не выдавать контент для User-Agent'ов.

Клоакинг простой, но надежный.

То что вы еще в топе, не ваша заслуга, а наша недоработка. (С) Платон Щукин.
wolf
На сайте с 13.03.2001
Offline
1183
#10

Нарушения стандарта никакого нет. Стандарт запрещает обращение робота к определенным документам, а не публикацию ссылок на них в результатах поиска. Надо различать эти вещи. Обращения к файлам не было - кэша ведь нет, а появление ссылки обусловлено тем, что URL найден по ссылкам с других документов, обращение к которым разрешено. Всё корректно.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий