Google индексерует то, что запрещено в robots.txt

48

Continental

5 декабря 2005, 19:23

989

У.... Сделал новый сайт. Сразу же поставил robots.txt

User-agent: *

Disallow: /

И что Вы думаете, ради интереса, сегодня, решил проверить, кем он проиндексирован, и к моему удивлению, нашел его в Google & Yahoo!

Google: http://www.google.com/search?&q=allinurl:www.konstantinivanov.info/+site:www.konstantinivanov.info

Google search: http://www.google.com/search?hl=ru&q=konstantinivanov&lr=

Yahoo: http://search.yahoo.com/search?ei=UTF-8&p=site%3Awww.konstantinivanov.info

Как бы информация вроде не заиндексировалась, но ведь ссылка-то есть. По названию домена он находится. Как это понимать?

Continental.

167

Tube

5 декабря 2005, 19:33

#1

Disallow: / - это значит не индексировать все, что лежит глубже www.name.zone/

www.name.zone как Вы понимаете лежит выше...

48

Continental

5 декабря 2005, 19:47

#2

Выходит Яндекс и буржуйский поисковики по разному толкуют "/". Я-то думал, прочитав Яндекс, что запрещается все, включая корень, цитриую:

User-Agent: *

Disallow: /

который запрещает индексирование всего сайта.

Источник: http://www.yandex.ru/info/webmaster2.html#HostDirective

49

Rayan

5 декабря 2005, 19:55

#3

Tube:
Disallow: / - это значит не индексировать все, что лежит глубже www.name.zone/

www.name.zone как Вы понимаете лежит выше...

Это где написано? Полнейший бред.

Тут все прввильно:

User-agent: *

Disallow: /

Проблема в другом

"симфонияки" - symfony forum (http://forum.symfony.org.ua/)

48

Continental

5 декабря 2005, 20:00

#4

Точно вводят в заблуждения. Вот и у Google накопал:

User-agent: Googlebot

Disallow: /

http://www.google.com/webmasters/remove.html

Как запретить индесацию ВСЕГО сайта или части страниц в Гогль-Могле?

Я, конечно, потом пущу его в Гугьль, но не весь. А если он мне ВсЕ проиндексируют, то это просто караул! Почитал форуМ, этот поисковик часто игнорирует disallow. Что делать-то?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

291

ДЖАЗЗ!

5 декабря 2005, 20:52

#5

кэша то нет. это просто адрес

S

173

Saney

6 декабря 2005, 08:39

#6

Красивые сниппеты Google ( https://saney.com/tools/google-snippets-generator.html )

345

pelvis

6 декабря 2005, 08:42

#7

самую первую оферту заставляет подписывать Ms . при выходе в сеть они предупреждают "сведения...... будут доступны...." и как говорится "кто не спрятался, я не виноват" :)

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)

EF

21

exFinancier

6 декабря 2005, 20:32

#8

стандарт один, и работать по нему должны все боты

первоисточник тут: http://www.robotstxt.org/wc/exclusion.html#robotstxt

145

Spectre

6 декабря 2005, 22:19

#9

Ну как вариант: просто не выдавать контент для User-Agent'ов.

Клоакинг простой, но надежный.

То что вы еще в топе, не ваша заслуга, а наша недоработка. (С) Платон Щукин.

1183

wolf

7 декабря 2005, 08:07

#10

Нарушения стандарта никакого нет. Стандарт запрещает обращение робота к определенным документам, а не публикацию ссылок на них в результатах поиска. Надо различать эти вещи. Обращения к файлам не было - кэша ведь нет, а появление ссылки обусловлено тем, что URL найден по ссылкам с других документов, обращение к которым разрешено. Всё корректно.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Курс биткоина превысил $50 тысяч