роботс и пс

1 234 5
kimberlit
На сайте с 13.03.2007
Offline
370
#21
Liberus:
Т.е. полагаю, что это не касается вопросика в конце урла. Посему они могут посчитать такой урл не запрещенным.

Ты заблуждаешься. Прочитай зачем вообще нужен знак бакса.

/*?

/почему-я-не-хочу-думать?

* == почему-я-не-хочу-думать

Где противоречие?

ЗЫ Это как бы азы. Ладно бы пбасалаев такие вопросы задавал бы.

[Удален]
#22
kimberlit:
Прочитай зачем вообще нужен знак бакса.

Ну, насколько помню для отмены правил, назначенных звездочкой. Так-то оно так, только если выбирать между версией "гугл игнорит user-agent *" и "гугл по-своему трактует вопросик на конце", то я пока склоняюсь ко второму варианту. :)

kimberlit
На сайте с 13.03.2007
Offline
370
#23
Liberus:
Ну, насколько помню для отмены правил, назначенных звездочкой

А так Allow: /bla/$ не будет работать что ли? Где ты, звёздочка, ау-у-у! :D

Liberus:
гугл по-своему трактует вопросик на конце

Он никак не трактует вопросик на конце по-своему. Так же трактует как и все остальные.

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#24

Сто раз уже разжевывалось))

Гугл не индексирует страницы, запрещенные в роботсе, но может включать урлы запрещенных страниц в индекс (вероятно чтобы по тексту в урле искать).

Где-то гуглойды объясняли почему они так делают(лениво искать) и как закрывать такие урлы. (Через meta name="robots" content="noindex" вроде)

Вообще, бред.

Индексирует закрытые урлы, типа sexpornoshop.ru\?заказ_совершен&tel-клиента=999-99-99

---------- Добавлено 28.04.2012 в 17:34 ----------

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

...

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag. По мере сканирования страниц, робот Googlebot обнаружит метатег noindex и не станет отображать страницу в индексе. HTTP-заголовок x-robots-tag рекомендуется использовать, чтобы исключить из индекса файлы, формат которых отличается от HTML (например, изображения или другие типы документов).

P.S. Иногда гугл правда, полностью индексирует страницы, запрещенные в robots. :)

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.
[Удален]
#25
Liberus:
О, кстати, в яндексе ушли уже в 404, а еще 5 минут назад ссылки открывались.

часть открывается :)

придётся на страницы прописывать

<?php
header("HTTP/1.0 404 Not Found");
?>
vandamme
На сайте с 30.11.2008
Offline
675
#26

как по мне игнорит и секцию googlebot

единственно, что в моем случае он сначала проиндексировал станицы, а потом я прописал правило

богоносец
На сайте с 30.01.2007
Offline
769
#27
Чтобы увидеть тег noindex, мы должны просканировать вашу страницу, поэтому существует небольшая вероятность, что робот Googlebot не увидит и не отреагирует на метатег noindex (например, если мы не сканировали страницу после добавления этого тега).

http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=93708

Сохраненная копия отсутствует.

Был же когда-то базар: В выдаче != в индексе

По ссылке всякое бывает

/ru/forum/comment/7388150

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#28

богоносец, ага. Тоесть, получается, если закрыть страницу в robots, то гугл не сможет добраться до content="noindex" и убрать урл из результатов поиска.

Тогда решение - не закрывать такие урлы в robots, а закрывать их только через метатэги.

R7
На сайте с 30.04.2008
Offline
264
#30

у меня тоже игнорит User-Agent: *

уже 112 000 страниц, каждый день добавляет тыщь 5

а всего около 500 страниц,

щас прописал ему отдельного User-agent: Googlebot

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий