Индексация Гуглом урлов, запрещенных в robots.txt

P1
На сайте с 04.01.2010
Offline
21
877

Здравствуйте.

Помогите кто-нибудь понять, как при прописанной в robots.txt директиве Disallow: *utm_* в индекс Google могли попасть страницы, содержащие параметр utm_ ?

Пример:

http://www.google.ru/search?sourceid=chrome&ie=UTF-8&q=G37utm_source#q=G37utm_source&hl=ru&newwindow=1&prmd=ivns&ei=BSswTtXUBoGdOovv8X4&start=0&sa=N&filter=0&fp=1&biw=1366&bih=643&bav=on.2,or.r_gc.r_pw.&cad=b

Директива совершенно точно была прописана в роботс до того, как указанные выше URL появились в природе.

К тому же в инструментах для вебмастеров при проверке через "Доступ для сканера" урлы определяются как заблокированные через robots.txt. Тем не менее они все равно есть в индексе. Каковы возможные причины?

Заранее спасибо всем, кто ответит.

mynewgaleon
На сайте с 21.02.2009
Offline
118
#1

Друг, это омитеды или так званные сопли, или дополнительный индекс. Как хочешь так и называй. В основном нет, а значит все нормально.

Таггу x_x
На сайте с 31.10.2005
Offline
445
#2
☠️☠️☠️
Sower
На сайте с 30.12.2009
Offline
659
#3
mynewgaleon:
Друг, это омитеды или так званные сопли, или дополнительный индекс. Как хочешь так и называй. В основном нет, а значит все нормально.

Всё, что не можем объяснить, валим на какие-то сопли. :)

__________________Бесплатная накрутка ПФ: посещаемость, просмотры, переходы с поисковиков по ключевикам, итд.
__________________Все посетители живые, не боты. (http://livesurf.ru/promo/80271)
mynewgaleon
На сайте с 21.02.2009
Offline
118
#4

Я согласен что сопли это мифичекая фигня (ну или по крайней мере очень сомнительная), потому и дал еще 2 названия этого чуда. Факт остается фактом, что эти результаты называются опущенными и появляются после того как кликнуть "Если вы хотите, можно повторить поиск, включив опущенные результаты".

Sower
На сайте с 30.12.2009
Offline
659
#5
mynewgaleon:
Я согласен что сопли это мифичекая фигня.

Так же как и дополнительный индекс, в том виде, в котором о нём привыкли говорить.

mynewgaleon:
Факт остается фактом, что эти результаты называются опущенными и появляются после того как кликнуть "Если вы хотите, можно повторить поиск, включив опущенные результаты".

Ни как не могу с вами согласится. Опущенные результаты не имеют прямого отношения к тому, что привыкли называть дополнительным индексом. Если немного изучите выдачу, то убедитесь в этом сами.

Впрочем, можете продолжать придерживаться своей версии. Убеждать кого-то мне нет необходимости.

P1
На сайте с 04.01.2010
Offline
21
#6

Спасибо большое.

pavlov11188 добавил 28-07-2011 в 10:54

mynewgaleon:
Друг, это омитеды или так званные сопли, или дополнительный индекс. Как хочешь так и называй. В основном нет, а значит все нормально.

Не совсем понятно: вы имеете в виду то, что в соплях могут появиться URL, которые запрещены в robots.txt?

богоносец
На сайте с 30.01.2007
Offline
774
#7
в соплях могут появиться URL, которые запрещены в robots.txt?

Появиться в доп результатах и долго там быть.

http://www.google.com/support/webmasters/bin/answer.py?answer=93708 Следует отметить, что даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс. Например, на ваш контент могут ссылаться другие сайты. В результате URL страницы и, возможно, другие общедоступные сведения, такие как якорный текст в ссылках на сайт или заголовок из Open Directory Project, могут появиться в результатах поиска Google. Хотя все роботы уважаемых поисковых систем выполняют команды файла robots.txt, некоторые могут интерпретировать их по-своему. Однако файл robots.txt не является обязательным к исполнению, и некоторые спамеры и другие злоумышленники могут его игнорировать. Поэтому мы рекомендуем защищать конфиденциальную информацию с помощью пароля (как указано выше).

Можно использовать инструмент Создать файл robots.txt в Инструментах для веб-мастеров, чтобы создать файл robots.txt, и проверить его с помощью инструмента Проверка robots.txt.

Используйте метатег noindex, чтобы содержание не появлялось в наших результатах поиска. При наличии метатега noindex на странице Google исключает всю страницу из наших результатов поиска, даже если на нее ссылаются другие страницы. Если содержание уже присутствует в нашем индексе, оно будет удалено при следующем сканировании. (Чтобы ускорить удаление, используйте инструмент Удалить URL-адреса в Инструментах Google для веб-мастеров.) Другие поисковые системы могут интерпретировать эту команду по-разному. В результате ссылка на эту страницу может появляться в их результатах поиска.

Чтобы увидеть тег noindex, мы должны просканировать вашу страницу, поэтому существует небольшая вероятность, что робот Googlebot не увидит и не отреагирует на метатег noindex (например, если мы не сканировали страницу после добавления этого тега).

А есть например документы.PDF — в них мета-роботс-ноуиндекс не добавишь. Просто ПС нашла внутреннюю сцылку на такой документ.

MagOfSeo
На сайте с 28.07.2011
Offline
49
#8

Не парся и просто поудаляй через ВебМастерс - мороки меньше 🍿

P1
На сайте с 04.01.2010
Offline
21
#9
богоносец:
Появиться в доп результатах и долго там быть.

Спасибо за ссылку, теперь все ясно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий