Индексация Гуглом урлов, запрещенных в robots.txt

21

pavlov11188

27 июля 2011, 15:51

882

Здравствуйте.

Помогите кто-нибудь понять, как при прописанной в robots.txt директиве Disallow: *utm_* в индекс Google могли попасть страницы, содержащие параметр utm_ ?

Пример:

http://www.google.ru/search?sourceid=chrome&ie=UTF-8&q=G37utm_source#q=G37utm_source&hl=ru&newwindow=1&prmd=ivns&ei=BSswTtXUBoGdOovv8X4&start=0&sa=N&filter=0&fp=1&biw=1366&bih=643&bav=on.2,or.r_gc.r_pw.&cad=b

Директива совершенно точно была прописана в роботс до того, как указанные выше URL появились в природе.

К тому же в инструментах для вебмастеров при проверке через "Доступ для сканера" урлы определяются как заблокированные через robots.txt. Тем не менее они все равно есть в индексе. Каковы возможные причины?

Заранее спасибо всем, кто ответит.

118

mynewgaleon

27 июля 2011, 17:13

#1

Друг, это омитеды или так званные сопли, или дополнительный индекс. Как хочешь так и называй. В основном нет, а значит все нормально.

Google (https://www.blogger.com/profile/05585623449967274909)

445

Таггу x_x

27 июля 2011, 17:17

#2

pavlov11188, Матт Кац про роботс

☠️☠️☠️

661

Sower

27 июля 2011, 17:57

#3

mynewgaleon:
Друг, это омитеды или так званные сопли, или дополнительный индекс. Как хочешь так и называй. В основном нет, а значит все нормально.

Всё, что не можем объяснить, валим на какие-то сопли. :)

__________________Бесплатная накрутка ПФ: посещаемость, просмотры, переходы с поисковиков по ключевикам, итд.
__________________Все посетители живые, не боты. (http://livesurf.ru/promo/80271)

118

mynewgaleon

27 июля 2011, 18:22

#4

Я согласен что сопли это мифичекая фигня (ну или по крайней мере очень сомнительная), потому и дал еще 2 названия этого чуда. Факт остается фактом, что эти результаты называются опущенными и появляются после того как кликнуть "Если вы хотите, можно повторить поиск, включив опущенные результаты".

Часто посещаемые сайты в Google тестирует новые функции Представитель Google рассказал пользователям,

661

Sower

27 июля 2011, 19:06

#5

mynewgaleon:
Я согласен что сопли это мифичекая фигня.

Так же как и дополнительный индекс, в том виде, в котором о нём привыкли говорить.

mynewgaleon:
Факт остается фактом, что эти результаты называются опущенными и появляются после того как кликнуть "Если вы хотите, можно повторить поиск, включив опущенные результаты".

Ни как не могу с вами согласится. Опущенные результаты не имеют прямого отношения к тому, что привыкли называть дополнительным индексом. Если немного изучите выдачу, то убедитесь в этом сами.

Впрочем, можете продолжать придерживаться своей версии. Убеждать кого-то мне нет необходимости.

CodeIgniter is a powerful Для чего нужны видимые А почему в пятницу

P1

21

pavlov11188

28 июля 2011, 06:51

#6

Tarry:
pavlov11188, Матт Кац про роботс

Спасибо большое.

pavlov11188 добавил 28-07-2011 в 10:54

mynewgaleon:
Друг, это омитеды или так званные сопли, или дополнительный индекс. Как хочешь так и называй. В основном нет, а значит все нормально.

Не совсем понятно: вы имеете в виду то, что в соплях могут появиться URL, которые запрещены в robots.txt?

777

богоносец

28 июля 2011, 12:00

#7

в соплях могут появиться URL, которые запрещены в robots.txt?

Появиться в доп результатах и долго там быть.

http://www.google.com/support/webmasters/bin/answer.py?answer=93708 Следует отметить, что даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс. Например, на ваш контент могут ссылаться другие сайты. В результате URL страницы и, возможно, другие общедоступные сведения, такие как якорный текст в ссылках на сайт или заголовок из Open Directory Project, могут появиться в результатах поиска Google. Хотя все роботы уважаемых поисковых систем выполняют команды файла robots.txt, некоторые могут интерпретировать их по-своему. Однако файл robots.txt не является обязательным к исполнению, и некоторые спамеры и другие злоумышленники могут его игнорировать. Поэтому мы рекомендуем защищать конфиденциальную информацию с помощью пароля (как указано выше).

Можно использовать инструмент Создать файл robots.txt в Инструментах для веб-мастеров, чтобы создать файл robots.txt, и проверить его с помощью инструмента Проверка robots.txt.

Используйте метатег noindex, чтобы содержание не появлялось в наших результатах поиска. При наличии метатега noindex на странице Google исключает всю страницу из наших результатов поиска, даже если на нее ссылаются другие страницы. Если содержание уже присутствует в нашем индексе, оно будет удалено при следующем сканировании. (Чтобы ускорить удаление, используйте инструмент Удалить URL-адреса в Инструментах Google для веб-мастеров.) Другие поисковые системы могут интерпретировать эту команду по-разному. В результате ссылка на эту страницу может появляться в их результатах поиска.

Чтобы увидеть тег noindex, мы должны просканировать вашу страницу, поэтому существует небольшая вероятность, что робот Googlebot не увидит и не отреагирует на метатег noindex (например, если мы не сканировали страницу после добавления этого тега).

А есть например документы.PDF — в них мета-роботс-ноуиндекс не добавишь. Просто ПС нашла внутреннюю сцылку на такой документ.

49

MagOfSeo

28 июля 2011, 12:46

#8

Не парся и просто поудаляй через ВебМастерс - мороки меньше 🍿

P1

21

pavlov11188

28 июля 2011, 13:10

#9

богоносец:
Появиться в доп результатах и долго там быть.

Спасибо за ссылку, теперь все ясно.

Google: E-E-A-T не является фактором ранжирования

Маркетинг для шоколадной фабрики. На 34% выше средний чек