Google выдаёт закрытую информацию.

12
Nassa
На сайте с 14.08.2012
Offline
116
1498

Здравствуйте, помните был скандал с Яндекс и смс от мегафона, или когда у интернет-магазинов написанных на webasyst, в выдачу попали совершённые заказы? Тогда Яша отмазывался тем, что нужно добавлять было эти страницы для запрета в robots.txt

Так вот у гугла тоже самое, только ему всё равно что запрещено в роботсе, всё в индекс, и всё открыто для всех.

Пример: сайт tumblr.com (взял его специально, так как там очень много и просто красивых фото и порно)

http://www.tumblr.com/robots.txt

Вот что у него в роботс.

User-agent: *
Disallow: /radar
Disallow: /audio_file
Disallow: /dashboard
Disallow: /x
Disallow: /svc/account
Disallow: /dashboard/notes
Disallow: /customize
Disallow: /impixu
Disallow: /liked

Смотрим, закрыто liked

Идём в Гугл. Запрос

https://www.google.ru/#newwindow=1&q=site:tumblr.com%2Fliked

Нажимаем показать скрытые результаты и ...

Вуаля, вся закрытая инфа как на ладони.

Я что-то недопонял? Просвятите, пожалуйста. Я знал что роботы ходят по закрытым директориям, но я был уверен что в индекс они не попадают.

И как теперь закрывать то что не нужно, админку, редактор заказов, да много чего, без чего не обойтись но что не должно никоим образом быть в индексе?

bbon
На сайте с 01.04.2006
Offline
168
#1
Nassa:
Я что-то недопонял? Просвятите, пожалуйста. Я знал что роботы ходят по закрытым директориям, но я был уверен что в индекс они не попадают.

Вы действительно недопоняли. Приводите robots.txt для домена второго уровня, а в выдаче по вашей ссылке домены третьего.. там свои роботсы.

L
На сайте с 07.12.2007
Offline
351
#2

1. Robots.txt для Google - только рекомендация не индексировать.

2. Индексировать страницу и показывать её в выдаче - 2 разные вещи, иногда не связанные между собой.

Если на страницу есть внешние ссылки - Гугл всё-равно будет показывать её в выдаче, и не важно, закрыта ли она в robots.

Поскольку эта страница будет ранжироваться по "анкорному ранжированию" алгоритмом Google (хотя бы по НПС).

Nassa
На сайте с 14.08.2012
Offline
116
#3

Ladycharm Подскажите, есть вариант, кроме физического удаления, или клоакинга (не показывать ботам google страницу или показывать но другой контент) убрать то что ненужно из выдачи?

YaanGle
На сайте с 06.09.2011
Offline
155
#4
Nassa:
Ladycharm Подскажите, есть вариант, кроме физического удаления, или клоакинга (не показывать ботам google страницу или показывать но другой контент) убрать то что ненужно из выдачи?

В роботсе можно запретить сканировать сайт - если он уже в индексе, то может там и остаться. Вы можете принудительно удалить нужные документа из индекса через ПВМ (они должны быть закрыты от индексации или выдавать 404, насколько помню). Либо, повесьте на них 404 ответ сервера. Либо можно показывать контент только авторизованным пользователям. :)

Nassa
На сайте с 14.08.2012
Offline
116
#5

YaanGle

Спасибо огромное. Почему сам не додумался((

atranca
На сайте с 27.02.2011
Offline
126
#6
Nassa:
Ladycharm Подскажите, есть вариант, кроме физического удаления, или клоакинга (не показывать ботам google страницу или показывать но другой контент) убрать то что ненужно из выдачи?

Вы и правда недопонимаете.....

смотрим какие дирректории здесь закрыты http://inmeyko.tumblr.com/robots.txt

Sitemap: http://inmeyko.tumblr.com/sitemap1.xml

User-agent: *

Disallow: /private

Disallow: /random

Disallow: /day

Crawl-delay: 1

а не на основном домене, Для ПС это ДВА РАЗНЫХ САЙТА

123
Nassa
На сайте с 14.08.2012
Offline
116
#7

А вот другой вариант тогда, без доменов 3-го уровня

Смотрим, закрыто /bitrix

Делаем запрос site:searchengines.ru/bitrix

Вот пожалуйста

Админка

Стили

Блин, мне за этот пример по ушам не надают?

KrutE
На сайте с 29.04.2006
Offline
239
#8

гугл всегда ходил где хотел, пофиг ему на роботс

Nassa
На сайте с 14.08.2012
Offline
116
#9

Я, просто не привожу свой сайт в пример. А там всё гораздо хуже. Сайт с UGC. Весь хлам я собирал в 1 категорию, из разряда, человек зашёл зарегистрировался, что-то выложил, а потом забил. Если тупо всё удалять- мало ли, человек зайдёт снова, и начнёт добавлять, он будет расстроен, если я удалю его контент. Так вот, таких пользователей больше гораздо, чем тех, кто делает всё аккуратно и регулярно. И эта категория с хламом, за годы уже очень сильно разрослась. И сейчас на неё пошли заходы из google. И заходов больше чем на нормальные категории. Соответственно увеличились отказы.

---------- Добавлено 02.04.2014 в 20:33 ----------

гугл всегда ходил где хотел, пофиг ему на роботс

Так я знаю что он ходил. И по логам можно посмотреть, но чтобы он выкладывал в основной индекс, и на него шли люди, такое у меня впервые.

P
На сайте с 23.01.2008
Offline
74
#10
Nassa:
... Весь хлам я собирал в 1 категорию ... Если тупо всё удалять- ... человек ... будет расстроен ... И эта категория с хламом, за годы уже очень сильно разрослась. И сейчас на неё пошли заходы из google. И заходов больше чем на нормальные категории. Соответственно увеличились отказы.

Запрещайте индексацию нужных страниц мета-тегом. Это избавит от попадания оных в индекс, даже в виде "голых" url.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий