Google выдаёт закрытую информацию.

116

Nassa

2 апреля 2014, 12:17

1513

Здравствуйте, помните был скандал с Яндекс и смс от мегафона, или когда у интернет-магазинов написанных на webasyst, в выдачу попали совершённые заказы? Тогда Яша отмазывался тем, что нужно добавлять было эти страницы для запрета в robots.txt

Так вот у гугла тоже самое, только ему всё равно что запрещено в роботсе, всё в индекс, и всё открыто для всех.

Пример: сайт tumblr.com (взял его специально, так как там очень много и просто красивых фото и порно)

http://www.tumblr.com/robots.txt

Вот что у него в роботс.

User-agent: *
Disallow: /radar
Disallow: /audio_file
Disallow: /dashboard
Disallow: /x
Disallow: /svc/account
Disallow: /dashboard/notes
Disallow: /customize
Disallow: /impixu
Disallow: /liked

Смотрим, закрыто liked

Идём в Гугл. Запрос

https://www.google.ru/#newwindow=1&q=site:tumblr.com%2Fliked

Нажимаем показать скрытые результаты и ...

Вуаля, вся закрытая инфа как на ладони.

Я что-то недопонял? Просвятите, пожалуйста. Я знал что роботы ходят по закрытым директориям, но я был уверен что в индекс они не попадают.

И как теперь закрывать то что не нужно, админку, редактор заказов, да много чего, без чего не обойтись но что не должно никоим образом быть в индексе?

1

168

bbon

2 апреля 2014, 14:30

#1

Nassa:
Я что-то недопонял? Просвятите, пожалуйста. Я знал что роботы ходят по закрытым директориям, но я был уверен что в индекс они не попадают.

Вы действительно недопоняли. Приводите robots.txt для домена второго уровня, а в выдаче по вашей ссылке домены третьего.. там свои роботсы.

1

L

351

Ladycharm

2 апреля 2014, 14:48

#2

1. Robots.txt для Google - только рекомендация не индексировать.

2. Индексировать страницу и показывать её в выдаче - 2 разные вещи, иногда не связанные между собой.

Если на страницу есть внешние ссылки - Гугл всё-равно будет показывать её в выдаче, и не важно, закрыта ли она в robots.

Поскольку эта страница будет ранжироваться по "анкорному ранжированию" алгоритмом Google (хотя бы по НПС).

Google по-прежнему использует исходные Google: более длинный анкорный Google: индексация нового контента

116

Nassa

2 апреля 2014, 15:11

#3

Ladycharm Подскажите, есть вариант, кроме физического удаления, или клоакинга (не показывать ботам google страницу или показывать но другой контент) убрать то что ненужно из выдачи?

155

YaanGle

2 апреля 2014, 16:07

#4

Nassa:
Ladycharm Подскажите, есть вариант, кроме физического удаления, или клоакинга (не показывать ботам google страницу или показывать но другой контент) убрать то что ненужно из выдачи?

В роботсе можно запретить сканировать сайт - если он уже в индексе, то может там и остаться. Вы можете принудительно удалить нужные документа из индекса через ПВМ (они должны быть закрыты от индексации или выдавать 404, насколько помню). Либо, повесьте на них 404 ответ сервера. Либо можно показывать контент только авторизованным пользователям. :)

1

Закрытый от индексации Google Google: 30-40% страниц с Google рассказал, как удалить

116

Nassa

2 апреля 2014, 16:09

#5

YaanGle

Спасибо огромное. Почему сам не додумался((

126

atranca

2 апреля 2014, 16:09

#6

Nassa:
Ladycharm Подскажите, есть вариант, кроме физического удаления, или клоакинга (не показывать ботам google страницу или показывать но другой контент) убрать то что ненужно из выдачи?

Вы и правда недопонимаете.....

смотрим какие дирректории здесь закрыты http://inmeyko.tumblr.com/robots.txt

Sitemap: http://inmeyko.tumblr.com/sitemap1.xml

User-agent: *

Disallow: /private

Disallow: /random

Disallow: /day

Crawl-delay: 1

а не на основном домене, Для ПС это ДВА РАЗНЫХ САЙТА

1

123

Google: URL, заблокированные через 5 частых SEO-проблем при Яндекс отказался от учета

116

Nassa

2 апреля 2014, 16:26

#7

А вот другой вариант тогда, без доменов 3-го уровня

Смотрим, закрыто /bitrix

Делаем запрос site:searchengines.ru/bitrix

Вот пожалуйста

Админка

Стили

Блин, мне за этот пример по ушам не надают?

239

KrutE

2 апреля 2014, 16:32

#8

гугл всегда ходил где хотел, пофиг ему на роботс

116

Nassa

2 апреля 2014, 16:32

#9

Я, просто не привожу свой сайт в пример. А там всё гораздо хуже. Сайт с UGC. Весь хлам я собирал в 1 категорию, из разряда, человек зашёл зарегистрировался, что-то выложил, а потом забил. Если тупо всё удалять- мало ли, человек зайдёт снова, и начнёт добавлять, он будет расстроен, если я удалю его контент. Так вот, таких пользователей больше гораздо, чем тех, кто делает всё аккуратно и регулярно. И эта категория с хламом, за годы уже очень сильно разрослась. И сейчас на неё пошли заходы из google. И заходов больше чем на нормальные категории. Соответственно увеличились отказы.

---------- Добавлено 02.04.2014 в 20:33 ----------

гугл всегда ходил где хотел, пофиг ему на роботс

Так я знаю что он ходил. И по логам можно посмотреть, но чтобы он выкладывал в основной индекс, и на него шли люди, такое у меня впервые.

Не индексируется сайт Когда стоит открывать для Ключевые слова

P

74

Playmаn

2 апреля 2014, 17:09

#10

Nassa:
... Весь хлам я собирал в 1 категорию ... Если тупо всё удалять- ... человек ... будет расстроен ... И эта категория с хламом, за годы уже очень сильно разрослась. И сейчас на неё пошли заходы из google. И заходов больше чем на нормальные категории. Соответственно увеличились отказы.

Запрещайте индексацию нужных страниц мета-тегом. Это избавит от попадания оных в индекс, даже в виде "голых" url.

1

Что делать, чтобы попасть в ответы Google Bard

Дзен реализовал для авторов возможность вывода денег через СПБ