Индексирует закрытую инфу.

A

10

aalebedev

23 февраля 2013, 21:24

757

В общем не пойму одну вещь. Закрыл ненужные страницы через robot.txt.

Ввел site:xxx.ru

Нашел страницы. Нажал результаты на "Показать скрытые результаты."

Нашел вот это:

Описание веб-страницы недоступно из-за ограничений в файле robots.txt.

И таких несколько.

Удалил страницы через вебмастера. На следующий день еще одна.

Что делать? Может я robot.txt криво настроил?

http://dikoobras.com/ (http://dikoobras.com/) Веб-студия. Создание сайтов

S3

109

sok3535

23 февраля 2013, 21:46

#1

пользуй это

<meta name="robots" content="noindex">

только доступ к странице в роботсе открой, а то бот метатег не считает

A

10

aalebedev

24 февраля 2013, 10:13

#2

А по другому никак? Это вообще какой-то кривой файл, сгенерированный CMS

S3

109

sok3535

24 февраля 2013, 11:30

#3

роботс запрещает (у гугла) доступ к -\\- боту, а метатег, я уже написал выше, запрещает индексирование - тут читайте начало выделенное и далее со слов "обратите внимание"

222

iren K

24 февраля 2013, 11:48

#4

aalebedev:
А по другому никак?

вот здесь еще почитайте, особенно обратите внимание на это:

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс.

c уважением Iren

G8

44

globator88

28 февраля 2013, 07:08

#5

У меня та же ситуация. Сайт новый. Один месяц. Сначала google индексировал именно те страницы которые были запрещены в robots.txt. А потом остальные. И теперь продолжает индексировать запрещенные страницы. Не знаю что делать.

Гугл не индексирует определенный DLE и индексация яндексом Как попасть в поиск

43

moneyboy

28 февраля 2013, 07:21

#6

Господи, ну когда же вы все запомните, что ПС индексируют те страницы, которые считают нужными. И им пофиг на ваши файлы robots. Подобные "сопли" и дальше будут выползать в поиске. Успокойтесь уже и смиритесь с этим фактом. Дубли страниц можно только минимизировать. Полному исключению из выдачи это дело не подлежит. Единственное, если вы вместе с ними и целевые страницы запретите индексировать, но это дело уже идет в ущерб трафику.

Блог Антона Машнина (http://blog-mashnin.ru/)

Как запретить индексировать дублирующиеся Новый сайт 95% страниц Апдейт поисковой базы 15.05.2012

[Удален]

28 февраля 2013, 11:58

#7

moneyboy:
Успокойтесь уже и смиритесь с этим фактом.

С чем мириться то? Что руки кривые? или что восстание машин началось с бездумно бродящих по нэту ботов, махающих рукой на robots.txt и идущих дальше по запрещенным маршрутам... Дорвейщики в ужасе!!!!

107

Forza!

28 февраля 2013, 13:13

#8

iren K:
вот здесь еще почитайте

Объясните мне такую штуку, в данном мануале черным по белому написано:

Чтобы просмотреть список URL, которые Google не удалось просканировать, перейдите на страницу Заблокированные URL в разделе Состояние в Инструментах для веб-мастеров.

Сколько не искал, не нашел списка, только количество заблокированных url. Но в мануале написано список. Это напрягает больше всего, как и то, что такие страницы, как и у ТС держит в индексе годами.

aalebedev:
А по другому никак?

Тоже присоединяюсь, ТС четко указал, что это за страницы. Там прописать мета-теги не получится. Пока для меня единственный вариант - это каноникал линк, но такие страницы, как правило, пустые, а каноникал указывает главную, что не совсем верно. Какие еще есть варианты решения по исключению мусора из индекса?

Неканонические страницы... Посоветуйте... для search.php делать canonical Canonical страницы исключены из

87

fivefinger

28 февраля 2013, 14:19

#9

aalebedev:
Удалил страницы через вебмастера. На следующий день еще одна.

не парьтесь - это нормально, в основном индексе их нет, у меня гугл также отреагировал на запреты в роботсе. Он их выплюнет, но чуть позже.

EvilMinds - пока другие делают вид, мы работаем на результат. (/ru/forum/936293)

Что такое Power BI и зачем это нужно бизнесу

Open AI тестирует память для ChatGPT