Sead

Рейтинг
48
Регистрация
11.01.2012
TF-Studio:
внутренние ссылки, хлебные крошки, ...

Внутренние ссылки? А какие? А как повлиять? Анкор берётся даже с алта картинок.

Но всё равно, что-то тут не так. Есть сайты, у которых сниппеты просто удивительно правильные.

xarraw:
а почему одни страницы попадают в индекс.а другие нет!?

Потому что гуглу глубоко наплевать на robots.txt.

"Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс" -справка гугла.

Теоретический вопрос: почему другие документы запрещенные в robots.txt не попадают в дополнительный индекс Google?

Хотя есть и другие документы, запрещенные в robots.txt. которые также попали в индекс. Почему одни документы попадают в индекс, а другие - нет?

sok3535:
еще раз - роботс для гугла запрещает сканирование, а не индексирование - индексирование запрещает метатег noindex. и сюда - http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449 там все разжевано, чтобы бот считал метатег на стр не должно быть запретов в роботсе

какие дубли?

То что роботс запрещает сканирование, но не индексирование уже вбил себе в долговременную память.

Кажется дошло. Спасибо за рекомендации.

Пример:

Имеется страница http://delajblog.ru/acronis-true-image-home

На этой странице есть ссылка "Ответить"

<a class='comment-reply-link' href='/acronis-true-image-home?replytocom=1492#respond' onclick='return addComment.moveForm("div-comment-1492", "1492", "respond", "4112")'>Ответить</a>

Эта ссылка ведёт на адрес

http://delajblog.ru/acronis-true-image-home?replytocom=1492#respond

Этот адрес проверяю в гугл вебмастере:

Заблокировано по строке 15: Disallow: /*?*

Т.е по сгенерированной странице робот не ходит, но индексирует.

В коде на странице стоит

<meta name='robots' content='noindex,nofollow' />

Не пойму: отчего тогда индексация?

Кажется так: робот не может прочитать, что страницу индексировать не нужно, т.к. стоит запрет в robots на посещение этой страницы. Но если убрать Disallow: /*?*, то появятся другие дубли, например, поиск по сайту даст страницу с "?"

---------- Добавлено 09.06.2013 в 13:30 ----------

foxi:
Отдавать на таких страницах не ответ 200, а доступ запрещен. Человеку это не помешает. А боту точно не даст индексировать. Я так с поиском по сайту сделал )

В .htasses так можно?

RewriteCond %{QUERY_STRING} replytocom=

RewriteRule ^(.*)$ /$1? [R=301,L]

sok3535:
///. можно также установить плагин all in one seo и вкл там каноникал

Спасибо за информацию. Не пойму, только, давным давно стоит platinum seo pack и все страницы имеют свой

<link rel="canonical" href="http://delajblog.ru/" />

Отчего тогда происходит индексация?

Asd88:
У меня та же проблема... в роботсе директории запрещены, а в соплях они есть хоть там и пишется рядом, что описание этой страницы запрещено роботсом... как быть?

Сейчас ищу решение. Наклевывается сразу несколько.

1. Засадить в robots

Disallow: /*/?replytocom=*

Только здесь внимательно разобраться со слешами.

Кстати, давным давно у меня стоят директивы:

Disallow: /*?*

Disallow: /*?

Но на replytocom они почему то не действуют.

2. Гугл вебмастер - Конфигурация - Параметры URL - настройка параметров URL и там уже разобраться с этим replytocom (кстати, там и можно увидеть сколько таких ссылок гуля наиндексировал).

3. В single.php находим вызов комментариев <?php

comments_template();

?>

И закрываем nofollow

Какой вариант выбрать пока не решил.

ЗЫ Всё это относится только к древовидным комментариям Wordpress и именно к словечку "Ответить".

plattoo:
Молодец, Иван Петров.

А ТС ответ такой: читайте http://robotstxt.org.ru/

Спасибо Вам, добрый человек.

ivanpetrov:
Потому что нужно его закрыть от индексации

Как? Эта страница уже закрыта в robots. Если nofollow, то где?

Всего: 78