istore, хватит нести какую-то чужь про "у меня нет дублей", и начинайте слушать и размышлять если хотите понять. Иначе зачем вы здесь задаете вопросы? Это действительно смахивает на троллинг, и причем довольно толстый.
Дублями считаются ссылки по котором открывается идентичный контент или одна и та же страница. Где бот находят эти ссылки не важно, они могут быть служебными, у форумов например это ссылка на отдельный пост, могут появится из-за неправильно прописанный ссылки в коде (относительные ссылки), или с другого ресурса. Да и речь немного не о том, а о списке исключенных страниц в ЯВ - где кстати указанно по какой причине.
Где показывало? В ЯВ или в исходном коде? Для каких тем? Вы вообще знаете что это такое?
Ресурс не найден - означает что такой страницы по этой ссылки на сайте нету (404 Not Found).
Неверный формат документа - формат документа не верен.
Документ не является каноническим - не каноническая страницы. Canonical url на этой странице ведет на другую каноническую, которая должна быть в выдаче.
Это полный ЛОЛ. Зачем лезть если не понимаете что это? Как раз Canonical и избавляет от дублей.
До вас просто так и не дошло смысл этой опции в ЯВ - она показывает какие страницы НЕ ПОПАЛИ В ИНДЕКС ПО ТЕМ ИЛИ ИНЫМ ПРИЧИНАМ! Если документ не найден - значит ссылка будет в списке, если ссылка запрещена в роботсе - значит она будет в списке, если ссылка не является канонической - будет в списке. И это НЕ НАДО УСТРАНЯТЬ, ОНО НЕСЕТ ИНФОРМАТИВНЫЙ ХАРАКТЕР. Вам только нужно убедится что-бы случайно в этих списках НЕ ПОПАДАЛИ ссылки которые должны индексироваться.
Я разве такое прямо такое говорил - "поставить звездочку после слэша"? Я ее поставил что-бы вам было понятно, что она подразумевается в конце по умолчанию, даже если ее там нету.
Запреты:
равнозначны. В конце ставить звездочку не нужно.
Вы или читаете между строк или еще что хуже... Еще раз внимательно читайте и смотрите в примере, даже специально было выделено черным.
По слогам:
- что содержит и начинается на /folder1/folder2/* (именно в таком порядке, и в таком составе. * любое последовательность символов)
- ничего больше
Приведите точный текст с ошибки/замечаний из ЯВ в котором находится список этих ссылок.---------- Добавлено 25.06.2012 в 01:05 ----------
Да это уже просто ЛОЛ какой-то.
Ссылка из вашего списка:
/fitness/figure/?pview=report&f=5
Запрет из роботса
Disallow: /*?pview=
Пожалуйста, впредь не повторяйте десять раз одно и тоже, а читайте что вам люди пишут. А лучшее всего понимается когда теория совмещается с практикой - http://webmaster.yandex.ru/robots.xml Экспериментируйте, составляйте запреты под все возможные вариации УРЛов. Начните с самых простых. Надеюсь, как пользоваться анализатором сами додумайтесь, у меня просто не хватит сил вам объяснить.
Что-то я не понял, в чем тогда конкретно заключается ваш вопрос?
Ссылки от разных служебных страниц.
Запрещать в роботс.тхт. Но лучше вам найти специалиста который отловит эти дубли и правильно составит для них запреты.
Что конкретно за ошибка написано? Если запрещены к индексации, они и так должны там висеть.
Не надо таких примеров, приводите точно как выглядит ваш запрет, без всяких "до+и+после". ---------- Добавлено 25.06.2012 в 00:24 ----------
Не закроет, читайте элементарную справку по роботс. Disallow /folder1/folder2/ закроет все содержит и начинается на site.ru/folder1/folder2/*, и ничего больше.---------- Добавлено 25.06.2012 в 00:31 ----------
http://www.google.ru/search?hl=ru&newwindow=1&client=opera&hs=fWv&rls=ru&channel=suggest&q=robots.txt+yandex&oq=robots.txt+yandex
http://www.google.ru/search?client=opera&rls=ru&q=robots.txt+google&sourceid=opera&ie=utf-8&oe=utf-8&channel=suggest
Так что вы именно не хотите думать. Ведь нету "четкой" инструкции где бы все прям разжевали по букафкам и положили в рот.
Вы совсем что-ли не хотите думать? Если страницы показываются в панель вебмастера как запрещенные в роботс.тхт? Они потому и показываются что запрещены (!). Все запреты с сессиями уберите, они там абсолютно лишние и бесполезные (вы собрались для каждой сессии писать запрет?), достаточно одного правило /*&sid= или /?f=*&sid=*. И вообще, что все что содержит цифры, т.е. динамичные элементы, лучше заменить на маску (*) если не требуется запретить конкретную страницу.
Этот /&post=-27477976_2294 на /&post=-
хотя он неправильный, адрес не может начаться на /&post= ( site.ru/&post= ), правильно - /*&post=-
Эти /15541331663174/ вообще просто жесть.
И не забудьте проверить составленный роботс http://webmaster.yandex.ru/robots.xml
ПСы видят то что находится в исходном коде. Мышкой умеете пользоваться? Правый клик -> Исходный код, и ищите там нужные вам теги (meta keywords, description; title)
Описанный случай очень сильно смахивает на отсутствие в главном шаблоне main.tpl макроса {headers}, который выводит тайтл и мета-теги.
Что значит не видят?? Вы их "видите"? В коде тег есть или нету?
Вам уже помогли больше чем нужно. Если бы css было перед или следовало за каким-то конкретным словом, можно использовать отрицание. Иначе только кэлбэк или обход массива.
Авторизация в ДЛЕ вроде как не только на сессиях, но и на куках.