siv1987

siv1987
Рейтинг
427
Регистрация
02.04.2009

istore, хватит нести какую-то чужь про "у меня нет дублей", и начинайте слушать и размышлять если хотите понять. Иначе зачем вы здесь задаете вопросы? Это действительно смахивает на троллинг, и причем довольно толстый.

Дублями считаются ссылки по котором открывается идентичный контент или одна и та же страница. Где бот находят эти ссылки не важно, они могут быть служебными, у форумов например это ссылка на отдельный пост, могут появится из-за неправильно прописанный ссылки в коде (относительные ссылки), или с другого ресурса. Да и речь немного не о том, а о списке исключенных страниц в ЯВ - где кстати указанно по какой причине.

istore:
Т.е на сайте был форум, но он не индексировался совсем, потому что для тем каноникал указывал /forum/

Поэтому никак я не могла пожертвовать уникальным контентом ради части этого хлама, который можно занести в роботс.

Где показывало? В ЯВ или в исходном коде? Для каких тем? Вы вообще знаете что это такое?

istore:
Весь этот хлам равномерно распределен по

Ресурс не найден (404)
Неверный формат документа
Документ не является каноническим

Ресурс не найден - означает что такой страницы по этой ссылки на сайте нету (404 Not Found).

Неверный формат документа - формат документа не верен.

Документ не является каноническим - не каноническая страницы. Canonical url на этой странице ведет на другую каноническую, которая должна быть в выдаче.

istore:
Что касается canonical, я его удалила сейчас через functions.php, потому что WP выставлял его на комментарии и на темы форума.

Это полный ЛОЛ. Зачем лезть если не понимаете что это? Как раз Canonical и избавляет от дублей.

До вас просто так и не дошло смысл этой опции в ЯВ - она показывает какие страницы НЕ ПОПАЛИ В ИНДЕКС ПО ТЕМ ИЛИ ИНЫМ ПРИЧИНАМ! Если документ не найден - значит ссылка будет в списке, если ссылка запрещена в роботсе - значит она будет в списке, если ссылка не является канонической - будет в списке. И это НЕ НАДО УСТРАНЯТЬ, ОНО НЕСЕТ ИНФОРМАТИВНЫЙ ХАРАКТЕР. Вам только нужно убедится что-бы случайно в этих списках НЕ ПОПАДАЛИ ссылки которые должны индексироваться.

istore:
Сообщит, что не нужно сканировать страницы, которые содержат search.php с чем-то до и чем-то после него. А вы сказали поставить звездочку после слэша. Почему?

Я разве такое прямо такое говорил - "поставить звездочку после слэша"? Я ее поставил что-бы вам было понятно, что она подразумевается в конце по умолчанию, даже если ее там нету.

Запреты:


Disallow: /*?page_id=
Disallow: /*?page_id=*

равнозначны. В конце ставить звездочку не нужно.

istore:
Говорите, что не закроет, а потом говорите, что как раз закроет все, содержащее /folder1/

Вы или читаете между строк или еще что хуже... Еще раз внимательно читайте и смотрите в примере, даже специально было выделено черным.

По слогам:

- что содержит и начинается на /folder1/folder2/* (именно в таком порядке, и в таком составе. * любое последовательность символов)

- ничего больше

istore:
В третий раз повторяю, что не запрещены к индексации.

Приведите точный текст с ошибки/замечаний из ЯВ в котором находится список этих ссылок.

---------- Добавлено 25.06.2012 в 01:05 ----------

istore:
В третий раз повторяю, что не запрещены к индексации.

Да это уже просто ЛОЛ какой-то.

Ссылка из вашего списка:

/fitness/figure/?pview=report&f=5

Запрет из роботса

Disallow: /*?pview=

Пожалуйста, впредь не повторяйте десять раз одно и тоже, а читайте что вам люди пишут. А лучшее всего понимается когда теория совмещается с практикой - http://webmaster.yandex.ru/robots.xml Экспериментируйте, составляйте запреты под все возможные вариации УРЛов. Начните с самых простых. Надеюсь, как пользоваться анализатором сами додумайтесь, у меня просто не хватит сил вам объяснить.

istore:
Страницы показываются не как запрещенные в роботс. С чего вы это взяли?

Что-то я не понял, в чем тогда конкретно заключается ваш вопрос?

istore:
1) Что это?

Ссылки от разных служебных страниц.

istore:
2) Что с этим делать, чтобы помочь сайту удержаться на плаву?

Запрещать в роботс.тхт. Но лучше вам найти специалиста который отловит эти дубли и правильно составит для них запреты.

istore:
Тем не менее, как вы видите, все страницы, содержащие это, в ошибках и замечаниях на месте так и висят. Возможно, я забыла как раз эту звездочку.

Что конкретно за ошибка написано? Если запрещены к индексации, они и так должны там висеть.

но вот здесь использован недопустимый символ

Disallow: /?s=до+и+после

Не надо таких примеров, приводите точно как выглядит ваш запрет, без всяких "до+и+после".

---------- Добавлено 25.06.2012 в 00:24 ----------

istore:
не закроет ли это директорию /blogs/

Не закроет, читайте элементарную справку по роботс. Disallow /folder1/folder2/ закроет все содержит и начинается на site.ru/folder1/folder2/*, и ничего больше.

---------- Добавлено 25.06.2012 в 00:31 ----------

istore:
Но никакой подробной инструкции, как писать роботс через Яндекс найти не могу. Причем тут "не хочу думать".

http://www.google.ru/search?hl=ru&newwindow=1&client=opera&hs=fWv&rls=ru&channel=suggest&q=robots.txt+yandex&oq=robots.txt+yandex

http://www.google.ru/search?client=opera&rls=ru&q=robots.txt+google&sourceid=opera&ie=utf-8&oe=utf-8&channel=suggest

Так что вы именно не хотите думать. Ведь нету "четкой" инструкции где бы все прям разжевали по букафкам и положили в рот.

Я прописала вот так, посмотрите, правильно ли. Мне кажется, нет.

Вы совсем что-ли не хотите думать? Если страницы показываются в панель вебмастера как запрещенные в роботс.тхт? Они потому и показываются что запрещены (!). Все запреты с сессиями уберите, они там абсолютно лишние и бесполезные (вы собрались для каждой сессии писать запрет?), достаточно одного правило /*&sid= или /?f=*&sid=*. И вообще, что все что содержит цифры, т.е. динамичные элементы, лучше заменить на маску (*) если не требуется запретить конкретную страницу.

Этот /&post=-27477976_2294 на /&post=-

хотя он неправильный, адрес не может начаться на /&post= ( site.ru/&post= ), правильно - /*&post=-

Эти /15541331663174/ вообще просто жесть.

И не забудьте проверить составленный роботс http://webmaster.yandex.ru/robots.xml

То есть получается нету разницы заполняю я эти мета теги тайтл , описания или нет, поисковики их не видят что-ли

ПСы видят то что находится в исходном коде. Мышкой умеете пользоваться? Правый клик -> Исходный код, и ищите там нужные вам теги (meta keywords, description; title)

Описанный случай очень сильно смахивает на отсутствие в главном шаблоне main.tpl макроса {headers}, который выводит тайтл и мета-теги.

но поисковики их не видят

Что значит не видят?? Вы их "видите"? В коде тег есть или нету?

Вам уже помогли больше чем нужно. Если бы css было перед или следовало за каким-то конкретным словом, можно использовать отрицание. Иначе только кэлбэк или обход массива.

Авторизация в ДЛЕ вроде как не только на сессиях, но и на куках.

Всего: 6568