Да наверное все современные CMS-ки так формируют категории/разделы.
Я тоже когда-то парилась, не получу ли по шапке за дублирование контента. Но у меня не было варианта закрыть от индексирования - страница категории это пункт в меню, да и в структуре сайта задумывалась как важная.
Проверила только что выдачу в гугле. Допустим, название рубрики "Синие слоны", по запросу "Синие слоны" выводится несколько ссылок с сайта - все ведут на страницу категории, а текст сниппетов разный и берется из дескрипшена статей.
Смотря что это за страницы. У меня есть проект на вордпрессе, там на страницах категорий и тегов выводятся первые строки полного текста статьи. В роботс не закрыты, участвуют в структуре, индексируются и видны в виде быстрых ссылок в сниппете Гугла. В статьях стоит rel=canonical.
То, что помогает поисковику оформлять сниппет- традиционные тайтлы и h1, а также микроразметка: Яндекс, Гугл.
Ну так за два года много чего произошло.Вот же отличный пример G-and-Y привел, там по сайтам в выдаче понятно, что тошнота - далеко не первый влияющий фактор.
А вы писали владельцу сайта-вора, его хостеру? Напишите обязательно, укажите на недопустимость поведения, воровство контента, копирайт и прочее подобное. Они там ставят в день 40-50 статей - как владельцы других сайтов относятся к такому поведению? Может стоит списаться с ними и вместе торбить и сайт с копи-пастом, и его хостинг.
Учитывается весь текст.
Структурная разметка используется для построения быстро-ссылок в сниппетах, а не для вычленения контентной части.
Но насчет того, как будет влиять переспам ключевым словом - Яндекс скорее всего этому не обрадуется, а вот Google может и посмотреть сквозь пальцы. Тестируйте.
Это делает плагин WP Category Permalink
Только до того надо бы посмотреть в статистике кол-во мобильного трафика, а то с таким количеством комментов страница на смартфон плохо грузится, а вдруг там все читатели-комментаторы с телефонов сидят.
Простите, а откуда такие данные, что именно в 2 раза, а не на 30% например?
1. Никак
2. Если вы уверены, что ваши тексты - это нечто особо ценное, обратитесь к офлайн юристу, специализирующемуся на защите авторских прав, он даст совет.
3. Даже когда сайт индексируется, это не значит, что прям после нажатия кнопки "Опубликовать" прибежит поисковый робот. Твиттинг, карта сайта и постинг в гуглоплюсе помогают ускорить индексацию, но не спасают от воровства. Добавляйте на сайт любой текст, который уже полностью готов, вычитан, оредактирован.
4. Если тупо лупить всеми пальцами по клавиатуре в течение пары минут, то получившийся бред будет стопроцентно уникальным текстом. Но нафиг никому не нужным.
Не гонитесь вы за цифрами уникальности. Текст должен быть полезен и интересен пользователю.
Пишите много и качественно, если у вас будет узнаваемый стиль и посещаемый ресурс, то и так все будут знать что это ваши тексты.
А какая это CMS так себя ведет?
Wordpress дописывает к названия графического файла цифру, в случае совпадающих названий, Джумла тоже, Битрикс дает свои названия, там чтобы оставались исходные названия надо спецаильную опцию включать.
Мне кажется, что сейчас распространные CMS (aka типовые) как раз в штатном режиме бережно относятся к названиям, следя за тем, чтобы не перетереть уже загруженные. Но всяко бывает конечно.
Это несложно исправить, надо чтобы программисты кусочек кода подправили, там где загрузка изображений, проверять названия файлов на уникальность. Вот типа такого.