А вы добавьте на конце "title | Страница Х"
Так и делаю, проблем не знаю. Canonical и уникализированный title
Не прокатит этот вариант для меня, даже если дополнительно выборку по title делать, т.к. title и заголовок могут быть "как построить печь", а сама статья про то "как построить печь из кирпича".
Спасибо, попробую. О результатах отпишусь.
Из систем аналитики, которые установлены на сайте, собирайте поисковые фразы по которым были переходы, вот вам и список запросов.
Также из панелей вебмастера Google и Яндекс можно запросов собрать, по которым сайт показывается в выдаче.
Праздный интерес: блоки похожих статей выводятся в разных местах страницы?
Про рекомендации для перелинковки тоже сразу подумал, просто не знаю чем можно это сделать, чтобы закинул список страниц, а он бы выдал список схожих статей.
Про удалять или оставлять - здесь я точно буду сносить "почти дубликаты", на которых трафика нет. Т.к. сайт уже под фильтрами яндекса и надо его подчистить, т.к. других причин для фильтра нет.
PS: Была у меня уже подобная проблема с проектом (200 страниц), но там я руками всё сделал и вывел сайт быстро. Сейчас нужен какой-то инструмент для ускорения процесса.
https://www.google.com/webmasters/tools/submit-url
http://webmaster.yandex.ru/site/feedback.xml
Если они не мошеннические и соответствуют запросам по которым пользователи переходят на эти сайты, то вряд ли Платоны что-то будут делать.
Та же фигня, у меня от 10 до 20% трафика сливается. Это по проектам у которых не было сегодня изменений сильных в позициях.