Как вариант в keycollector спарсить все 40 страниц вордстата просто "трусиков" и руками прочистить мусор, останется много неочевидного
Не совсем понял что имеется в виду
Вообще да, ее обычно за дубль контента не считают) Думаю попробую
А rel=publisher?