Ну, чаще даже дубликатами являются карточки товаров не на страницах разных e-газинов (рассуждения про "шапку и менюшку" к ним ведь тоже относятся), а одних и тех же.
Вот, скажем, к примеру, каталог автомобильных шин. Несколько страничек с N-килобайтным текстом отличаются (кроме текста баннеров ) только на 1 цифру в названии, 2 - в температурном режиме, и 3 - в цене. Разумеется, с точки зрения "совпадения на 10%" эти странички идентичны. Но если их склеить, то кто-то не найдет цену на любимую марку шин...
Тут есть 2 пути решения "магазинной" проблемы:
1) Специальная индексация магазинов и т.д. - к этому не готов Яндекс.
2) Яндекс.Товары - к этому не готово большинство магазинов (хотя, если их хорошенько припугнуть - кто знает ? ).
Так что ждем-с...
Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).
В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).
Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...
Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.
Александр Мельков, Яndex.