melkov

Рейтинг
57
Регистрация
25.01.2001
Должность
postgraduate student (DMMC), yandex.ru programmer
Интересы
search engine(s), 3d engines

Ну, чаще даже дубликатами являются карточки товаров не на страницах разных e-газинов (рассуждения про "шапку и менюшку" к ним ведь тоже относятся), а одних и тех же.

Вот, скажем, к примеру, каталог автомобильных шин. Несколько страничек с N-килобайтным текстом отличаются (кроме текста баннеров ) только на 1 цифру в названии, 2 - в температурном режиме, и 3 - в цене. Разумеется, с точки зрения "совпадения на 10%" эти странички идентичны. Но если их склеить, то кто-то не найдет цену на любимую марку шин...

Тут есть 2 пути решения "магазинной" проблемы:

1) Специальная индексация магазинов и т.д. - к этому не готов Яндекс.

2) Яндекс.Товары - к этому не готово большинство магазинов (хотя, если их хорошенько припугнуть - кто знает ? ).

Так что ждем-с...

Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).

В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).

Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...

Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.

Александр Мельков, Яndex.

Всего: 142