А есть уверенность, что у похожих страниц в вашем случае наблюдается действительно пересечение по общим словам? В случае спама это может быть и неверно: спамер может специально коверкать слова или заменять некоторые русские буквы латинскими эквивалентами.
Если пересечение есть, то можно использовать идеи Locality Sensitive Hash, см. например здесь: http://www-db.stanford.edu/~taherh/papers/scalable-clustering.pdf
только вместо одной суммы crc будет несколько, чем больше сумм, тем меньше вероятность не найти похожий документ. Найденные в результате кандидиты нужно сравнить непосредственно с помощью какой-нибудь более точной функции.
А, если не секрет, то что в нем комплексного? Несколько словарей объединены в один?
Кстати, создается ощущение, что morphology.ru - это ispell в чистом виде. Без "автоматической" морфологии для слов, отсутствующих в словаре.
Вы бы Алекс лучше не хамили.
Ну почему же не думаю. Какой-такой иск можно предъявить к практически любому поисковику? В примере с гуглём это иски или претензии: за то, что гугль "без разрешения" индексирует сайты (это из серии мании преследования), за то, что незаконно хранит копии страниц и всем их показывает (якобы нарушение копирайта), кликфрод (не нравится - можешь платить за рекламу на тв, там никакого кликфрода, зато рекламная компания во много раз дороже). Это все из серии пролитого на штаны кофе.
Ну не могу же я сказать все, что думаю о человеке, который собирается вчинить очередной иск из серии "а там не написано, что котов нельзя сушить в микроволновках". Все-таки я для этого слишком воспитанный человек.
Это я намекаю на то, что судится за пролитый на брюки кофе, считается недостойным занятием даже в якобы сутяжной Пиндоссии.
Кстати, к слову об сутяжных американцах. Нормальные американцы очень и очень не уважают людей, которые подобными судебными исками зарабатывают себе баблисити.
Я чуствую, что это "плач Ярославны" еще долго будет длиться.
А у меня уже некоторые странички начали возвращаться :-)
http://www.google.com/intl/en/jobs/working.html