"В чистом виде поиск похожих это я вбиваю в запрос например 100кб. текста и говорю найти похожие." - ну такое у меня есть. Алгоритм работает поверх Яндекса (тестировался Рамблер, Мета, Гугл частично), позволяет находить дубликаты и похожие документы (после дубликатов). В связи с переделкой сайта сейчас не работает, если надо, поправлю и открою. В этом нет ничего настолько принципиального. Алгоритм основан на анализе частот и сможных параметров. Создавался в рамках одного проекта, потом попробовали на инет-поиске, работает, хоть и с оговорками. Интересует - пишите в личку.