Начинать можно отсюда и дальше уже изучать конкретную задачу:
Story Segmentation - Detect changes between topically cohesive sections
Topic Tracking - Keep track of stories similar to a set of example stories
Topic Detection - Build clusters of stories that discuss the same topic
First Story Detection - Detect if a story is the first story of a new, unknown topic
Link Detection - Detect whether or not two stories are topically linked
Либо предоставьте ссылки, где мои "заявления" не соответствуют действительности, либо извинитесь. То, что я не люблю поисковиков на СУБД - это факт, однако чтобы говорить об этом подобным образом, нужны убедительные аргументы, которые меня опровергают.
Итак?
Прошу прощения за оффтопик. Zute, судя по всем вашим постам с обязательным упоминанием DataparkSearch, вы его разработчик?
Поиск переустановил. Тестируйте.
Какие-то проблемы с новым сервером - пока не могу на него попасть. Как попаду, поиск переустановлю.
Поднял поиск. Он там не доиндексировал.
Насколько я знаю, Игорь Ашманов и Николай Харин уже все протестировали, и сделали определенные выводы.
Так чего вы еще хотите? :)
Если хотите сравнить, сделайте веб-интерфейс и сравните. :)
Во-первых, я на форуме нигде не пиарился, рассказывая в каждом посте, что Новотека единственная и неповторимая, и ничего круче нету, как это делаете вы. Я просто упомянул, что упомянутые задачи она решает, как - смотрите сайт.
Вашу систему я не тестировал - мне вполне хватило понять, что это пустышка, просмотрев те документы, которые вы с ней давали для ознакомления. Это, извините, просто детский сад! По-моему, вам Борис уже намекал про уровень изложения.
Во-вторых, я не люблю агрессивный маркетинг, которым вы тут который день, не очень успешно, впрочем, занимаетесь. Пиарьтесь не на тематических форумах, а на сайтах для манагеров. В философской плоскости, не опираясь ни на какие алгоритмы, вы здесь никому ничего не докажете.
Вот и зарабатывайте деньги на доверчивых простачках, а не рассказывайте сказки на форуме, на которым присутствуют представители основных IR-компаний и поисковиков, какую уникальную штуку вы придумали.
Елы-палы! Ну что за человек, одна распальцовка!
Исключительно крутостью заказчиков пытается бить. :)
Почему-то в таких случаях у меня всегда возникает ощущение, что чем больше крика, тем меньше там сделано. Прошу меня извинить, если это не так.
Движок Новотеки это умеет делать, и не только это.
Что касается вашего "супералгоритма". Частотные характеристики слов никак не могут показывать важность слов в тексте, какие бы сказки вы тут не пытались рассказывать о "секретной" формуле, по которой их можно посчитать.
В каком-то приближении это может и получиться, но с помощью частотных характеристик найти даже бОльшую часть действительно похожих документов не представляется возможным. Максимум - процентов 50%, не более, и то при очень высокой однородности текста, например, тематического.
Кроме того, при увеличении количества важных терминов серьезно падает точность кластеризации, несмотря на возрастающую полноту, поэтому я полагаю, что два действительно похожих документа должны иметь не более двух общих терминов с примерно одинаковыми весами, которые наиболее точно определяют тематику документа. Подумайте об этом на досуге.
У вас же я что-то не увидел никаких ссылок ни на лексические цепочки, ни на другие алгоритмы, только рассказы о том, как вы изобретали "вечный двигатель".
Так а в чем же новизна этой технологии?