Новости.
Есть N источников предоставляющих тексты T.
Допустим, они освещают явления X.
Нужно найти явления F(T,N) ={X1,X2...}, далее определить лжеисточники. и.т.д
Если б я знал какую метрику предложить...
Рассмотренные выше выкладки - замечательные.
Но... судя по тем тестам, что мне удалось делать, я пришел к выводу - априори "Частоты шумят" и вылезают за пределы той самой статистической ошибки.
Ну вот🙅 опять все свелось к частотам.
% вхождения - это слишком простая мера - тут хотябы термины в кластер собрать.
Когнитивно:)
Что поделать - трудоемкая задача, вопрос лишь в том на сколько глубко решили абстрагироваться.
Не следует забывать и о технике глобальной классификации которую делают в Абби Лингво
По скорости не тестировал, а вот наполнение словаря понравилось, хотя... наличие или потенциальность тех или иных словоформ - вещь довольно абстрактная.
Слово "звздолет" - которое качевало в некоторых версиях словарей (и даже Лингво) присутствует и в АОТе. Иными словами: первоисточник - один.
Совсем не ispell. (Решение комплексное)
на запросы крис норман и криса нормана
выходят разные результаты - так и задумано?