Ken

Рейтинг
31
Регистрация
22.04.2003

Новости.

Есть N источников предоставляющих тексты T.

Допустим, они освещают явления X.

Нужно найти явления F(T,N) ={X1,X2...}, далее определить лжеисточники. и.т.д

PHWizard:
А что бы ты предложил?

Если б я знал какую метрику предложить...

Рассмотренные выше выкладки - замечательные.

Но... судя по тем тестам, что мне удалось делать, я пришел к выводу - априори "Частоты шумят" и вылезают за пределы той самой статистической ошибки.

Ну вот🙅 опять все свелось к частотам.

% вхождения - это слишком простая мера - тут хотябы термины в кластер собрать.

Что поделать - трудоемкая задача, вопрос лишь в том на сколько глубко решили абстрагироваться.

Не следует забывать и о технике глобальной классификации которую делают в Абби Лингво

Eugen:
Кстати, кто что думает по-поводу нормализатора от AOT ?

По скорости не тестировал, а вот наполнение словаря понравилось, хотя... наличие или потенциальность тех или иных словоформ - вещь довольно абстрактная.

Слово "звздолет" - которое качевало в некоторых версиях словарей (и даже Лингво) присутствует и в АОТе. Иными словами: первоисточник - один.

seodev:
Кстати, создается ощущение, что morphology.ru - это ispell в чистом виде. Без "автоматической" морфологии для слов, отсутствующих в словаре.

Совсем не ispell. (Решение комплексное)

на запросы крис норман и криса нормана

выходят разные результаты - так и задумано?

Всего: 49