Tryerty

Tryerty
Рейтинг
68
Регистрация
04.12.2007
Должность
Intelsib
Чуркин Игорь Владимирович
wolf:
TF - это не частота. Это количество употреблений. Непонимание этого факта и приводит к недоразумениям. Все переводят английское frequency самым распространенным вариантом "частота". Но забывают, что у него есть и еще один перевод - "частотность".

Простите, но это синонимические игры. Приведенное Вами определение

количество лексов (т.е. словоупотреблений) одной лексемы в данном тексте (или в корпусе текстов, или в речевом фрагменте)

также привязано к некоторому объему текста, без указания которого бессмысленно.

Закон Ципфа-Мандельброта оперирует понятием частоты употребления слов, несущим тот же смысл при указании объема выборки (словаря).

PS: А что вы думаете по поводу темы топика? Хотя бы на уровне: да - нет - не знаю...

TF как и любая частотная характеристика имеет неоднозначное толкование, поэтому большинство литературных источников использует ее с уточняющими индексами (например, TFt,d - встречаемость термина t в документе d) или с дополнительной расшифровкой (как в приведенном выше документе). В противном случае информативность этой величины отсутствует (попробуйте, например, измерять частоту вращения просто в оборотах, без указания интервала времени).

wolf:
Теперь я понял, почему народ так живо интересуется обратными частотами... :)

А для вас этот интерес исключительно академический?

Всего: 173