Мы понимаем эти термины, как одно и то же.
Неустойчивость проявляется заметно при встречаемости термина на уровне 1-25 раз (в выборке или в базе), естественно, с убыванием эффекта с возрастанием частоты.
Четкой границы для общего объема базы не существует. Критерий работает "индивидуально" для каждого слова (словосочетания). Отсюда следует различные границы требуемого объема для разных слов. Можно говорить лишь об общем качестве получаемого "информационного портрета".
А для этого узконаправленная база гораздо лучше, чем общая.
Для эффективной работы метода нужна база минимум 5-10Мб (экспериментальная база - "автомобильной" тематики).
Определение ключевых терминов - интересная тема. Определение их по Зипфу (или другому априорному распределению) из "яблочных" соображений (сердцевина-высокочастотные не нужна, кожура-низкочастотные - тоже) не совсем корректно.
Можно предложить другое соображение - относительную встречаемость (плотность встречаемости слова в выборке/плотность в некоей большой базе).
Подробнее см. http://zoom.galaktika.ru
Этот критерий (чем больше, тем более значим данный термин) дает неплохие результаты.
Правда, он неустойчив для малых частот.
Точно.
Прошу также учесть, что в моем списке указаны только начальные формы лексем.
Например,
КАЖДЫЙ - КАЖДЫЙ, КАЖДОЕ, КАЖДЫЕ, КАЖДЫМИ, КАЖДОЙ, КАЖДОМ, КАЖДЫМ, КАЖДОГО, КАЖДОМУ, КАЖДЫХ, КАЖДОЮ, КАЖДУЮ, КАЖДАЯ
Зависит от того, сколько нужно стоп-слов.
Абсолютных стоп-слов вне зависимости от контекста практически не существует.
Простейший пример:
"Быть или не быть"
в этом выражении все слова - из списка стоп-слов.
Так что все зависит от задачи: "с ножницами нужно обращаться осторожно".
А к списку из MnogoSearch могу добавить еще немного (можно и поболее):
ВОПРОС
Г
ГЛАВНЫЙ
ГОД
ДОЛЖЕН
ДРУГОЙ
ЗНАТЬ
КАЖДЫЙ
КОТОРЫЙ
ЛЕТ
МЕЖДУ
МНОГИЕ
МНОГО
МОЖНО
НЕСКОЛЬКО
НОВЫЙ
ОТНОШЕНИЕ
ПОЛУЧИТЬ
ПОСЛЕ
ПРОБЛЕМА
ПРОСТОЙ
САМЫЙ
СВОЙ
СЕБЯ
СЕГОДНЯ
СЕЙЧАС
СЛОВО
ЧЕРЕЗ
ЭТОТ
Ну вот, и матлингвистике досталось.
А насчет определения рыночной ниши - Вы правы, есть применения для данной идеи. Сходу могу назвать ведение спецБД, с большим стандартным вводом. Нужно точнее это определить, и найти соответствующих заказчиков.
Приношу извинения за неакадемическое выражение. С Вами мы общались на одной из выставок, а весной были у Вас в Рамблере. Детали, я думаю, к данной теме не относятся.
Не кипятитьтесь, коллега. Для справки: я, в свое время, тоже показывал Игорю свои наработки. И получил не меньше тумаков от него и его сотрудников. И это не отвратило меня от моих идей. И даже кое-что получается. Я думаю, что и Вы продолжите заниматься, несмотря на нашу критику (поверьте, весьма мягкую). А что касается цифр... так я вижу, на основании своего небольшого опыта (база текстов у нас - 7 млн. документов).
Здесь с уважаемым Игорем Станиславовичем не согласиться трудно. Идея понятна: взять работающий инструмент (AferScan) и приспособить его для решения другой задачи. Полезность же этой конкретной реализации оценена: 2% (С Ашманов, по-моему, <1%). Стоит ли играть на таких малых величинах?