AlexA

Рейтинг
70
Регистрация
16.04.2001
Должность
корпорация Галактика
Интересы
Поисковые системы


Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Мы понимаем эти термины, как одно и то же.


Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость?

Неустойчивость проявляется заметно при встречаемости термина на уровне 1-25 раз (в выборке или в базе), естественно, с убыванием эффекта с возрастанием частоты.


нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?

Четкой границы для общего объема базы не существует. Критерий работает "индивидуально" для каждого слова (словосочетания). Отсюда следует различные границы требуемого объема для разных слов. Можно говорить лишь об общем качестве получаемого "информационного портрета".

А для этого узконаправленная база гораздо лучше, чем общая.

Для эффективной работы метода нужна база минимум 5-10Мб (экспериментальная база - "автомобильной" тематики).


Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Мы понимаем эти термины, как одно и то же.


Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость?

Неустойчивость проявляется заметно при встречаемости термина на уровне 1-25 раз (в выборке или в базе), естественно, с убыванием эффекта с возрастанием частоты.


нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?

Четкой границы для общего объема базы не существует. Критерий работает "индивидуально" для каждого слова (словосочетания). Отсюда следует различные границы требуемого объема для разных слов. Можно говорить лишь об общем качестве получаемого "информационного портрета".

А для этого узконаправленная база гораздо лучше, чем общая.

Для эффективной работы метода нужна база минимум 5-10Мб (экспериментальная база - "автомобильной" тематики).

Определение ключевых терминов - интересная тема. Определение их по Зипфу (или другому априорному распределению) из "яблочных" соображений (сердцевина-высокочастотные не нужна, кожура-низкочастотные - тоже) не совсем корректно.

Можно предложить другое соображение - относительную встречаемость (плотность встречаемости слова в выборке/плотность в некоей большой базе).

Подробнее см. http://zoom.galaktika.ru

Этот критерий (чем больше, тем более значим данный термин) дает неплохие результаты.

Правда, он неустойчив для малых частот.

Определение ключевых терминов - интересная тема. Определение их по Зипфу (или другому априорному распределению) из "яблочных" соображений (сердцевина-высокочастотные не нужна, кожура-низкочастотные - тоже) не совсем корректно.

Можно предложить другое соображение - относительную встречаемость (плотность встречаемости слова в выборке/плотность в некоей большой базе).

Подробнее см. http://zoom.galaktika.ru

Этот критерий (чем больше, тем более значим данный термин) дает неплохие результаты.

Правда, он неустойчив для малых частот.

Originally posted by Storm:
наверное, от слова "год"

Точно.

Прошу также учесть, что в моем списке указаны только начальные формы лексем.

Например,

КАЖДЫЙ - КАЖДЫЙ, КАЖДОЕ, КАЖДЫЕ, КАЖДЫМИ, КАЖДОЙ, КАЖДОМ, КАЖДЫМ, КАЖДОГО, КАЖДОМУ, КАЖДЫХ, КАЖДОЮ, КАЖДУЮ, КАЖДАЯ

Зависит от того, сколько нужно стоп-слов.

Абсолютных стоп-слов вне зависимости от контекста практически не существует.

Простейший пример:

"Быть или не быть"

в этом выражении все слова - из списка стоп-слов.

Так что все зависит от задачи: "с ножницами нужно обращаться осторожно".

А к списку из MnogoSearch могу добавить еще немного (можно и поболее):

ВОПРОС

Г

ГЛАВНЫЙ

ГОД

ДОЛЖЕН

ДРУГОЙ

ЗНАТЬ

КАЖДЫЙ

КОТОРЫЙ

ЛЕТ

МЕЖДУ

МНОГИЕ

МНОГО

МОЖНО

НЕСКОЛЬКО

НОВЫЙ

ОТНОШЕНИЕ

ПОЛУЧИТЬ

ПОСЛЕ

ПРОБЛЕМА

ПРОСТОЙ

САМЫЙ

СВОЙ

СЕБЯ

СЕГОДНЯ

СЕЙЧАС

СЛОВО

ЧЕРЕЗ

ЭТОТ

Originally posted by itman:

А потом эскалибур не там продавали. Нужно было задвигать его медикам и химикам.
--------
ASHMANOV: А нечёткий поиск ДОКУМЕНТОВ - серьёзная матлингвистика.
--------
Скорее, мета-лингвистика, с ударами в бубен :-)).

Ну вот, и матлингвистике досталось.

А насчет определения рыночной ниши - Вы правы, есть применения для данной идеи. Сходу могу назвать ведение спецБД, с большим стандартным вводом. Нужно точнее это определить, и найти соответствующих заказчиков.

Originally posted by Ashmanov:
А что за случай - напомните, пожалуйста?
Насчёт тумаков - слишком сильное выражение. Вроде у нас нет такого рефлекса, мы же не родственники слонёнка.

Приношу извинения за неакадемическое выражение. С Вами мы общались на одной из выставок, а весной были у Вас в Рамблере. Детали, я думаю, к данной теме не относятся.

Originally posted by Bamboo:
А Вы правы!!! Лучше вообще ничего не далать! )) Это логика юзера, который думает, что все как-то появляется само собой! Он так бы сам делать не стал. ) Умиляет расчет процентов в вышеприведенной цитате...

Не кипятитьтесь, коллега. Для справки: я, в свое время, тоже показывал Игорю свои наработки. И получил не меньше тумаков от него и его сотрудников. И это не отвратило меня от моих идей. И даже кое-что получается. Я думаю, что и Вы продолжите заниматься, несмотря на нашу критику (поверьте, весьма мягкую). А что касается цифр... так я вижу, на основании своего небольшого опыта (база текстов у нас - 7 млн. документов).

Originally posted by Ashmanov:
А зачем убиваться-то? Какой физический смысл этой функции для пользователя? разве что самому размяться, молодую силушку потешить.

Здесь с уважаемым Игорем Станиславовичем не согласиться трудно. Идея понятна: взять работающий инструмент (AferScan) и приспособить его для решения другой задачи. Полезность же этой конкретной реализации оценена: 2% (С Ашманов, по-моему, <1%). Стоит ли играть на таких малых величинах?

Всего: 166