Developer

Рейтинг
2
Регистрация
03.04.2002

Вопрос Professor'у:

относительная частота встречаемости слова - это не вес (не плотность, не матожидание, как прямозависимая), а нечто, похожее на дисперсию

А как определяются вышеупомянутые характеристики? Насколько я знаком с вопросом, единства в подходах нет.

Буду признателен за формулировки, от них мы сможем исходить в дальнейшем обсуждении.

Заодно проведем ликбез.

А если без шуток, то без определения этих величин мы ведь не сможем продвинуться дальше общих слов.

Сергей.

Вопрос Professor'у:

относительная частота встречаемости слова - это не вес (не плотность, не матожидание, как прямозависимая), а нечто, похожее на дисперсию

А как определяются вышеупомянутые характеристики? Насколько я знаком с вопросом, единства в подходах нет.

Буду признателен за формулировки, от них мы сможем исходить в дальнейшем обсуждении.

Заодно проведем ликбез.

А если без шуток, то без определения этих величин мы ведь не сможем продвинуться дальше общих слов.

Сергей.

Возвращаясь к относительной встречаемости слова:

Понятно, Александр, что на низких частотах наблюдается разного рода неустойчивость. А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?

Нулевая гипотеза здесь должна соблюдаться безукоризненно.

Возвращаясь к относительной встречаемости слова:

Понятно, Александр, что на низких частотах наблюдается разного рода неустойчивость. А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?

Нулевая гипотеза здесь должна соблюдаться безукоризненно.

Сергей, демо-версия доступна на том же сайте http://zoom.galaktika.ru (кнопочки "Энциклопедия", "Демонстрация"). Демо-база: СМИ за июль-декабрь 1998г.
Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.

Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...

Попробовал сегодня. Работает быстро, простой и понятный интерфейс. Мне как пользователю понравилось, как разработчик я вижу за этим большой труд.

Сергей, демо-версия доступна на том же сайте http://zoom.galaktika.ru (кнопочки "Энциклопедия", "Демонстрация"). Демо-база: СМИ за июль-декабрь 1998г.
Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.

Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...

Попробовал сегодня. Работает быстро, простой и понятный интерфейс. Мне как пользователю понравилось, как разработчик я вижу за этим большой труд.

Спасибо, Александр,

С большим интересом познакомился со всеми материалами сайта, хотя из прикладных вещей нашел только один абзац:

Критерием, отвечающим высказанным соображениям могло бы быть отношение относительных частот встречаемости слова в выборке и всей базе. Точнее превышение таким отношением некоторого порога. Но, к сожалению, такой простой и понятный критерий не является устойчивым в случае малых частот.
...
Исходя из вышеизложенного, более удачным критерием будет вероятность выполнения нулевой гипотезы. Нулевая гипотеза [9] состоит в том, что слово в нашей базе распределено абсолютно равномерно. Превышение же частоты встречаемости данного слова в нашей выборке происходит абсолютно случайно. Тогда мы можем посчитать вероятность выполнения такого исхода.

Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость? Мне это нужно для оценки применимости критерия при работе с текстами.

И еще вопрос: нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?

Исследовали ли вы как влияет авторская стилистика на этот критерий?

Прошу прощения, если мои вопросы неточны.

Несколько общих слов о "Галактика-Зум".

Проблема избытка информации действительно уже набила оскомину, и предлагаемое решение уникально. Я лично просто порадовался, что люди работают и находят красивые решения. Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным .

Сергей.

Спасибо, Александр,

С большим интересом познакомился со всеми материалами сайта, хотя из прикладных вещей нашел только один абзац:

Критерием, отвечающим высказанным соображениям могло бы быть отношение относительных частот встречаемости слова в выборке и всей базе. Точнее превышение таким отношением некоторого порога. Но, к сожалению, такой простой и понятный критерий не является устойчивым в случае малых частот.
...
Исходя из вышеизложенного, более удачным критерием будет вероятность выполнения нулевой гипотезы. Нулевая гипотеза [9] состоит в том, что слово в нашей базе распределено абсолютно равномерно. Превышение же частоты встречаемости данного слова в нашей выборке происходит абсолютно случайно. Тогда мы можем посчитать вероятность выполнения такого исхода.

Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость? Мне это нужно для оценки применимости критерия при работе с текстами.

И еще вопрос: нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?

Исследовали ли вы как влияет авторская стилистика на этот критерий?

Прошу прощения, если мои вопросы неточны.

Несколько общих слов о "Галактика-Зум".

Проблема избытка информации действительно уже набила оскомину, и предлагаемое решение уникально. Я лично просто порадовался, что люди работают и находят красивые решения. Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным .

Сергей.

1 23
Всего: 28