Морфология, ключевые понятия и семантические связи текста.

123 4
D
На сайте с 03.04.2002
Offline
2
6907

Здравствуйте все!

Для знакомства мне хотелось бы расспросить знающих людей о применяющихся простых формулах при выявлении семантических связей, не погружаясь в теорию графов и нейронных сетей.

Здесь на форуме уже упоминалась формула Зипфа, которая должна работать на больших числах (в сети, кстати, находится статья с критикой на "нумерологов", использующих эти законы). В январе я провел соответствующие исследования, и пришел к выводу, что этот закон если и работает, то только для определенных областей. Взятые массивы философских текстов - несколько печатных томов одного автора - не показали удовлетворительных результатов. В случае моего исследования количество уникальных слов было около

60,000. Правда без учета морфологии.

Общее число слов более 200,000.

Предлагаемая константа для русского языка при этом работает для очень узкой области, так что о применимости закона для исследуемых текстов не может быть и речи.

Проводил ли кто-нибудь такие же исследования на подобных массивах?

Теперь другая формула: см. н-р, http://dit.perm.ru/eup98/lec3.htm

здесь для поднятия рейтинга значимых слов предлагается расчет инверсной частоты термина i = log (количество документов в базе данных / количество документов с термином i).

Возникает вопрос - что брать за количество документов в случае больших текстов? Абзац? Главу? просто число слов, н-р, 500? Или нечто другое?

Подобные этим вопросы периодически возникают, но не с кем обсудить. Может, здесь на форуме найдутся знающие люди, кто сталкивался на практике или хотя бы в теории с простыми алгоритмами для определения весовых характеристик слов и других проблем, возникающих при разработке поисковых механизмов и выявлении семантических связей в текстах.

AA
На сайте с 16.04.2001
Offline
70
#1

Определение ключевых терминов - интересная тема. Определение их по Зипфу (или другому априорному распределению) из "яблочных" соображений (сердцевина-высокочастотные не нужна, кожура-низкочастотные - тоже) не совсем корректно.

Можно предложить другое соображение - относительную встречаемость (плотность встречаемости слова в выборке/плотность в некоей большой базе).

Подробнее см. http://zoom.galaktika.ru

Этот критерий (чем больше, тем более значим данный термин) дает неплохие результаты.

Правда, он неустойчив для малых частот.

С уважением, Антонов Александр.
D
На сайте с 03.04.2002
Offline
2
#2

Спасибо, Александр,

С большим интересом познакомился со всеми материалами сайта, хотя из прикладных вещей нашел только один абзац:

Критерием, отвечающим высказанным соображениям могло бы быть отношение относительных частот встречаемости слова в выборке и всей базе. Точнее превышение таким отношением некоторого порога. Но, к сожалению, такой простой и понятный критерий не является устойчивым в случае малых частот.
...
Исходя из вышеизложенного, более удачным критерием будет вероятность выполнения нулевой гипотезы. Нулевая гипотеза [9] состоит в том, что слово в нашей базе распределено абсолютно равномерно. Превышение же частоты встречаемости данного слова в нашей выборке происходит абсолютно случайно. Тогда мы можем посчитать вероятность выполнения такого исхода.

Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость? Мне это нужно для оценки применимости критерия при работе с текстами.

И еще вопрос: нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?

Исследовали ли вы как влияет авторская стилистика на этот критерий?

Прошу прощения, если мои вопросы неточны.

Несколько общих слов о "Галактика-Зум".

Проблема избытка информации действительно уже набила оскомину, и предлагаемое решение уникально. Я лично просто порадовался, что люди работают и находят красивые решения. Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным .

Сергей.

AA
На сайте с 16.04.2001
Offline
70
#3


Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Мы понимаем эти термины, как одно и то же.


Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость?

Неустойчивость проявляется заметно при встречаемости термина на уровне 1-25 раз (в выборке или в базе), естественно, с убыванием эффекта с возрастанием частоты.


нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?

Четкой границы для общего объема базы не существует. Критерий работает "индивидуально" для каждого слова (словосочетания). Отсюда следует различные границы требуемого объема для разных слов. Можно говорить лишь об общем качестве получаемого "информационного портрета".

А для этого узконаправленная база гораздо лучше, чем общая.

Для эффективной работы метода нужна база минимум 5-10Мб (экспериментальная база - "автомобильной" тематики).

AA
На сайте с 16.04.2001
Offline
70
#4


Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным

Сергей, демо-версия доступна на том же сайте http://zoom.galaktika.ru (кнопочки "Энциклопедия", "Демонстрация"). Демо-база: СМИ за июль-декабрь 1998г.

Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#5

Originally posted by AlexA:

Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Мы понимаем эти термины, как одно и то же.

я могу ошибаться, но относительная частота встречаемости слова - это не вес (не плотность, не матожидание, как прямозависимая), а нечто, похожее на дисперсию ...

AA
На сайте с 16.04.2001
Offline
70
#6

Относительная встречаемость слова (словосочетания) может быть определена, как отношение плотностей встречаемости в выборке и базе.

В этом случае, это - разные понятия.

Но чаще под этим термином понимают отношение числа встреч слова к общему числу встреч всех слов (иначе говоря, плотность).

Конечно, в любом случае получаемая случайная величина не аналогична оценке дисперсии какой-либо простой (равномерной, нормальной и т.д.) случайной величины.

D
На сайте с 03.04.2002
Offline
2
#7

Сергей, демо-версия доступна на том же сайте http://zoom.galaktika.ru (кнопочки "Энциклопедия", "Демонстрация"). Демо-база: СМИ за июль-декабрь 1998г.
Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.

Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...

Попробовал сегодня. Работает быстро, простой и понятный интерфейс. Мне как пользователю понравилось, как разработчик я вижу за этим большой труд.

AA
На сайте с 16.04.2001
Offline
70
#8


Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...

Демо-сайт вместе с обработчиком запросов к базе (около 300 тыс. документов, 1Гб текста) стоит на довольно слабенькой машинке (celeron-433) так что периодически отключается. Хотя с другой стороны, показывает работоспособность технологии на таком недорогом оборудовании.

D
На сайте с 03.04.2002
Offline
2
#9

Возвращаясь к относительной встречаемости слова:

Понятно, Александр, что на низких частотах наблюдается разного рода неустойчивость. А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?

Нулевая гипотеза здесь должна соблюдаться безукоризненно.

AA
На сайте с 16.04.2001
Offline
70
#10


А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?

В этом случае метод работает. И, естественно, лучше, чем для низкочастотных слов. Стоп-словарь не используется.

Честно говоря, с некоторых пор (лет 8 назад) я противник стоп-словаря, как метода, в чем-то волюнтаристского, апеллирующего к абсолютным свойствам языка.

Есть аналог - поиск по точной словоформе (часто русскоязычные поисковики реализуют только поиск целой лексемы).

Хотя, любая реальная система - это набор компромиссов. Чем-то всегда приходится жертвовать ради сроков и производительности.

Вам, Сергей, это тоже известно.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий