Морфология, ключевые понятия и семантические связи текста.

2

Developer

3 апреля 2002, 17:28

6907

Здравствуйте все!

Для знакомства мне хотелось бы расспросить знающих людей о применяющихся простых формулах при выявлении семантических связей, не погружаясь в теорию графов и нейронных сетей.

Здесь на форуме уже упоминалась формула Зипфа, которая должна работать на больших числах (в сети, кстати, находится статья с критикой на "нумерологов", использующих эти законы). В январе я провел соответствующие исследования, и пришел к выводу, что этот закон если и работает, то только для определенных областей. Взятые массивы философских текстов - несколько печатных томов одного автора - не показали удовлетворительных результатов. В случае моего исследования количество уникальных слов было около

60,000. Правда без учета морфологии.

Общее число слов более 200,000.

Предлагаемая константа для русского языка при этом работает для очень узкой области, так что о применимости закона для исследуемых текстов не может быть и речи.

Проводил ли кто-нибудь такие же исследования на подобных массивах?

Теперь другая формула: см. н-р, http://dit.perm.ru/eup98/lec3.htm

здесь для поднятия рейтинга значимых слов предлагается расчет инверсной частоты термина i = log (количество документов в базе данных / количество документов с термином i).

Возникает вопрос - что брать за количество документов в случае больших текстов? Абзац? Главу? просто число слов, н-р, 500? Или нечто другое?

Подобные этим вопросы периодически возникают, но не с кем обсудить. Может, здесь на форуме найдутся знающие люди, кто сталкивался на практике или хотя бы в теории с простыми алгоритмами для определения весовых характеристик слов и других проблем, возникающих при разработке поисковых механизмов и выявлении семантических связей в текстах.

AA

70

AlexA

3 апреля 2002, 22:18

#1

Определение ключевых терминов - интересная тема. Определение их по Зипфу (или другому априорному распределению) из "яблочных" соображений (сердцевина-высокочастотные не нужна, кожура-низкочастотные - тоже) не совсем корректно.

Можно предложить другое соображение - относительную встречаемость (плотность встречаемости слова в выборке/плотность в некоей большой базе).

Подробнее см. http://zoom.galaktika.ru

Этот критерий (чем больше, тем более значим данный термин) дает неплохие результаты.

Правда, он неустойчив для малых частот.

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

2

Developer

4 апреля 2002, 15:00

#2

Спасибо, Александр,

С большим интересом познакомился со всеми материалами сайта, хотя из прикладных вещей нашел только один абзац:

Критерием, отвечающим высказанным соображениям могло бы быть отношение относительных частот встречаемости слова в выборке и всей базе. Точнее превышение таким отношением некоторого порога. Но, к сожалению, такой простой и понятный критерий не является устойчивым в случае малых частот.
...
Исходя из вышеизложенного, более удачным критерием будет вероятность выполнения нулевой гипотезы. Нулевая гипотеза [9] состоит в том, что слово в нашей базе распределено абсолютно равномерно. Превышение же частоты встречаемости данного слова в нашей выборке происходит абсолютно случайно. Тогда мы можем посчитать вероятность выполнения такого исхода.

Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость? Мне это нужно для оценки применимости критерия при работе с текстами.

И еще вопрос: нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?

Исследовали ли вы как влияет авторская стилистика на этот критерий?

Прошу прощения, если мои вопросы неточны.

Несколько общих слов о "Галактика-Зум".

Проблема избытка информации действительно уже набила оскомину, и предлагаемое решение уникально. Я лично просто порадовался, что люди работают и находят красивые решения. Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным .

Сергей.

Google: более длинный анкорный Google о дополнительном контенте NetPromoter 2010: доклад Александра

AA

70

AlexA

4 апреля 2002, 18:59

#3

Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Мы понимаем эти термины, как одно и то же.

Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость?

Неустойчивость проявляется заметно при встречаемости термина на уровне 1-25 раз (в выборке или в базе), естественно, с убыванием эффекта с возрастанием частоты.

нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?

Четкой границы для общего объема базы не существует. Критерий работает "индивидуально" для каждого слова (словосочетания). Отсюда следует различные границы требуемого объема для разных слов. Можно говорить лишь об общем качестве получаемого "информационного портрета".

А для этого узконаправленная база гораздо лучше, чем общая.

Для эффективной работы метода нужна база минимум 5-10Мб (экспериментальная база - "автомобильной" тематики).

AA

70

AlexA

4 апреля 2002, 19:06

#4

Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным

Сергей, демо-версия доступна на том же сайте http://zoom.galaktika.ru (кнопочки "Энциклопедия", "Демонстрация"). Демо-база: СМИ за июль-декабрь 1998г.

Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.

298

Григорий Селезнев

4 апреля 2002, 22:55

#5

Originally posted by AlexA:

Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.

Мы понимаем эти термины, как одно и то же.

я могу ошибаться, но относительная частота встречаемости слова - это не вес (не плотность, не матожидание, как прямозависимая), а нечто, похожее на дисперсию ...

AA

70

AlexA

4 апреля 2002, 23:10

#6

Относительная встречаемость слова (словосочетания) может быть определена, как отношение плотностей встречаемости в выборке и базе.

В этом случае, это - разные понятия.

Но чаще под этим термином понимают отношение числа встреч слова к общему числу встреч всех слов (иначе говоря, плотность).

Конечно, в любом случае получаемая случайная величина не аналогична оценке дисперсии какой-либо простой (равномерной, нормальной и т.д.) случайной величины.

Где лучше регистрировать домен Google Updates - апдейты Semonitor 3.0 - программа

D

2

Developer

5 апреля 2002, 11:10

#7

Сергей, демо-версия доступна на том же сайте http://zoom.galaktika.ru (кнопочки "Энциклопедия", "Демонстрация"). Демо-база: СМИ за июль-декабрь 1998г.
Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.

Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...

Попробовал сегодня. Работает быстро, простой и понятный интерфейс. Мне как пользователю понравилось, как разработчик я вижу за этим большой труд.

Упал доход Яндекс кобласит Выплаты за декабрь 2023

AA

70

AlexA

5 апреля 2002, 15:49

#8

Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...

Демо-сайт вместе с обработчиком запросов к базе (около 300 тыс. документов, 1Гб текста) стоит на довольно слабенькой машинке (celeron-433) так что периодически отключается. Хотя с другой стороны, показывает работоспособность технологии на таком недорогом оборудовании.

D

2

Developer

5 апреля 2002, 18:00

#9

Возвращаясь к относительной встречаемости слова:

Понятно, Александр, что на низких частотах наблюдается разного рода неустойчивость. А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?

Нулевая гипотеза здесь должна соблюдаться безукоризненно.

AA

70

AlexA

5 апреля 2002, 19:38

#10

А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?

В этом случае метод работает. И, естественно, лучше, чем для низкочастотных слов. Стоп-словарь не используется.

Честно говоря, с некоторых пор (лет 8 назад) я противник стоп-словаря, как метода, в чем-то волюнтаристского, апеллирующего к абсолютным свойствам языка.

Есть аналог - поиск по точной словоформе (часто русскоязычные поисковики реализуют только поиск целой лексемы).

Хотя, любая реальная система - это набор компромиссов. Чем-то всегда приходится жертвовать ради сроков и производительности.

Вам, Сергей, это тоже известно.

Что делать, чтобы попасть в ответы Google Bard

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи