Морфология, ключевые понятия и семантические связи текста.

Developer · 2026-07-01T11:07:43.0000000Z

Здравствуйте все! Для знакомства мне хотелось бы расспросить знающих людей о применяющихся простых формулах при выявлении семантических связей, не погружаясь в теорию графов и нейронных сетей. Здесь на форуме уже упоминалась формула Зипфа, которая должна работать на больших числах (в сети, кстати, находится статья с критикой на "нумерологов", использующих эти законы). В январе я провел соответствующие исследования, и пришел к выводу, что этот закон если и работает, то только для определенных областей. Взятые массивы философских текстов - несколько печатных томов одного автора - не показали удовлетворительных результатов. В случае моего исследования количество уникальных слов было около 60,000. Правда без учета морфологии. Общее число слов более 200,000. Предлагаемая константа для русского языка при этом работает для очень узкой области, так что о применимости закона для исследуемых текстов не может быть и речи. Проводил ли кто-нибудь такие же исследования на подобных массивах? Теперь другая формула: см. н-р, http://dit.perm.ru/eup98/lec3.htm здесь для поднятия рейтинга значимых слов предлагается расчет инверсной частоты термина i = log (количество документов в базе данных / количество документов с термином i). Возникает вопрос - что брать за количество документов в случае больших текстов? Абзац? Главу? просто число слов, н-р, 500? Или нечто другое? Подобные этим вопросы периодически возникают, но не с кем обсудить. Может, здесь на форуме найдутся знающие люди, кто сталкивался на практике или хотя бы в теории с простыми алгоритмами для определения весовых характеристик слов и других проблем, возникающих при разработке поисковых механизмов и выявлении семантических связей в текстах.

D

2

Developer

9 апреля 2002, 16:19

#31

Александр,

Какие интервалы разумно брать для вычисления объектных связей между словами? В пределах предложения, абзаца, статьи... Можно, конечно, вводить коэффициенты удаленности слова, не порекомендуете ли что-нибудь из своего опыта?

Сергей

AA

70

AlexA

10 апреля 2002, 14:38

#32

Originally posted by Developer:
Какие интервалы разумно брать для вычисления объектных связей между словами? В пределах предложения, абзаца, статьи...

Попадалось число 12, как интервал слов, связанных с данным. Конечно, это не включает подчиненные предложения и анафоры.

С уважением, Антонов Александр.

VT

130

Vyacheslav Tikhonov

10 апреля 2002, 16:44

#33

Originally posted by Developer:

Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Я полагаю, наиболее оптимальный вариант самому сделать СУБД для работы индексами в инвертированных файлах (на Си или C++). При этом я, к примеру, для экономии ресурсов использую несколько типов индексов - временные и основные.

А реляционная база загнется уже на объеме в несколько сотен миллионов записей.

D

2

Developer

11 апреля 2002, 11:37

#34

Спасибо всем за поддержку начатой темы.

Хотелось бы просветиться у знающих людей,

не знает ли кто, где в Интернете можно достать исходники классов (С++ или др.) либо работающие модули для морфологического разбора и обратной задачи лемматизации?

Я дважды за последние полтора года делал попытку найти, но все, что находил, либо недоработано (на уровне студенческого диплома), либо с ограниченной demo функциональностью. Вроде Андрей (keva) грозился выложить исходники, но до сих пор не решился на этот самоотверженный шаг.

Помогите кто чем может (можно частным образом). Мой проект некоммерческий.

Сергей.

AA

70

AlexA

11 апреля 2002, 14:44

#35

Сергей, а можете рассказать чуть подробнее о проекте?

D

2

Developer

11 апреля 2002, 15:45

#36

Основная цель проекта - создать инструмент, позволяющий пользователю находить нужную информацию в библиотеке тематически связанных текстов. (Нечто подобное Analyst, только бесплатное . Ну, и конечно, с некоторыми отличиями в функциональности. В частности, вывод результата запроса из программы в Word и др. ...

Рабочей команды у меня нет, т.к. найти энтузиастов - единомышленников непросто, да и сотрудничать в off-line трудно, поэтому делаю все во внерабочее время самостоятельно.

Главное, меня увлекает сам творческий процесс работы со словом, с большими объемами связанной информации, это постоянно двигает вперед.

Сам проект родился в моей голове лет 7 назад и постепенно развивался по мере роста знаний от уровня досовского приложения на TurboPascal'е до обычного Windows приложения на VС++ с планируемым выходом в Интернет в самом ближайшем будущем, как только будут отработаны детали реализации.

Что еще о проекте? Открыт к сотрудничеству.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

2

Developer

15 апреля 2002, 11:27

#37

Судя по молчанию пора закрывать тему.

Александр, спасибо за подсказку.

Я кое-какие формулы вывел на основании предложенного принципа и на выходных реализовал. Результат хороший даже без учета морфологии, к тому же получился быстрый алгоритм расчета.

Тестирование на полмегабайтном тексте: Коэффициенты устойчивых объектных связей "всплывают" наверх. Правда при этом коэффициенты связи между словами, имеющими большой шум (типа союзов и предлогов) тоже оказывается достаточно большим, но с ростом массива они неизбежно будут уменьшаться примерно как 1/n.

Главное, формулы позволяют применить свойство аддитивности текста, это означает, что для группы текстов можно применить простую расчетную формулу суммарного коэффициента связи между двумя словами, что решает много проблем при пополнении массива текстов.

Так что если кто еще думает на эту же тему, берите на вооружение обсуждавшийся в теме подход, формулы очень просты в выводе.

Меня можно застать в частном порядке по

developer@s-mail.com

либо

s_ilyin@mail.ru

Пишите, обсудим.

Сергей.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

15 апреля 2002, 20:04

#38

Сергей, надеюсь, скоро сможем посмотреть на ваши результаты. Будут еще вопросы - постараюсь ответить.

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Что делать, если ваша email-рассылка попала в спам