Что такое семантические связи? - Сервисы и программы для работы с SE

Морфология, ключевые понятия и семантические связи текста.

Developer · 2026-07-01T11:07:43.0000000Z

Здравствуйте все! Для знакомства мне хотелось бы расспросить знающих людей о применяющихся простых формулах при выявлении семантических связей, не погружаясь в теорию графов и нейронных сетей. Здесь на форуме уже упоминалась формула Зипфа, которая должна работать на больших числах (в сети, кстати, находится статья с критикой на "нумерологов", использующих эти законы). В январе я провел соответствующие исследования, и пришел к выводу, что этот закон если и работает, то только для определенных областей. Взятые массивы философских текстов - несколько печатных томов одного автора - не показали удовлетворительных результатов. В случае моего исследования количество уникальных слов было около 60,000. Правда без учета морфологии. Общее число слов более 200,000. Предлагаемая константа для русского языка при этом работает для очень узкой области, так что о применимости закона для исследуемых текстов не может быть и речи. Проводил ли кто-нибудь такие же исследования на подобных массивах? Теперь другая формула: см. н-р, http://dit.perm.ru/eup98/lec3.htm здесь для поднятия рейтинга значимых слов предлагается расчет инверсной частоты термина i = log (количество документов в базе данных / количество документов с термином i). Возникает вопрос - что брать за количество документов в случае больших текстов? Абзац? Главу? просто число слов, н-р, 500? Или нечто другое? Подобные этим вопросы периодически возникают, но не с кем обсудить. Может, здесь на форуме найдутся знающие люди, кто сталкивался на практике или хотя бы в теории с простыми алгоритмами для определения весовых характеристик слов и других проблем, возникающих при разработке поисковых механизмов и выявлении семантических связей в текстах.

DE

5

Dmitry Ermolaev

6 апреля 2002, 02:13

#11

А где семантические связи-то? что-то я не понял...

выдает доки так же как и любой поисковик с обработкой морфологии.

для примера смотри мой сайт - там моя Система только смыслы ищет

Если уж есть запрос "пожар в Ливане", так его и выдаст, а не кучу предлогов "в".

Яндекс кобласит Минфин США разом запретил Google Updates - апдейты

AA

70

AlexA

6 апреля 2002, 15:47

#12

А где семантические связи-то? что-то я не понял...
выдает доки так же как и любой поисковик с обработкой морфологии.
для примера смотри мой сайт - там моя Система только смыслы ищет
Если уж есть запрос "пожар в Ливане", так его и выдаст, а не кучу предлогов "в".

Кроме документов (найденных, как в обычной поисковой системе), мы выдаем т.н. "Инфопортрет" - список слов и словосочетаний, наиболее значимых (в смысле, указанном выше) для данной выборки.

Вы, вероятно, не обратили на него внимания.

Этот список можно понимать, как семантические связи (хотя я этот термин не люблю - до семантики из современных систем ни одна не добралась).

И в этом списке нет никаких предлогов "в", хотя могут и появиться в какой-нибудь специфической базе и запросе (мне пока не попадались таковые).

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

2

Developer

6 апреля 2002, 15:59

#13

Вопрос Professor'у:

относительная частота встречаемости слова - это не вес (не плотность, не матожидание, как прямозависимая), а нечто, похожее на дисперсию

А как определяются вышеупомянутые характеристики? Насколько я знаком с вопросом, единства в подходах нет.

Буду признателен за формулировки, от них мы сможем исходить в дальнейшем обсуждении.

Заодно проведем ликбез.

А если без шуток, то без определения этих величин мы ведь не сможем продвинуться дальше общих слов.

Сергей.

Что такое коммерческие запросы? Яндекс кобласит Новый сайт и Яндекс.

AA

70

AlexA

6 апреля 2002, 16:03

#14

Ответ Дмитрию.

Информацию об этих связях система берет из найденных документов (см. выше).

Чем больше информации (зависит от количества документов, но прямой зависимости нет) о данном объекте (определенном в запросе), тем лучше и точнее Инфопортрет.

Например, на ваш, Дмитрий, запрос "пожар в Ливане" найдено 12 документов. Немного, конечно, но вот первые слова Инфопортрета:

пассажир, катастрофа, судно, взрыв, террорист, сирия, судный, море, экипаж, лайнер, палестина.

Мне кажется, среди них есть слова, имеющие отношение к "пожару в Ливане" (несмотря на ПОЛНОЕ ОТСУТСТВИЕ данного словосочетания в базе). Чем не семантическая связь? Или я ошибаюсь?

[This message has been edited by AlexA (edited 06-04-2002).]

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

2

Developer

6 апреля 2002, 17:07

#15

Александр, возвращаясь к теме морфологии.

В какой-то момент я заметил, что учет морфологии незначительно влияет на алгоритм нахождения совместной встречаемости слов (вернее, словоформ). Т.е. для определенного круга исследовательских или технических задач можно ее не учитывать (например, выявлять семантически близкие слова без учета морфологии для построения индексных файлов; это частично оправдывается тем, что слова чаще всего сочетаются только в определенных формах друг с другом). Учет морфологии оказывается в этом случае всего лишь удобным интерфейсом для пользователя, мало влияющим на статистику совместной встречаемости слов.

С другой стороны, именно учет морфологии дает ту самую весомую статистику на малых частотах (сумма частот по всем формам существительных)

Моего опыта не хватает делать больших заключений, но возможно, вам приходилось сталкиваться с этим. Мой вопрос формулируется так: Насколько сильно влияние учета морфологии на информационный портрет?

Вернее влияние даже не на сам объект, а на выявление его окружения? Тестировали ли вы свою систему без морфологического модуля? Насколько устойчивой была картина?

Т.е. я могу предположить, что результат должен быть примерно тем же, что и с учетом морфологии, только найденные слова будут приведены не в основной форме. Так ли это?

Сергей.

AA

70

AlexA

6 апреля 2002, 18:37

#16

Сергей, по моему опыту, в общем, вы правы.

Согласно законам статистики, слабые связи можно уловить только при большой выборке. Так что чем больше слово встречается (в т.ч. и с учетом словоформ), тем лучше результат анализа.

Но есть несколько нюансов. К примеру,

- богатая лексема (например, глагол) сильно забивает информационный портрет своими словоформами.

- при сведении лексем возникают трудности омографии (например, ОПЕК-опека, стекло-стечь, Буре-буря и т.д.).

- слова действительно связываются в определенных словоформах, но нужно различать словосочетания ("чистый воздух", "министерство иностранных дел") от объектных связей (правительство - президент - путин - касьянов).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

6 апреля 2002, 19:21

#17

Вот небольшой примерчик.

Запрос "Поиск работы" (5440 док. из базы 5,5 млн. док.)

Без морфологии:

ВАКАНСИИ

ТРУДОУСТРОЙСТВУ

ПОИСКЕ

ТРУДОУСТРОЙСТВО

РАБОТОДАТЕЛЯ

ПОИСК

УСТРОИТЬСЯ

РАБОТОДАТЕЛИ

РАБОТОДАТЕЛЬ

КВАЛИФИКАЦИИ

ПОИСКОМ

ВАКАНСИЯХ

ТРУДОУСТРОЙСТВОМ

РАБОТОДАТЕЛЮ

С учетом морфологии:

ЗАНЯТОСТЬ

ТРУДОУСТРОЙСТВО

БЕЗРАБОТИЦА

ВАКАНСИЯ

РАБОТОДАТЕЛЬ

ПОСОБИЕ

РЕЗЮМЕ

БЕЗРАБОТНЫЙ

СПЕЦИАЛЬНОСТЬ

БЕЗРАБОТНАЯ

ТРУДОВОЙ

ВЫПУСКНИК

СОБЕСЕДОВАНИЕ

[This message has been edited by AlexA (edited 06-04-2002).]

Отчет о конференции User Optimization 2010: круглый стол Optimization 2010: круглый стол

D

2

Developer

7 апреля 2002, 19:00

#18

К слову об объектных связях:

слова действительно связываются в определенных словоформах, но нужно различать словосочетания ("чистый воздух", "министерство иностранных дел") от объектных связей (правительство - президент - путин - касьянов).

Алгоритмы по нахождению словосочетаний применимы и для выявления объектных связей между понятиями; например, если мы рассмотрим текст как состоящий не из словоформ (или слов, при учете морфологии), а из устойчивых словосочетаний, вернее понятий, состоящих из одного, двух или больше словоформ. Но для этого второго шага уже нужно иметь тематический тезаурус, причем хороший полный тезаурус. Без его использования я пока не вижу, как можно эффективно отделить поиск словосочетания от поиска объектной связи в случае простых слов (как в приведенном примере: "правительство - президент - путин - касьянов"). Заданием фильтра на поиск только связей между существительными? Или заданием поискового интервала между словами из предположения, что слова в словосочетании чаще всего стоят рядом?

С какой БД вы работаете? MS SQL Server, судя по тому, что предлагаете решения для Windows? Для меня остается загадкой как вы добились высокой производительности на миллионах записей. По видимому, вам приходится рассчитывать объектные связи и сохранять их как индексы во время заполнения БД? Во всяком случае я принял такое решение.

И еще, Александр, вопрос - почему нельзя объектную связь назвать семантической, т.е. смысловой? Потому, что эта связь на самом деле статистическая или из других соображений?

Сергей.

Google: более длинный анкорный Объектный ответ в поиске Карго-культ кластеризации по ТОПу

AA

70

AlexA

8 апреля 2002, 15:07

#19

для этого второго шага уже нужно иметь тематический тезаурус, причем хороший полный тезаурус.

Да, тезаурус можно использовать в этих целях. Однако сделать достаточно полный тезаурус очень непросто (по-моему, даже невозможно). Реальный тезаурус прекрасно работает на примерах, для которых он создавался. Но шаг в сторону... Из реально работающих доступных тезаурусов я знаю примененный в профессиональном поиске библиотеки Паблик.Ру (есть бесплатная часть).

слова в словосочетании чаще всего стоят рядом?

Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

8 апреля 2002, 15:20

#20

С какой БД вы работаете? MS SQL Server, судя по тому, что предлагаете решения для Windows?

Насколько мне известно, поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

вам приходится рассчитывать объектные связи и сохранять их как индексы во время заполнения БД?

Точно так.

почему нельзя объектную связь назвать семантической, т.е. смысловой?

Очень даже можно так и называть (большинство так и делает). Но мне лично кажется, что термин "семантический" здесь неточен. Здесь есть связи объект-субъектные, ролевые, просто спутниковые и т.д. Все-таки, до смысла нам далеко. Вот весь информационный портрет смысл имеет, а каждая составляющая вряд ли.

Курс биткоина превысил $50 тысяч

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Морфология, ключевые понятия и семантические связи текста.