Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные table1 - Сервисы и программы для работы с SE

Морфология, ключевые понятия и семантические связи текста.

Developer · 2026-07-01T11:07:43.0000000Z

Здравствуйте все! Для знакомства мне хотелось бы расспросить знающих людей о применяющихся простых формулах при выявлении семантических связей, не погружаясь в теорию графов и нейронных сетей. Здесь на форуме уже упоминалась формула Зипфа, которая должна работать на больших числах (в сети, кстати, находится статья с критикой на "нумерологов", использующих эти законы). В январе я провел соответствующие исследования, и пришел к выводу, что этот закон если и работает, то только для определенных областей. Взятые массивы философских текстов - несколько печатных томов одного автора - не показали удовлетворительных результатов. В случае моего исследования количество уникальных слов было около 60,000. Правда без учета морфологии. Общее число слов более 200,000. Предлагаемая константа для русского языка при этом работает для очень узкой области, так что о применимости закона для исследуемых текстов не может быть и речи. Проводил ли кто-нибудь такие же исследования на подобных массивах? Теперь другая формула: см. н-р, http://dit.perm.ru/eup98/lec3.htm здесь для поднятия рейтинга значимых слов предлагается расчет инверсной частоты термина i = log (количество документов в базе данных / количество документов с термином i). Возникает вопрос - что брать за количество документов в случае больших текстов? Абзац? Главу? просто число слов, н-р, 500? Или нечто другое? Подобные этим вопросы периодически возникают, но не с кем обсудить. Может, здесь на форуме найдутся знающие люди, кто сталкивался на практике или хотя бы в теории с простыми алгоритмами для определения весовых характеристик слов и других проблем, возникающих при разработке поисковых механизмов и выявлении семантических связей в текстах.

130

spark

8 апреля 2002, 18:53

#21

Извините за вторжение.

Я с галактикой немного побаловался, получается действительно красиво.

Но у меня вопрос. Возможно ли решение обратной задачи. Мы имеем какое-то там семантическое поле и должны "вычислить" стержень, вокруг которого оно сформировано.

Дело в том, что в естественных текстах как раз вот эти ваши производные слова из информационного портрета присутствуют в нормальных количествах, а искомое слово как правило - только в тайтле в лучших случаях.

На примере. В тексте об устройстве электродвигателя будут якоря, статоры, роторы, звезды и треугольники, а самого "электродвигателя" практически не будет. В большинстве же существующих поисковиков этот самый релевантный с моей точки зрения текст будет оттеснен на бесперспективные позиции каталогами электродвигателей и устройств. Все вышеприведенное не беда, если заранее знаешь, как двигатель устроен и набираешь сразу "статор". Но как быть, если устройства искомого объекта не знаешь? Текст, видимо, как раз для незнающего и предназначался.

Естественно, с двигателями - это метафора

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

2

Developer

8 апреля 2002, 18:53

#22

поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

D

2

Developer

8 апреля 2002, 18:58

#23

quote:
слова в словосочетании чаще всего стоят рядом?

Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.

Хорошо, а какие интервалы тогда разумно брать? Ведь есть несколько вариантов - в пределах предложения, абзаца, статьи...

Результат, видимо, будет тоже разный.

Вы, видимо, исследовали этот вопрос?

VT

130

Vyacheslav Tikhonov

8 апреля 2002, 19:20

#24

Originally posted by Developer:

поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы: http://instruct.uwo.ca/gplis/601/week2/table1.html

Способов хранения словаря, то есть лексикона, может быть сколько угодно (он обычно составляет не более нескольких процентов от объема текста), начиная от структур с бинарным поиском и кончая n-граммами.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

8 апреля 2002, 19:32

#25

Originally posted by spark:
Дело в том, что в естественных текстах как раз вот эти ваши производные слова из информационного портрета присутствуют в нормальных количествах, а искомое слово как правило - только в тайтле в лучших случаях.

На примере. В тексте об устройстве электродвигателя будут якоря, статоры, роторы, звезды и треугольники, а самого "электродвигателя" практически не будет. В большинстве же существующих поисковиков этот самый релевантный с моей точки зрения текст будет оттеснен на бесперспективные позиции каталогами электродвигателей и устройств. Все вышеприведенное не беда, если заранее знаешь, как двигатель устроен и набираешь сразу "статор". Но как быть, если устройства искомого объекта не знаешь? Текст, видимо, как раз для незнающего и предназначался.

Кратко говоря, на это в первую очередь и нацелен наш инстумент. Он помогает найти все ассоциированные с искомым объектом понятия, в т.ч., естественно, его свойства (описание).

С помощью получаемого информационного портрета (решения обратной задачи) легче решить поставленные вами 2 проблемы:

1. задачу оптимальной формулировки запроса к ПС для определения свойств объекта.

Для "электродвигателя" - нужно его описание, в отличие от сферы употребления, которая чаще всего и вылезает.

2. задачу собственно выделения из полученных текстов искомых свойств.

Вот пример:

запрос "гироскоп" (найдено 423 док.)

список слов

ГИРОСКОП

РАКЕТА

КОСМИЧЕСКИЙ

ЛАЗЕРНЫЙ

ПОЛЕТ

РАКЕТНЫЙ

НАВИГАЦИОННЫЙ

БОРТОВОЙ

ПРИБОР

ОРБИТА

ДАТЧИК

ДВИГАТЕЛЬ

САМОКАТ

ГИРОСКОПИЧЕСКИЙ

ОРБИТАЛЬНЫЙ

С уважением, Антонов Александр.

Как работают полнотекстовые подсказки Платон Щукин о хороших Нужно больше ключевых слов,

VT

130

Vyacheslav Tikhonov

8 апреля 2002, 19:42

#26

Вот пример:
запрос "гироскоп" (найдено 423 док.)
список слов
ГИРОСКОП
РАКЕТА
КОСМИЧЕСКИЙ
ЛАЗЕРНЫЙ
ПОЛЕТ
РАКЕТНЫЙ
НАВИГАЦИОННЫЙ
БОРТОВОЙ
ПРИБОР
ОРБИТА
ДАТЧИК
ДВИГАТЕЛЬ
САМОКАТ
ГИРОСКОПИЧЕСКИЙ
ОРБИТАЛЬНЫЙ

Пример, конечно, понятный. Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:

Гироскоп

ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?

AA

70

AlexA

8 апреля 2002, 19:44

#27

в продолжение ответа spark.

Другие примеры показаны в нашей " энциклопедии ".

Конечно, все зависит от базы (массива текстов). Здесь - СМИ, и лучше всего в ней видны "медицинские" объекты:

Педиатр, Наркоз, Виагра, Бронхит и т.д.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

D

2

Developer

8 апреля 2002, 20:01

#28

Хорошо, Вячеслав, мне это понятно:

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы

Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

AA

70

AlexA

8 апреля 2002, 20:03

#29

Originally posted by Vyacheslav Tikhonov:
Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:
Гироскоп
ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?

Кое-что из этого может: ДВУХСТЕПЕННЫЙ ГИРОСКОП, волновой гироскоп (двухсловные словосочетания). Остальное - тоже, но пока руки не дошли до конца довести. Проблема омографии чуть более болезненна.

Работаем...

А вот если бы система позволяла давать полное описание в виде связной статьи (в общем случае, конечно), ходить бы тогда нам в нобелевских лауреатах.

Увы, это - не ближайшая перспектива.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

9 апреля 2002, 14:51

#30

Originally posted by Developer:
Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Это не так уж важно, на мой взгляд.

Расходы на хранение в простейшей реляционной таблице не так велики, а написать такую таблицу в файловой системе относительно несложно. Так что, зависит от ваших предпочтений. Если сделали в БД, так и оставайтесь там, выгоды от других решений не перевесят вложенный труд.

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Морфология, ключевые понятия и семантические связи текста.