Морфология, ключевые понятия и семантические связи текста.

1 234
spark
На сайте с 24.01.2001
Offline
130
#21

Извините за вторжение.

Я с галактикой немного побаловался, получается действительно красиво.

Но у меня вопрос. Возможно ли решение обратной задачи. Мы имеем какое-то там семантическое поле и должны "вычислить" стержень, вокруг которого оно сформировано.

Дело в том, что в естественных текстах как раз вот эти ваши производные слова из информационного портрета присутствуют в нормальных количествах, а искомое слово как правило - только в тайтле в лучших случаях.

На примере. В тексте об устройстве электродвигателя будут якоря, статоры, роторы, звезды и треугольники, а самого "электродвигателя" практически не будет. В большинстве же существующих поисковиков этот самый релевантный с моей точки зрения текст будет оттеснен на бесперспективные позиции каталогами электродвигателей и устройств. Все вышеприведенное не беда, если заранее знаешь, как двигатель устроен и набираешь сразу "статор". Но как быть, если устройства искомого объекта не знаешь? Текст, видимо, как раз для незнающего и предназначался.

Естественно, с двигателями - это метафора

D
На сайте с 03.04.2002
Offline
2
#22

поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

D
На сайте с 03.04.2002
Offline
2
#23

quote:
слова в словосочетании чаще всего стоят рядом?

Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.

Хорошо, а какие интервалы тогда разумно брать? Ведь есть несколько вариантов - в пределах предложения, абзаца, статьи...

Результат, видимо, будет тоже разный.

Вы, видимо, исследовали этот вопрос?

VT
На сайте с 27.01.2001
Offline
130
#24

Originally posted by Developer:
поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы: http://instruct.uwo.ca/gplis/601/week2/table1.html

Способов хранения словаря, то есть лексикона, может быть сколько угодно (он обычно составляет не более нескольких процентов от объема текста), начиная от структур с бинарным поиском и кончая n-граммами.

AA
На сайте с 16.04.2001
Offline
70
#25

Originally posted by spark:
Дело в том, что в естественных текстах как раз вот эти ваши производные слова из информационного портрета присутствуют в нормальных количествах, а искомое слово как правило - только в тайтле в лучших случаях.

На примере. В тексте об устройстве электродвигателя будут якоря, статоры, роторы, звезды и треугольники, а самого "электродвигателя" практически не будет. В большинстве же существующих поисковиков этот самый релевантный с моей точки зрения текст будет оттеснен на бесперспективные позиции каталогами электродвигателей и устройств. Все вышеприведенное не беда, если заранее знаешь, как двигатель устроен и набираешь сразу "статор". Но как быть, если устройства искомого объекта не знаешь? Текст, видимо, как раз для незнающего и предназначался.

Кратко говоря, на это в первую очередь и нацелен наш инстумент. Он помогает найти все ассоциированные с искомым объектом понятия, в т.ч., естественно, его свойства (описание).

С помощью получаемого информационного портрета (решения обратной задачи) легче решить поставленные вами 2 проблемы:

1. задачу оптимальной формулировки запроса к ПС для определения свойств объекта.

Для "электродвигателя" - нужно его описание, в отличие от сферы употребления, которая чаще всего и вылезает.

2. задачу собственно выделения из полученных текстов искомых свойств.

Вот пример:

запрос "гироскоп" (найдено 423 док.)

список слов

ГИРОСКОП

РАКЕТА

КОСМИЧЕСКИЙ

ЛАЗЕРНЫЙ

ПОЛЕТ

РАКЕТНЫЙ

НАВИГАЦИОННЫЙ

БОРТОВОЙ

ПРИБОР

ОРБИТА

ДАТЧИК

ДВИГАТЕЛЬ

САМОКАТ

ГИРОСКОПИЧЕСКИЙ

ОРБИТАЛЬНЫЙ

С уважением, Антонов Александр.
VT
На сайте с 27.01.2001
Offline
130
#26


Вот пример:
запрос "гироскоп" (найдено 423 док.)
список слов
ГИРОСКОП
РАКЕТА
КОСМИЧЕСКИЙ
ЛАЗЕРНЫЙ
ПОЛЕТ
РАКЕТНЫЙ
НАВИГАЦИОННЫЙ
БОРТОВОЙ
ПРИБОР
ОРБИТА
ДАТЧИК
ДВИГАТЕЛЬ
САМОКАТ
ГИРОСКОПИЧЕСКИЙ
ОРБИТАЛЬНЫЙ

Пример, конечно, понятный. Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:

Гироскоп

ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?

AA
На сайте с 16.04.2001
Offline
70
#27

в продолжение ответа spark.

Другие примеры показаны в нашей " энциклопедии ".

Конечно, все зависит от базы (массива текстов). Здесь - СМИ, и лучше всего в ней видны "медицинские" объекты:

Педиатр, Наркоз, Виагра, Бронхит и т.д.

D
На сайте с 03.04.2002
Offline
2
#28

Хорошо, Вячеслав, мне это понятно:

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы

Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

AA
На сайте с 16.04.2001
Offline
70
#29

Originally posted by Vyacheslav Tikhonov:
Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:
Гироскоп
ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?

Кое-что из этого может: ДВУХСТЕПЕННЫЙ ГИРОСКОП, волновой гироскоп (двухсловные словосочетания). Остальное - тоже, но пока руки не дошли до конца довести. Проблема омографии чуть более болезненна.

Работаем...

А вот если бы система позволяла давать полное описание в виде связной статьи (в общем случае, конечно), ходить бы тогда нам в нобелевских лауреатах.

Увы, это - не ближайшая перспектива.

AA
На сайте с 16.04.2001
Offline
70
#30

Originally posted by Developer:
Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Это не так уж важно, на мой взгляд.

Расходы на хранение в простейшей реляционной таблице не так велики, а написать такую таблицу в файловой системе относительно несложно. Так что, зависит от ваших предпочтений. Если сделали в БД, так и оставайтесь там, выгоды от других решений не перевесят вложенный труд.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий