Морфология, ключевые понятия и семантические связи текста.

123 4
DE
На сайте с 05.04.2002
Offline
5
#11

А где семантические связи-то? что-то я не понял...

выдает доки так же как и любой поисковик с обработкой морфологии.

для примера смотри мой сайт - там моя Система только смыслы ищет

Если уж есть запрос "пожар в Ливане", так его и выдаст, а не кучу предлогов "в".

AA
На сайте с 16.04.2001
Offline
70
#12

А где семантические связи-то? что-то я не понял...
выдает доки так же как и любой поисковик с обработкой морфологии.
для примера смотри мой сайт - там моя Система только смыслы ищет
Если уж есть запрос "пожар в Ливане", так его и выдаст, а не кучу предлогов "в".

Кроме документов (найденных, как в обычной поисковой системе), мы выдаем т.н. "Инфопортрет" - список слов и словосочетаний, наиболее значимых (в смысле, указанном выше) для данной выборки.

Вы, вероятно, не обратили на него внимания.

Этот список можно понимать, как семантические связи (хотя я этот термин не люблю - до семантики из современных систем ни одна не добралась).

И в этом списке нет никаких предлогов "в", хотя могут и появиться в какой-нибудь специфической базе и запросе (мне пока не попадались таковые).

С уважением, Антонов Александр.
D
На сайте с 03.04.2002
Offline
2
#13

Вопрос Professor'у:

относительная частота встречаемости слова - это не вес (не плотность, не матожидание, как прямозависимая), а нечто, похожее на дисперсию

А как определяются вышеупомянутые характеристики? Насколько я знаком с вопросом, единства в подходах нет.

Буду признателен за формулировки, от них мы сможем исходить в дальнейшем обсуждении.

Заодно проведем ликбез.

А если без шуток, то без определения этих величин мы ведь не сможем продвинуться дальше общих слов.

Сергей.

AA
На сайте с 16.04.2001
Offline
70
#14

Ответ Дмитрию.

Информацию об этих связях система берет из найденных документов (см. выше).

Чем больше информации (зависит от количества документов, но прямой зависимости нет) о данном объекте (определенном в запросе), тем лучше и точнее Инфопортрет.

Например, на ваш, Дмитрий, запрос "пожар в Ливане" найдено 12 документов. Немного, конечно, но вот первые слова Инфопортрета:

пассажир, катастрофа, судно, взрыв, террорист, сирия, судный, море, экипаж, лайнер, палестина.

Мне кажется, среди них есть слова, имеющие отношение к "пожару в Ливане" (несмотря на ПОЛНОЕ ОТСУТСТВИЕ данного словосочетания в базе). Чем не семантическая связь? Или я ошибаюсь?

[This message has been edited by AlexA (edited 06-04-2002).]

[This message has been edited by AlexA (edited 06-04-2002).]

D
На сайте с 03.04.2002
Offline
2
#15

Александр, возвращаясь к теме морфологии.

В какой-то момент я заметил, что учет морфологии незначительно влияет на алгоритм нахождения совместной встречаемости слов (вернее, словоформ). Т.е. для определенного круга исследовательских или технических задач можно ее не учитывать (например, выявлять семантически близкие слова без учета морфологии для построения индексных файлов; это частично оправдывается тем, что слова чаще всего сочетаются только в определенных формах друг с другом). Учет морфологии оказывается в этом случае всего лишь удобным интерфейсом для пользователя, мало влияющим на статистику совместной встречаемости слов.

С другой стороны, именно учет морфологии дает ту самую весомую статистику на малых частотах (сумма частот по всем формам существительных)

Моего опыта не хватает делать больших заключений, но возможно, вам приходилось сталкиваться с этим. Мой вопрос формулируется так: Насколько сильно влияние учета морфологии на информационный портрет?

Вернее влияние даже не на сам объект, а на выявление его окружения? Тестировали ли вы свою систему без морфологического модуля? Насколько устойчивой была картина?

Т.е. я могу предположить, что результат должен быть примерно тем же, что и с учетом морфологии, только найденные слова будут приведены не в основной форме. Так ли это?

Сергей.

AA
На сайте с 16.04.2001
Offline
70
#16

Сергей, по моему опыту, в общем, вы правы.

Согласно законам статистики, слабые связи можно уловить только при большой выборке. Так что чем больше слово встречается (в т.ч. и с учетом словоформ), тем лучше результат анализа.

Но есть несколько нюансов. К примеру,

- богатая лексема (например, глагол) сильно забивает информационный портрет своими словоформами.

- при сведении лексем возникают трудности омографии (например, ОПЕК-опека, стекло-стечь, Буре-буря и т.д.).

- слова действительно связываются в определенных словоформах, но нужно различать словосочетания ("чистый воздух", "министерство иностранных дел") от объектных связей (правительство - президент - путин - касьянов).

AA
На сайте с 16.04.2001
Offline
70
#17

Вот небольшой примерчик.

Запрос "Поиск работы" (5440 док. из базы 5,5 млн. док.)

Без морфологии:

ВАКАНСИИ

ТРУДОУСТРОЙСТВУ

ПОИСКЕ

ТРУДОУСТРОЙСТВО

РАБОТОДАТЕЛЯ

ПОИСК

УСТРОИТЬСЯ

РАБОТОДАТЕЛИ

РАБОТОДАТЕЛЬ

КВАЛИФИКАЦИИ

ПОИСКОМ

ВАКАНСИЯХ

ТРУДОУСТРОЙСТВОМ

РАБОТОДАТЕЛЮ

С учетом морфологии:

ЗАНЯТОСТЬ

ТРУДОУСТРОЙСТВО

БЕЗРАБОТИЦА

ВАКАНСИЯ

РАБОТОДАТЕЛЬ

ПОСОБИЕ

РЕЗЮМЕ

БЕЗРАБОТНЫЙ

СПЕЦИАЛЬНОСТЬ

БЕЗРАБОТНАЯ

ТРУДОВОЙ

ВЫПУСКНИК

СОБЕСЕДОВАНИЕ

[This message has been edited by AlexA (edited 06-04-2002).]

D
На сайте с 03.04.2002
Offline
2
#18

К слову об объектных связях:

слова действительно связываются в определенных словоформах, но нужно различать словосочетания ("чистый воздух", "министерство иностранных дел") от объектных связей (правительство - президент - путин - касьянов).

Алгоритмы по нахождению словосочетаний применимы и для выявления объектных связей между понятиями; например, если мы рассмотрим текст как состоящий не из словоформ (или слов, при учете морфологии), а из устойчивых словосочетаний, вернее понятий, состоящих из одного, двух или больше словоформ. Но для этого второго шага уже нужно иметь тематический тезаурус, причем хороший полный тезаурус. Без его использования я пока не вижу, как можно эффективно отделить поиск словосочетания от поиска объектной связи в случае простых слов (как в приведенном примере: "правительство - президент - путин - касьянов"). Заданием фильтра на поиск только связей между существительными? Или заданием поискового интервала между словами из предположения, что слова в словосочетании чаще всего стоят рядом?

С какой БД вы работаете? MS SQL Server, судя по тому, что предлагаете решения для Windows? Для меня остается загадкой как вы добились высокой производительности на миллионах записей. По видимому, вам приходится рассчитывать объектные связи и сохранять их как индексы во время заполнения БД? Во всяком случае я принял такое решение.

И еще, Александр, вопрос - почему нельзя объектную связь назвать семантической, т.е. смысловой? Потому, что эта связь на самом деле статистическая или из других соображений?

Сергей.

AA
На сайте с 16.04.2001
Offline
70
#19


для этого второго шага уже нужно иметь тематический тезаурус, причем хороший полный тезаурус.

Да, тезаурус можно использовать в этих целях. Однако сделать достаточно полный тезаурус очень непросто (по-моему, даже невозможно). Реальный тезаурус прекрасно работает на примерах, для которых он создавался. Но шаг в сторону... Из реально работающих доступных тезаурусов я знаю примененный в профессиональном поиске библиотеки Паблик.Ру (есть бесплатная часть).


слова в словосочетании чаще всего стоят рядом?

Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.

AA
На сайте с 16.04.2001
Offline
70
#20


С какой БД вы работаете? MS SQL Server, судя по тому, что предлагаете решения для Windows?

Насколько мне известно, поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.


вам приходится рассчитывать объектные связи и сохранять их как индексы во время заполнения БД?

Точно так.


почему нельзя объектную связь назвать семантической, т.е. смысловой?

Очень даже можно так и называть (большинство так и делает). Но мне лично кажется, что термин "семантический" здесь неточен. Здесь есть связи объект-субъектные, ролевые, просто спутниковые и т.д. Все-таки, до смысла нам далеко. Вот весь информационный портрет смысл имеет, а каждая составляющая вряд ли.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий