Новые технологии в поиске

1 234 5
VT
На сайте с 27.01.2001
Offline
130
#21
Вообще насколько я понимаю та функциональность над которой я работаю выходит за рамки функциональности класических поисковых серверов А что по твоему такое семантическая сеть?

Вообще говоря в классической теории семантическая сеть строится из множества семантических отношений:

1) Формальные семантические отношения:

1. меронимы (meronymy, объект - часть чего-либо):

двигатель, коробка передач, колеса - автомобиль

2. голонимы (holonymy - отношение "состоит из"):

компьютер - процессор, материнка, винчестер и т.д.

3. антонимы (противопоставления)

быстрый - медленный

4. синонимы

поисковик - искалка

5. гиперонимы и гипонимы.

Гиперонимы рассматривают предмет в широком смысле, как элемент класса, а гипонимы - с узким значением, как элемент, который принадлежит к классу. Например: дерево - гипероним, а ель, сосна, дуб и т.д. - гипонимы.

2) Типичные семантические отношения:

1. Слова для обозначения движущей или подчиненной роли в действии или событии:

читать - книгу, резать-ножом

2. Слова играют одну и ту же роль в действии:

машина - заправлять, песня - петь

3. Слова для обозначения цели:

ножь-резать, игра-развлекаться

4. Слова, используемые вместе:

снег-лед, компьютер-интернет

На основании этих отношений рассчитыватся семантическая близость слов и формируется семантическая сеть. Например, такая, как Wordnet, состоящая из множества синсетов - множества синонимов.

Надеюсь, мне удалось исчерпывающе ответить на вопрос? :)

Если что-то упустил, bvd меня сейчас поправит - у него есть несколько интересных статей о lexical cohesion.

B
На сайте с 02.09.2002
Offline
42
bvd
#22
Как писал Vyacheslav Tikhonov
Вообще говоря в классической теории семантическая сеть строится из множества семантических отношений:
...
На основании этих отношений рассчитыватся семантическая близость слов и формируется семантическая сеть.
...
Надеюсь, мне удалось исчерпывающе ответить на вопрос? :)

К сожалению, IMHO это только "вообще говоря".

Почему возникают вопросы - что же такое "семантическая сеть"?

А потому, что "семантическая сеть" не может существовать сама по себе,

например, в теории Formal Concept Analysis (FCA), аналогично в теории онтологий выделяется как минимум тройка:

<a,r,C>

a - понятия, r - набор отношений, и об этом говорится в предыдущем посте, но есть и C - "контекст" - правила, устанавливающие:

- когда устанавливаются отношения r,

- в какую сторону должны быть направлены эти отношения (что, собственно, и важно при расширении запроса).

Формально контекст может быть задан явно (но мне сечас не приходит в голову хотя бы один разумный пример, разве что искусственные системы аксиом в математике), или неявно через - для IR - коллекцию документов, набор допустимых операций (например, релевантность).

Как писал Vyacheslav Tikhonov
1) Формальные семантические отношения:
1. меронимы (meronymy, объект - часть чего-либо):
двигатель, коробка передач, колеса - автомобиль

попробую пояснить на ТИПИЧНОМ примере.

понятия =КОЛЕСА=/=ДВИГАТЕЛЬ= как общие НЕ ЯВЛЯЮТСЯ частью понятия =АВТОМОБИЛЬ=. То есть в общем контексте (контексте ВСЕХ текстов Интернет НЕЛЬЗЯ устанавливать такое отношение).

Другое дело, что "текстовое выражение" ("текстовый вход") "колеса"

В КОНТЕКСТЕ окружения понятия =АВТОМОБИЛЬ= означают =АВТОМОБИЛЬНЫЕ КОЛЕСА=. При этом в общем контексте слово "колесо" является многозначным, если есть понятия =КОЛЕСО= и =АВТОМОБИЛЬНОЕ КОЛЕСО=

(=КОЛЕСО ВАГОНА= и т.п.)

Частью ПОНЯТИЯ =АВТОМОБИЛЬ= являются понятия =АВТОМОБИЛЬНЫЕ КОЛЕСА=/=АВТОМОБИЛЬНЫЙ ДВИГАТЕЛЬ=. То есть, при условии разрешения

многозначности, можно выполнять расширение запроса по всем текстовым входам подчиненных понятий.

Если же у Вас тексты только об автомобилях (без самолетов, поездов, велосипедов и швейных машинок), то текстовый вход "колесо" - не является многозначным - можно и понятие назвать "=КОЛЕСО=" (ясно, что название "понятия" - не более чем этикетка - важно как "понятие" как абстрактный объект ведет себя в задаваемой контекстом предметной области).

Я не надеюсь, что мне удалось исчерпывающе ответить на вопрос... :)

B
На сайте с 02.09.2002
Offline
42
bvd
#23

Не дописАл... :)

к чему это ведет в ОБЩЕМ контексте "информационного поиска", который заключается в том что можно расширять запрос по некоторым отношениям "семантической сети".

Если есть понятия =КОЛЕСО=, =АВТОМОБИЛЬ=, =АВТОМОБИЛЬНОЕ КОЛЕСО=,

то должны быть такие отношения:

=КОЛЕСО=

НИЖЕ =АВТОМОБИЛЬНОЕ КОЛЕСО=

=АВТОМОБИЛЬ=

ЧАСТЬ =АВТОМОБИЛЬНОЕ КОЛЕСО=

И лучше вообще не устанавливать прямого отношения между понятиями содержащим текстовый вход "колесо" (=КОЛЕСО= - не будет рассматривать никакие другие "колеса") и "автомобиль" (=АВТОМОБИЛЬ=).

А если хочется установить, то скорее

=КОЛЕСО=

"ЧАСТЬ" =АВТОМОБИЛЬ=

чем наоборот (считая, что в большинстве текстов автомобили без колес не бывают).

Мы у себя считаем, что здесь слово "БОЛЬШИНСТВО" очень важно для информационного поиска, так как даже отношение

=АВТОМОБИЛЬ=

ЧАСТЬ =АВТОМОБИЛЬНОЕ КОЛЕСО=

может быть подвергнуто определенной критике - если Вы будете спрашивать про автомобили, вряд ли Вас удовлетворят тексты, где говорится об успехах завода, выпускающего автомобильные колеса, но документы такие РЕДКИ (и эта "редкость" тоже входит неявно в контекст информационного поиска).

Когда говорится об "информационном поиске", на самом деле, подразумевается одновременно куча разных контекстов. И основная проблема "семантических сетей" четко соответствовать этим контекстам

(для этого их надо хотя бы осознавать - и правильно формулировать).

Ровно поэтому в ограниченных областях применение "семантических" ресурсов может приводить к существенному выгрышу, переход в общую ситуацию (например, объединение пары-тройки ограниченных областей) требует специальных стратегий.

VC
На сайте с 25.02.2004
Offline
5
#24
Как писал bvd


Этим рецептам 100 лет...

Где бы посмотреть на такую семантическую сеть?
А то желающих построить много, да что-то результатов маловато.

Да и что это за зверь "семантическая сеть"?

Тут можно поглядеть :) что это за "зверь" http://demo.rco.ru/topnet/default.asp?LANGUAGE=RUS&INFO_SYSTEM=topdemo

spark
На сайте с 24.01.2001
Offline
130
#25

А как это у вас "медицинская сестра" в семантическую сеть "милиция" затесалась? Наверное, не такая она семантическая, как анонсировано :)

B
На сайте с 02.09.2002
Offline
42
bvd
#26
Как писал vadim_crow


Тут можно поглядеть :) что это за "зверь" http://demo.rco.ru/topnet/default.asp?LANGUAGE=RUS&INFO_SYSTEM=topdemo

да это все давно видели, красиво конечно...

Можно любое множество объектов связать любыми связями.

Можно даже назвать это "семантическая сеть", "семантический анализатор", ИИ ...

Но является ли эта "семантическая сеть" структурой, что СУЩЕСТВЕННО поможет при информационном поиске?

Прежде всего позволит улучшать показатели выдачи ИПС за счет автоматического расширения/модификации запроса?

Когда я говорю "что-то результатов маловато" подразумевается,

что применение на практике, например, ассоциативных сетей не улучшает показатели поиска.

В приведенном примере стрелочка от "вождение" идет к "Серпуховской район" - это, наверное, так надо расширять запрос? :)

B
На сайте с 02.09.2002
Offline
42
bvd
#27

Хотелось бы дописать про ассоциативные сети.

Общеизвестный факт, что если А встречается в 90% текстов, где встречается Б, а Б встречается менее чем в 10%, где встречается А, то скорее всего А "выше" чем Б.

Проблема в этом "скорее всего".

На практике, качество установления

отношений, относящихся к "семантическим" РЕЗКО падает

(в списке упорядоченных по отношению этих "вероятносте").

Механистическими методами невозможно отличить хорошие связи от плохих.

В результате получается сеть, где большой процент ошибочных отношений между объектами.

Что-то и с этим можно делать, но говорить, что это "семантическая сеть"?

Сейчас возможна только ручная выверка, а это достаточно большие трудозатраты.

Причем, обратите внимание, на вопросик о "плохих" и "хороших" отношениях. Надо ЗНАТЬ какие отношения хороши для КАЖДОЙ задачи и иметь критерии проверять установленные отношения.

T
На сайте с 15.04.2003
Offline
36
#28

Ну эти погрешности могут варьироваться от реализации к реализации. Не секрет что есть хорошие продукты а есть плохие.

B
На сайте с 02.09.2002
Offline
42
bvd
#29
Как писал trink
Ну эти погрешности могут варьироваться от реализации к реализации. Не секрет что есть хорошие продукты а есть плохие.

это Вы о чем?

T
На сайте с 15.04.2003
Offline
36
#30
Как писал bvd


это Вы о чем?

О твоем последним на тот момент посте.

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий