да это все давно видели, красиво конечно...
Можно любое множество объектов связать любыми связями.
Можно даже назвать это "семантическая сеть", "семантический анализатор", ИИ ...
Но является ли эта "семантическая сеть" структурой, что СУЩЕСТВЕННО поможет при информационном поиске?
Прежде всего позволит улучшать показатели выдачи ИПС за счет автоматического расширения/модификации запроса?
Когда я говорю "что-то результатов маловато" подразумевается,
что применение на практике, например, ассоциативных сетей не улучшает показатели поиска.
В приведенном примере стрелочка от "вождение" идет к "Серпуховской район" - это, наверное, так надо расширять запрос? :)
Вадим Шефнер "Сестра печали" (1968г.):
Не дописАл... :)
к чему это ведет в ОБЩЕМ контексте "информационного поиска", который заключается в том что можно расширять запрос по некоторым отношениям "семантической сети".
Если есть понятия =КОЛЕСО=, =АВТОМОБИЛЬ=, =АВТОМОБИЛЬНОЕ КОЛЕСО=,
то должны быть такие отношения:
=КОЛЕСО=
НИЖЕ =АВТОМОБИЛЬНОЕ КОЛЕСО=
=АВТОМОБИЛЬ=
ЧАСТЬ =АВТОМОБИЛЬНОЕ КОЛЕСО=
И лучше вообще не устанавливать прямого отношения между понятиями содержащим текстовый вход "колесо" (=КОЛЕСО= - не будет рассматривать никакие другие "колеса") и "автомобиль" (=АВТОМОБИЛЬ=).
А если хочется установить, то скорее
"ЧАСТЬ" =АВТОМОБИЛЬ=
чем наоборот (считая, что в большинстве текстов автомобили без колес не бывают).
Мы у себя считаем, что здесь слово "БОЛЬШИНСТВО" очень важно для информационного поиска, так как даже отношение
может быть подвергнуто определенной критике - если Вы будете спрашивать про автомобили, вряд ли Вас удовлетворят тексты, где говорится об успехах завода, выпускающего автомобильные колеса, но документы такие РЕДКИ (и эта "редкость" тоже входит неявно в контекст информационного поиска).
Когда говорится об "информационном поиске", на самом деле, подразумевается одновременно куча разных контекстов. И основная проблема "семантических сетей" четко соответствовать этим контекстам
(для этого их надо хотя бы осознавать - и правильно формулировать).
Ровно поэтому в ограниченных областях применение "семантических" ресурсов может приводить к существенному выгрышу, переход в общую ситуацию (например, объединение пары-тройки ограниченных областей) требует специальных стратегий.
К сожалению, IMHO это только "вообще говоря".
Почему возникают вопросы - что же такое "семантическая сеть"?
А потому, что "семантическая сеть" не может существовать сама по себе,
например, в теории Formal Concept Analysis (FCA), аналогично в теории онтологий выделяется как минимум тройка:
<a,r,C>
a - понятия, r - набор отношений, и об этом говорится в предыдущем посте, но есть и C - "контекст" - правила, устанавливающие:
- когда устанавливаются отношения r,
- в какую сторону должны быть направлены эти отношения (что, собственно, и важно при расширении запроса).
Формально контекст может быть задан явно (но мне сечас не приходит в голову хотя бы один разумный пример, разве что искусственные системы аксиом в математике), или неявно через - для IR - коллекцию документов, набор допустимых операций (например, релевантность).
попробую пояснить на ТИПИЧНОМ примере.
понятия =КОЛЕСА=/=ДВИГАТЕЛЬ= как общие НЕ ЯВЛЯЮТСЯ частью понятия =АВТОМОБИЛЬ=. То есть в общем контексте (контексте ВСЕХ текстов Интернет НЕЛЬЗЯ устанавливать такое отношение).
Другое дело, что "текстовое выражение" ("текстовый вход") "колеса"
В КОНТЕКСТЕ окружения понятия =АВТОМОБИЛЬ= означают =АВТОМОБИЛЬНЫЕ КОЛЕСА=. При этом в общем контексте слово "колесо" является многозначным, если есть понятия =КОЛЕСО= и =АВТОМОБИЛЬНОЕ КОЛЕСО=
(=КОЛЕСО ВАГОНА= и т.п.)
Частью ПОНЯТИЯ =АВТОМОБИЛЬ= являются понятия =АВТОМОБИЛЬНЫЕ КОЛЕСА=/=АВТОМОБИЛЬНЫЙ ДВИГАТЕЛЬ=. То есть, при условии разрешения
многозначности, можно выполнять расширение запроса по всем текстовым входам подчиненных понятий.
Если же у Вас тексты только об автомобилях (без самолетов, поездов, велосипедов и швейных машинок), то текстовый вход "колесо" - не является многозначным - можно и понятие назвать "=КОЛЕСО=" (ясно, что название "понятия" - не более чем этикетка - важно как "понятие" как абстрактный объект ведет себя в задаваемой контекстом предметной области).
Я не надеюсь, что мне удалось исчерпывающе ответить на вопрос... :)
Напишу обязательно, если поверю что это серьезно (Можете ответить да/нет).
Дело в том, что для разных ниш рынка нужны и поисковики разные.
Пока я не уверен, что подразумеваем одно и то же.
Допустим, есть у меня "свой оригинальный поисковик" на миллион документов (корпоративный уровень). То есть будет работать и на 10 млн., далее скорее всего надо поднастраивать/дорабатывать.
Мой личный опыт свидетельствует, что нет такого заказчика, чтобы взял готовый - необходимы модификации, скорее даже система создания и поддержки одновременно кучки модификаций в задаваемой заказчиком нише.
Здесь самое главное не сам поиск, а единство/баланс
поиск(скорость/удобство)-загрузка/перегрузка-хранение и т.д.
Денежки, собственно, нужны на отработку специальной технологии поддержки всего процесса (включая промоушн, оформление/разграничение прав и т.п.).
Важным фактором является время - ничего мгновенно не делается...
для настоящей раскрутки (с выходом на самоокупаемость) IMHO требуется от 300 тысяч (это очень по скромному, реально раза в три больше) зеленых тугриков.
Речь идет об этих масштабах?
С уважением
Вот здесь сейчас как раз обсуждается что такое "адекватные ответы на естественноязыковые запросы". Мнения разные.
"Детская болезнь левизны в коммунизме" (В.И.Ленин).
Уже ДАВНО была реализована куча специализированнных систем (прежде всего в ограниченных предметных областях), в которых был реализован переспрос (например, Excalibur одно время выставлял даже в Интернет).
В широких областях не прижились - из-за недостаточного покрытия лингвистическими ресурсами реальности. Например, ПМ Excalibur переспрашивала-переспрашивала (при запросе "Oracle" знала аж пять значений), а затем возвращала один и тот же комплект документов, не взирая на выбор пользователя (так что Excalibur затем убрал свой сервис с переспросом).
Сейчас некоторые считают более перспективным не переспрашивать, но позволять интерактивно уточнять условия запроса по on-line анализу результатов (типа Vivisimo, ZOOM, элементы есть даже в K+ и т.п.). При такой процедуре разница в качестве результатов в зависимости от сложности используемых лигвистических/онтологических ресурсов есть, но в общей задаче весьма небольшая.
Потрясающе...
Я начинаю подозревать самораскрутку.
Это здесь уже пытались обсуждать - без особого успеха.
Народ не верит.
Да-да. "Механизмы семантических сетей" есть, а самих семантических сетей нет.
Они ведь могут быть разными - Вы какие имеете в виду
(принципы концептуализации, принципы связей между концептами, отображения на текст), чтобы они еще помогали в информационном поиске.
Этим рецептам 100 лет...
Где бы посмотреть на такую семантическую сеть?
А то желающих построить много, да что-то результатов маловато.
Да и что это за зверь "семантическая сеть"?