bvd

Рейтинг
42
Регистрация
02.09.2002
Как писал vadim_crow


Тут можно поглядеть :) что это за "зверь" http://demo.rco.ru/topnet/default.asp?LANGUAGE=RUS&INFO_SYSTEM=topdemo

да это все давно видели, красиво конечно...

Можно любое множество объектов связать любыми связями.

Можно даже назвать это "семантическая сеть", "семантический анализатор", ИИ ...

Но является ли эта "семантическая сеть" структурой, что СУЩЕСТВЕННО поможет при информационном поиске?

Прежде всего позволит улучшать показатели выдачи ИПС за счет автоматического расширения/модификации запроса?

Когда я говорю "что-то результатов маловато" подразумевается,

что применение на практике, например, ассоциативных сетей не улучшает показатели поиска.

В приведенном примере стрелочка от "вождение" идет к "Серпуховской район" - это, наверное, так надо расширять запрос? :)

Как писал Maxim Golubev
В целом замечания верны, но с одной поправкой, если на ситуацию смотреть с нашей временной точки. К моменту нужды в данных технологиях вся технологическая база поменяется несколько раз.

Хотел бы акцентировать внимание на том, что термин ИИ я употребил не как определение программному комплексу. По моему представлению, функции которые в нашем нынешнем понимании ассоциируются с ИИ в будущем будет выполнять развитая поисковая машина нового поколения. Но на нынешний поиск она будет похожа так, как мерседес на машину с поровым двигателем.

Вадим Шефнер "Сестра печали" (1968г.):


Затем он сунул гитару под кровать и строго сказал:

-- В будущем никакой одежды не будет. Ношение одежды развивает ложный
стыд, а разнобой в одежде приводит к неравенству и к обывательской зависти.
В недалеком будущем люди будут носить несколько проволочек, обматывающих
тело в наиболее охлаждающихся местах. Путем включения и выключения
миниатюрной клавиатуры на приборчике можно будет регулировать нагрев тела в
зависимости от внешних температурных условий. Этим будет нанесен еще один
удар по мещанству.

-- Ты сам до этого додумался? -- спросил я Костю.

-- Эта реформа носится в воздухе! -- заявил Костя.

-- Интересно, что будет делаться в трамваях в часы пик после такой
реформы? Придется ввести мужские и женские вагоны.

-- Ты просто сексуальный пошляк, -- обиделся Костя. -- Так можно
оплевать любую идею...

Не дописАл... :)

к чему это ведет в ОБЩЕМ контексте "информационного поиска", который заключается в том что можно расширять запрос по некоторым отношениям "семантической сети".

Если есть понятия =КОЛЕСО=, =АВТОМОБИЛЬ=, =АВТОМОБИЛЬНОЕ КОЛЕСО=,

то должны быть такие отношения:

=КОЛЕСО=

НИЖЕ =АВТОМОБИЛЬНОЕ КОЛЕСО=

=АВТОМОБИЛЬ=

ЧАСТЬ =АВТОМОБИЛЬНОЕ КОЛЕСО=

И лучше вообще не устанавливать прямого отношения между понятиями содержащим текстовый вход "колесо" (=КОЛЕСО= - не будет рассматривать никакие другие "колеса") и "автомобиль" (=АВТОМОБИЛЬ=).

А если хочется установить, то скорее

=КОЛЕСО=

"ЧАСТЬ" =АВТОМОБИЛЬ=

чем наоборот (считая, что в большинстве текстов автомобили без колес не бывают).

Мы у себя считаем, что здесь слово "БОЛЬШИНСТВО" очень важно для информационного поиска, так как даже отношение

=АВТОМОБИЛЬ=

ЧАСТЬ =АВТОМОБИЛЬНОЕ КОЛЕСО=

может быть подвергнуто определенной критике - если Вы будете спрашивать про автомобили, вряд ли Вас удовлетворят тексты, где говорится об успехах завода, выпускающего автомобильные колеса, но документы такие РЕДКИ (и эта "редкость" тоже входит неявно в контекст информационного поиска).

Когда говорится об "информационном поиске", на самом деле, подразумевается одновременно куча разных контекстов. И основная проблема "семантических сетей" четко соответствовать этим контекстам

(для этого их надо хотя бы осознавать - и правильно формулировать).

Ровно поэтому в ограниченных областях применение "семантических" ресурсов может приводить к существенному выгрышу, переход в общую ситуацию (например, объединение пары-тройки ограниченных областей) требует специальных стратегий.

Как писал Vyacheslav Tikhonov
Вообще говоря в классической теории семантическая сеть строится из множества семантических отношений:
...
На основании этих отношений рассчитыватся семантическая близость слов и формируется семантическая сеть.
...
Надеюсь, мне удалось исчерпывающе ответить на вопрос? :)

К сожалению, IMHO это только "вообще говоря".

Почему возникают вопросы - что же такое "семантическая сеть"?

А потому, что "семантическая сеть" не может существовать сама по себе,

например, в теории Formal Concept Analysis (FCA), аналогично в теории онтологий выделяется как минимум тройка:

<a,r,C>

a - понятия, r - набор отношений, и об этом говорится в предыдущем посте, но есть и C - "контекст" - правила, устанавливающие:

- когда устанавливаются отношения r,

- в какую сторону должны быть направлены эти отношения (что, собственно, и важно при расширении запроса).

Формально контекст может быть задан явно (но мне сечас не приходит в голову хотя бы один разумный пример, разве что искусственные системы аксиом в математике), или неявно через - для IR - коллекцию документов, набор допустимых операций (например, релевантность).

Как писал Vyacheslav Tikhonov
1) Формальные семантические отношения:
1. меронимы (meronymy, объект - часть чего-либо):
двигатель, коробка передач, колеса - автомобиль

попробую пояснить на ТИПИЧНОМ примере.

понятия =КОЛЕСА=/=ДВИГАТЕЛЬ= как общие НЕ ЯВЛЯЮТСЯ частью понятия =АВТОМОБИЛЬ=. То есть в общем контексте (контексте ВСЕХ текстов Интернет НЕЛЬЗЯ устанавливать такое отношение).

Другое дело, что "текстовое выражение" ("текстовый вход") "колеса"

В КОНТЕКСТЕ окружения понятия =АВТОМОБИЛЬ= означают =АВТОМОБИЛЬНЫЕ КОЛЕСА=. При этом в общем контексте слово "колесо" является многозначным, если есть понятия =КОЛЕСО= и =АВТОМОБИЛЬНОЕ КОЛЕСО=

(=КОЛЕСО ВАГОНА= и т.п.)

Частью ПОНЯТИЯ =АВТОМОБИЛЬ= являются понятия =АВТОМОБИЛЬНЫЕ КОЛЕСА=/=АВТОМОБИЛЬНЫЙ ДВИГАТЕЛЬ=. То есть, при условии разрешения

многозначности, можно выполнять расширение запроса по всем текстовым входам подчиненных понятий.

Если же у Вас тексты только об автомобилях (без самолетов, поездов, велосипедов и швейных машинок), то текстовый вход "колесо" - не является многозначным - можно и понятие назвать "=КОЛЕСО=" (ясно, что название "понятия" - не более чем этикетка - важно как "понятие" как абстрактный объект ведет себя в задаваемой контекстом предметной области).

Я не надеюсь, что мне удалось исчерпывающе ответить на вопрос... :)

Как писал Spieler

Если у кого-то есть свой оригинальный поисковик, дальнейшее развитие которого упирается в недостаток финансирования...

Речь идет пока что о выяснении самих масштабов.
Если можете расписать подробнее, откуда берутся это 300 000 - все же попросил бы писать на мыло...

Напишу обязательно, если поверю что это серьезно (Можете ответить да/нет).

Дело в том, что для разных ниш рынка нужны и поисковики разные.

Пока я не уверен, что подразумеваем одно и то же.

Допустим, есть у меня "свой оригинальный поисковик" на миллион документов (корпоративный уровень). То есть будет работать и на 10 млн., далее скорее всего надо поднастраивать/дорабатывать.

Мой личный опыт свидетельствует, что нет такого заказчика, чтобы взял готовый - необходимы модификации, скорее даже система создания и поддержки одновременно кучки модификаций в задаваемой заказчиком нише.

Здесь самое главное не сам поиск, а единство/баланс

поиск(скорость/удобство)-загрузка/перегрузка-хранение и т.д.

Денежки, собственно, нужны на отработку специальной технологии поддержки всего процесса (включая промоушн, оформление/разграничение прав и т.п.).

Важным фактором является время - ничего мгновенно не делается...

Как писал Spieler
... милости прошу писать ....

для настоящей раскрутки (с выходом на самоокупаемость) IMHO требуется от 300 тысяч (это очень по скромному, реально раза в три больше) зеленых тугриков.

Речь идет об этих масштабах?

С уважением

Как писал aka352
Поэтому мое мнение, идеальная поисковая машина - это машина способная давать адекватные ответы на естественноязыковые - запросы.

Вот здесь сейчас как раз обсуждается что такое "адекватные ответы на естественноязыковые запросы". Мнения разные.

Как писал aka352
А если пользователь вводит слишком простой запрос, то должна уточнять - что именно его интересует.
Например пользователь вводит "автомобиль". Сейчас поисковик просто выдаст страницы самого разного содержания, из которых большая часть может оказаться нерелевантной для конкретного пользователя, т.к. неизвестно что он именно хотел увидеть.
"Интеллектуальный" поисковик сначала уточнит, что интересует пользователя - покупка автомобиля, продажа, ремонт или просто информация. И только после этого пользователь получит ссылки на страницы, 100% релевантные его запросу.

"Детская болезнь левизны в коммунизме" (В.И.Ленин).

Уже ДАВНО была реализована куча специализированнных систем (прежде всего в ограниченных предметных областях), в которых был реализован переспрос (например, Excalibur одно время выставлял даже в Интернет).

В широких областях не прижились - из-за недостаточного покрытия лингвистическими ресурсами реальности. Например, ПМ Excalibur переспрашивала-переспрашивала (при запросе "Oracle" знала аж пять значений), а затем возвращала один и тот же комплект документов, не взирая на выбор пользователя (так что Excalibur затем убрал свой сервис с переспросом).

Сейчас некоторые считают более перспективным не переспрашивать, но позволять интерактивно уточнять условия запроса по on-line анализу результатов (типа Vivisimo, ZOOM, элементы есть даже в K+ и т.п.). При такой процедуре разница в качестве результатов в зависимости от сложности используемых лигвистических/онтологических ресурсов есть, но в общей задаче весьма небольшая.

Как писал aka352
Так в том то и дело, что не надо делать семантическую паутину, а надо совершенствовать, "интеллектуализировать" поиск.
А конкретное применение - дело разработчиков. Варианты могут быть самые различные. И дело тут не в неверии народа, а в желании создавать и продвигать новые технологии поиска.

Потрясающе...

Я начинаю подозревать самораскрутку.

Как писал aka352
Вот первая ссылка: http://www.computerra.ru/focus/coment/32078/
Это ближе к реалиям сегодняшнего дня. Идея в корне верная, но лично мне не нравится ее реализация - хотят ввести новый стандарт для веб-страниц, хотя можно было бы оставить как есть, а дорабатывать поисковые алгоритмы. Предлагаемое решение - это скорее движение к формалицации, нежели к интеллектуализации. Да и потенциал семантических сетей совершенно не раскрывается.

Это здесь уже пытались обсуждать - без особого успеха.

Народ не верит.

Как писал aka352
А вот это ближе к общей теории семантических сетей: http://www.kcn.ru/tat_en/science/ittc/vol000/002/networks.htm

Да-да. "Механизмы семантических сетей" есть, а самих семантических сетей нет.

Они ведь могут быть разными - Вы какие имеете в виду

(принципы концептуализации, принципы связей между концептами, отображения на текст), чтобы они еще помогали в информационном поиске.

Как писал aka352
Достаточно построить семантическую сеть, связывающую все слова русского (и др.) языка и для каждой страницы, на ее основе определять семантическое множество, составляющее "смысл" контента. А потом достаточно лишь определять близость "смыслов" запроса и контента страниц, чтобы посчитать релевантность.

Этим рецептам 100 лет...

Где бы посмотреть на такую семантическую сеть?

А то желающих построить много, да что-то результатов маловато.

Да и что это за зверь "семантическая сеть"?

Всего: 133