Идеальная поисковая машина - это машина, способная давать адекватные ответы на естественноязыковые запросы - Поисковые технологии

Новые технологии в поиске

aka352 · 2004-06-23T06:35:18.0000000Z

Хочется верить, что в скором времени поисковые системы отойдут от анализа формальных признаков для определения релевантности и начнут продвигать новые технологии. На мой взгляд, самой перспективной является технология семантического анализа контента и определение смысловой близости запросу.

[Удален]

24 июня 2004, 05:12

#11

Вот первая ссылка: http://www.computerra.ru/focus/coment/32078/

Это ближе к реалиям сегодняшнего дня. Идея в корне верная, но лично мне не нравится ее реализация - хотят ввести новый стандарт для веб-страниц, хотя можно было бы оставить как есть, а дорабатывать поисковые алгоритмы. Предлагаемое решение - это скорее движение к формалицации, нежели к интеллектуализации. Да и потенциал семантических сетей совершенно не раскрывается.

А вот это ближе к общей теории семантических сетей: http://www.kcn.ru/tat_en/science/ittc/vol000/002/networks.htm

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

24 июня 2004, 12:47

#12

Как писал aka352
Вот первая ссылка: http://www.computerra.ru/focus/coment/32078/
Это ближе к реалиям сегодняшнего дня. Идея в корне верная, но лично мне не нравится ее реализация - хотят ввести новый стандарт для веб-страниц, хотя можно было бы оставить как есть, а дорабатывать поисковые алгоритмы. Предлагаемое решение - это скорее движение к формалицации, нежели к интеллектуализации. Да и потенциал семантических сетей совершенно не раскрывается.

Это здесь уже пытались обсуждать - без особого успеха.

Народ не верит.

Как писал aka352
А вот это ближе к общей теории семантических сетей: http://www.kcn.ru/tat_en/science/ittc/vol000/002/networks.htm

Да-да. "Механизмы семантических сетей" есть, а самих семантических сетей нет.

Они ведь могут быть разными - Вы какие имеете в виду

(принципы концептуализации, принципы связей между концептами, отображения на текст), чтобы они еще помогали в информационном поиске.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

24 июня 2004, 13:58

#13

Так в том то и дело, что не надо делать семантическую паутину, а надо совершенствовать, "интеллектуализировать" поиск.

А конкретное применение - дело разработчиков. Варианты могут быть самые различные. И дело тут не в неверии народа, а в желании создавать и продвигать новые технологии поиска.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

24 июня 2004, 14:07

#14

Как писал aka352
Так в том то и дело, что не надо делать семантическую паутину, а надо совершенствовать, "интеллектуализировать" поиск.
А конкретное применение - дело разработчиков. Варианты могут быть самые различные. И дело тут не в неверии народа, а в желании создавать и продвигать новые технологии поиска.

Потрясающе...

Я начинаю подозревать самораскрутку.

T

36

trink

25 июня 2004, 08:38

#15

Ну вот в своем проекте я видимо использовал то что вы называете семантические сети. То есть сем сеть у меня -- это граф понятий и связей между ними. Он хранится в базе данных. Строится автоматически. Простейший случай -- это статистические связи -- то есть если два слова встречаются в одном предложении то между ними существует связь, силу которой я измеряю дополнительно. В более сложном я применяю синтаксические характеристики. То есть понятием может быть именная группа. Примером связи может быть например связь между подлежащим и дополнением как между субьектом и обьектом действия в с действием в виде сказуемого. У меня для этого реализован специальный язык синтаксических правил.Дальше хочу прийти к фреймовой модели и реалзиовать фактографический поиск. То есть например пользователь вводит в поле субьекта действия слово кучма, в поле действия слово подписал в поле обьекта знак вопроса, и получает новости в которых кучма что то подписал за определенный период. Думаю такое реализовать вполне возможно.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

25 июня 2004, 10:37

#16

То есть понятием может быть именная группа. Примером связи может быть например связь между подлежащим и дополнением как между субьектом и обьектом действия в с действием в виде сказуемого. У меня для этого реализован специальный язык синтаксических правил.

Бесконечное количество связей между субъектом и объектом... Очень интересно узнать, как же разрешается омонимия.

То есть например пользователь вводит в поле субьекта действия слово кучма, в поле действия слово подписал в поле обьекта знак вопроса, и получает новости в которых кучма что то подписал за определенный период. Думаю такое реализовать вполне возможно.

Так а в чем же состоит семантическая связь? В любом поисковике, построенном на классических принципах, это уже реализовано - в стандартной td*idf-метрике. Все это лишь статистические связи.

Оптимизация MariaDB 10.5 тюнером Упал доход Как в моем случае

T

36

trink

25 июня 2004, 12:08

#17

Как писал Vyacheslav Tikhonov

Бесконечное количество связей между субъектом и объектом... Очень интересно узнать, как же разрешается омонимия.

Так а в чем же состоит семантическая связь? В любом поисковике, построенном на классических принципах, это уже реализовано - в стандартной td*idf-метрике. Все это лишь статистические связи.

Ну ладно. Не буду спорить о терминологии. А на счет омонимии, то я пока не ставил себе задачу бороться с этим явлением. Я иследую другие области. К тому же моя система работает с новостями, где пользователю предположительно интересны конкретные персоналии, организации и события, и погрешность от омонимии не так уж и велика, как скажем в случае работы с художественными текстами.

Вообще насколько я понимаю та функциональность над которой я работаю выходит за рамки функциональности класических поисковых серверов А что по твоему такое семантическая сеть?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

25 июня 2004, 12:24

#18

trink, да, ваша модель - это пример классической семантической сети. Правда в идеале нужно делать взвешенные связи.

Vyacheslav Tikhonov, это был простейший пример. Разумеется возможности семантических сетей гораздо больше. Если сейчас, перефразировав запрос, используя синонимы или даже допустив опечатку - получаем совершенно разные выдачи, то с семантическими сетями выдача практически не будет отличаться, т.к. все запросы будут иметь одинаковый смысл.

Конечно семантические сети - не панацея. В случае омонимов все равно придется использовать статистические предпочтения. Но в случае естественноязыковых запросов поиск станет значительно лучше.

Собственно нынешняя ситуация с запросами, когда пользователит стараются их сократить, используя лишь ключевые слова - это только лишнее подтверждение недостатков существующих поисковых систем.

Поэтому, например, вместо "какая машина самая лучшая?" пользователь вынужден вводить всякие словесные суррогаты и потом просматривать десятки страниц, перечитывая их содержание, чтобы найти ответ на вопрос.

Поэтому мое мнение, идеальная поисковая машина - это машина способная давать адекватные ответы на естественноязыковые - запросы.

А если пользователь вводит слишком простой запрос, то должна уточнять - что именно его интересует.

Например пользователь вводит "автомобиль". Сейчас поисковик просто выдаст страницы самого разного содержания, из которых большая часть может оказаться нерелевантной для конкретного пользователя, т.к. неизвестно что он именно хотел увидеть. "Интеллектуальный" поисковик сначала уточнит, что интересует пользователя - покупка автомобиля, продажа, ремонт или просто информация. И только после этого пользователь получит ссылки на страницы, 100% релевантные его запросу.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

25 июня 2004, 12:28

#19

trink, сорри, не сразу заметил, что сила связей у вас вычисляется. Собственно это называется весом :) Так что в моем предыдущем посте комментарий снимается.

B

42

bvd

25 июня 2004, 16:50

#20

Как писал aka352
Поэтому мое мнение, идеальная поисковая машина - это машина способная давать адекватные ответы на естественноязыковые - запросы.

Вот здесь сейчас как раз обсуждается что такое "адекватные ответы на естественноязыковые запросы". Мнения разные.

Как писал aka352
А если пользователь вводит слишком простой запрос, то должна уточнять - что именно его интересует.
Например пользователь вводит "автомобиль". Сейчас поисковик просто выдаст страницы самого разного содержания, из которых большая часть может оказаться нерелевантной для конкретного пользователя, т.к. неизвестно что он именно хотел увидеть.
"Интеллектуальный" поисковик сначала уточнит, что интересует пользователя - покупка автомобиля, продажа, ремонт или просто информация. И только после этого пользователь получит ссылки на страницы, 100% релевантные его запросу.

"Детская болезнь левизны в коммунизме" (В.И.Ленин).

Уже ДАВНО была реализована куча специализированнных систем (прежде всего в ограниченных предметных областях), в которых был реализован переспрос (например, Excalibur одно время выставлял даже в Интернет).

В широких областях не прижились - из-за недостаточного покрытия лингвистическими ресурсами реальности. Например, ПМ Excalibur переспрашивала-переспрашивала (при запросе "Oracle" знала аж пять значений), а затем возвращала один и тот же комплект документов, не взирая на выбор пользователя (так что Excalibur затем убрал свой сервис с переспросом).

Сейчас некоторые считают более перспективным не переспрашивать, но позволять интерактивно уточнять условия запроса по on-line анализу результатов (типа Vivisimo, ZOOM, элементы есть даже в K+ и т.п.). При такой процедуре разница в качестве результатов в зависимости от сложности используемых лигвистических/онтологических ресурсов есть, но в общей задаче весьма небольшая.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Зачем быть уникальным в мире, где все можно скопировать

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Новые технологии в поиске