Используйте терминологию, принятую в прикладном анализе данных - Поисковые технологии

Поисковая машина нового поколения

al1734 · 2003-08-22T13:14:33.0000000Z

Итак Новая тема. Пытаемся обсудить проблему создания, необходимости, рентабельности и т.д. Поисковой машины нового поколения.

B

42

bvd

12 января 2004, 11:12

#51

Как писал Ken
Вспоминается книжка Попова "Общение с ЭВМ на естественом языке" 80 г.
А существуют ли какие-нибудь работающие модели семантического поиска?

Слово "семантический" - ужасное!

Разные люди понимают под этим совершенно разные вещи.

Кроме того, одно время оно было весьма модным

(стало "понятным" массам) и, используя это слово,

раздавались БОЛЬШИЕ обещания, которые кончились пшиком.

В общем, я не знаю "работающие модели семантического поиска".

НО! Существуют достаточно разумные методы:

- интеллектуального (в смысле моделирующие то или иное человеческое поведение) расширения запроса;

- интеллектуального анализа результатов запросов (и интерактивного уточнения запроса);

- неплохие Q&A системы;

и т.п.

В некоторых узких областях удается добиваться

очень неплохих результатов (например, call center).

Кстати, в том же Яндексе (наверное и во многих других системах),

при разборе запроса применяются любопытные, как их там называют, "эвристики".

В прежние времена (в 1980х) кто-нибудь мог бы назвать это

семантическим разбором.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

12 января 2004, 23:26

#52

Слово "семантический" - ужасное!

Разные люди понимают под этим совершенно разные вещи.
Кроме того, одно время оно было весьма модным
(стало "понятным" массам) и, используя это слово,
раздавались БОЛЬШИЕ обещания, которые кончились пшиком.

В общем, я не знаю "работающие модели семантического поиска".

Знаем, знаем, как все тут любят семантику :)

А существуют ли какие-нибудь работающие модели семантического поиска?

Судя по западной прессе, это лексические цепочки - они теоретически позволяют описать семантические отношения между словами.

B

42

bvd

14 января 2004, 14:18

#53

Как писал Vyacheslav Tikhonov

Судя по западной прессе, это лексические цепочки - они теоретически позволяют описать семантические отношения между словами.

Ну мы тоже с 1996 года применяем свою модель "лексической связности",

но это не важно, а важно то, что к семантике "отношений между словами" это не относится. Это скорее "семантика текста" - то есть восстановление смысла текста без, возможно, понимания отдельных слов и даже фрагментов.

Причем про то, что ныне называется lexical cohesion (lexical chains),

я читал, например, у Иорданской в работах 60х годов (текстовая связность), вряд ли ошибусь, что эта штука была известна еще Аристотелю.

Простейщий, но далеко не единственный, пример лексических цепочек - повторение слова в тексте. А вот с более сложными примерами цепочек - большие проблемы. ВЫ какие имеете в виду?

А что такое, все-таки "семантика" в Вашем понимании?

Может Вы сможете кратенько описать?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

15 января 2004, 13:59

#54

Ну мы тоже с 1996 года применяем свою модель "лексической связности",
но это не важно, а важно то, что к семантике "отношений между словами" это не относится. Это скорее "семантика текста" - то есть восстановление смысла текста без, возможно, понимания отдельных слов и даже фрагментов.

Собственно, я немного в курсе Ваших изысканий и знаком с тем, как в текстах определяются наиболее значимые ключевые слова в УИС РОССИЯ.

Простейщий, но далеко не единственный, пример лексических цепочек - повторение слова в тексте. А вот с более сложными примерами цепочек - большие проблемы. ВЫ какие имеете в виду?

Те же, что и Вы - цепочки, которые формируются из синонимов и связанных по смыслу термов.

Понятно, что проблемы возникают потому, что тексты по своей семантической структуре слишком неоднородны и часто состоят из слабо связанных или вовсе несвязанных фрагментов. Но, насколько я понимаю, Вам все же удалось собрать кое-какие тематические узлы с помощью тезауруса для социологических и политических текстов.

Значит, что-то все же работает? :)

А что такое, все-таки "семантика" в Вашем понимании?
Может Вы сможете кратенько описать?

Ах, кратенько... :)

Это нечто вроде глобальной Матрицы, включающей каждый существующий в мире объект (макроконцепция в Вашей формуловке) и описывающей близость каждого объекта каждому в пределах общего для них контекста.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

P

3

Pavelkq

15 января 2004, 15:41

#55

Если я верно понимаю, то это "конкорданс". А еще есть программа Абриаль (там, конечно многое надо руками ваять), но что-то в этом есть. Но, разумеется, все это не претендует на "...включающей каждый существующий в мире объект...", но, тем не менее, серьезные шаги вперед!

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

15 января 2004, 16:06

#56

Как писал Vyacheslav Tikhonov

Но, насколько я понимаю, Вам все же удалось собрать кое-какие тематические узлы с помощью тезауруса для социологических и политических текстов.
Значит, что-то все же работает? :)

Мы никогда не употребляем слово "семантика".

Стараемся точно обозначать, что делаем.

Как писал Vyacheslav Tikhonov

Ах, кратенько... :)
Это нечто вроде глобальной Матрицы, включающей каждый существующий в мире объект (макроконцепция в Вашей формуловке) и описывающей близость каждого объекта каждому в пределах общего для них контекста.

Может Вы сможете подробнее описать?

VT

130

Vyacheslav Tikhonov

16 января 2004, 11:37

#57

Может Вы сможете подробнее описать?

Что ж, я не виноват, Вы сами напросились :) Для неподготовленного читателя все это, скорее всего, будет восприниматься как бред, но что поделаешь, тема очень специфическая.

Я буду использовать терминологию, принятую в прикладном анализе данных, и опираться на понятия объекта и его свойства (описания или признаки) и гипотезу компактности.

В основе гипотезы компактности положена идея сжатия данных, состоящая в том, что если найден способ сжатого описания множества объектов, то получены эмпирические закономерности, существующие между объектами, а значит и сходство между ними. Соответственно, чем сильнее удается сжать данные, тем это сходство больше.

Для того, чтобы можно было использовать гипотезу компактности, используется специальная таблица объект-свойство (ТОС), содержащая описания объектов в качестве строк и признаки этих объектов в качестве столбцов. Таким образом, реальные объекты заменяются специальным описанием - вектор-строкой ТОС, в результате чего создается образ каждого объекта в пространстве признаков.

Согласно Гипотезе, объекты можно считать похожими, если они находятся рядом в этом пространстве.

Ну, это все, естественно, чистая теория. Попробую привести к этой гипотезе Ваши исследования, направленные на извлечение наиболее важных терминов из текстов, и свести вместе две различных области науки. :)

Итак, Вы оперируете понятием лексические цепочки, которые складываются из повторений, синонимов, итераций и тематически связанных термов. Однако, по причине того, что каждый терм может быть включен в любую лексическую цепочку, имея при этом различное лексическое значение, такую цепочку нельзя собирать в отрыве от контекста анализируемого фрагмента текста.

Поэтому в этом месте Вы, в лучших традициях ООП, используете абстракцию, то есть отбираете только те свойства объектов, которые представляют интерес - подключаете тезаурус, заточенный на политических и социологических документах. Кое-кто для этого использует подмножество WordNet, чтобы объединить термы с одним и тем же смыслом. С точки же зрения Гипотезы Вы задаете начальные расстояния между термами и определяете их тематическую связность.

В результате образуется пространство признаков, а близкие термы объединяются в лексические цепочки. Самое интересное, что в эти цепочки включаются и названия самого объекта, который они описывают (по-Вашему, макроконцепции).

Так как любой текст базируется на отношениях между различными объектами, то их и нужно рассчитывать. Если формализовать связанные с каждым объектом лексические цепочки, например, оценив состав термов в них, то теоретически можно найти "расстояние" между ними и определить меру сходства каждого объекта. Похожие объекты будут составлять тезаурус предметной области, какой - будет понятно по названиям макроконцепций, содержащихся в лексических цепочках. :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

16 января 2004, 12:35

#58

Т.е. при поиске пользователю выдается список уточнений - основанный на таких цепочках, и остальной поиск происходит через уточнение в каком именно контексте (окружении слов) он желает получить ответ?

B

42

bvd

16 января 2004, 13:21

#59

Как писал Vyacheslav Tikhonov

Что ж, я не виноват, Вы сами напросились :) Для неподготовленного читателя все это, скорее всего, будет восприниматься как бред, но что поделаешь, тема очень специфическая.
...

Я Вас понимаю (в реализации идейно мы близки).

Но мой вопрос был в другом.

То что Вы излагаете - уже математическая модель.

Правильно ли я понимаю, что результат применения этой

модели к тексту Вы и называете семантикой?

Но математических моделей можно построить много

(причем Ваша собственно с текстом связана слабо - она глобальна :) )

почему Вы считаете, что Ваша модель правильна?

В том плане - как КОНСТРУКТИВНО доказать полноту,

определить границы применимости и т.п.

Пытались ли Вы попытаться разобрать реальные тексты "на руках"

по Вашей модели?

Пробовали ли оценить какие потребуются ресурсы, как они должны быть устроены.

Важный конструктивный вопрос - можете ли Вы оценить как будет зависеть качество результатов анализа текста от качества

(неполноты и ошибок в применяемых ресурсах и правилах).

Почему я все это спрашиваю.

Российская традиция исследований по семантики сильно была связана с замечательной теорией Мельчука, для реализации требовался всего-то специальный словарь (ТКС).

К сожалению, много народа положили свои годы на это дело,

но результат не был достигнут.

Как Вы думаете - в чем проблема?

С наилучшими пожеланиями

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

16 января 2004, 15:01

#60

Пытались ли Вы попытаться разобрать реальные тексты "на руках"
по Вашей модели?

Пробовали ли оценить какие потребуются ресурсы, как они должны быть устроены.
Важный конструктивный вопрос - можете ли Вы оценить как будет зависеть качество результатов анализа текста от качества
(неполноты и ошибок в применяемых ресурсах и правилах).

Сложность задачи я прекрасно представляю. Рассчитать близости каждого объекта каждому задача, конечно, фантастическая, но кому сейчас легко. :)

Кое-что я пробовал сделать, что-то получилось, что-то нет. В общем-то, у меня была возможность создать подобную систему, но числиться в соавторах докторской и тянуть все на себе у меня особого желания не было.

К сожалению, много народа положили свои годы на это дело,
но результат не был достигнут.
Как Вы думаете - в чем проблема?

Думаю, в том, что одна и та же морфологическая лексема может иметь бесконечное количество лексических значений, в зависимости от контекста, не говоря уже о словосочетаниях. Поэтому сразу же у Вас и возник вопрос о глобальности моей модели - в ней нет конечных условий, а каких либо ограничений априори я не задаю.

Но никто ведь не мешает задать граничные условия, например, определив коррелируемость различных термов друг с другом с пределах связанных фрагментов текста.

почему Вы считаете, что Ваша модель правильна?

Я описал свои субъективные представления о данной проблеме. Но ведь

изначально правильная объемная модель здесь неизвестна, не так ли?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, чтобы попасть в ответы Google Bard

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Поисковая машина нового поколения