осмысленный поиск - новые вести

I
На сайте с 22.09.2003
Offline
36
#21
Как писал Vyacheslav Tikhonov

Это все, безусловно, здорово, на что реально удалось вытащить из моего документа?

чего-то я посмотрел отчет Системы и прослезился... На самом деле она смогла только 35% понять, хотя статистику мне выдала в цифирях на уровне 50%. вот примеры:

Результаты разбора реального текста синтаксическим анализатором.

Здесь: "**" - обозначает ЕЯ предложение которое прочитала Система, а под ним сообщение Системы чего она "поняла". Далее мой коментарий.

Формат сообщения Системы в виде строк в каждой из которых пара связанных слов, первое слово главное. Сдвиг строки указывает на вложнное подчинение.

** Ни для кого не секрет, что современный интернет представляет уникальное безграничное хранилище знаний, которое позволяет получить ответ практически на любой вопрос.

|на вопрос

|представляет хранилище

| |хранилище безграничное

|которое позволяет

| |позволяет получить

| | |получить ответ

то есть из этого предложения Система "поняла" что: "ЧТО-ТО представляет безграничное хранилище", что: "которое позволяет получить ответ". Здесь надо заметить, что в текущей реализации ускоренного анализатора местоимения типа "который" не связываются со смыслом текста, то есть Система не знает к чему это "которое" относится. В медленной версии анализатора все местоимения типа "который" успешно связывались со своими сутями. То есть здесь бы "которое" подчинилось бы "хранилище".

** Фактически, здесь собрано все лучшее, изобретенное и созданное человечеством как за всю его долгую историю, так и новинки, появившиеся буквально недавно.

|историю долгую

здесь Система вообще только два слова связала :(

** Однако появление такой огромной и обширной библиотеки не могло не привести к перегруженности информационного пространства.

|библиотеки обширной

|к перегруженности

| |перегруженности пространства

| | |пространства информационного

|могло привести

здесь Система "поняла" что: "библиотека обширная", и что "к перегруженности информационного пространства", и что "могло привести". Как видно лигика "НЕ" не обработалась, хотя в медленной версии анализатора "НЕ" успешно связывалось.

** Специалисты по-разному оценивают размеры сети, однако в большинстве своем сходятся во мнении, что сейчас здесь находятся миллиарды страниц, причем большая часть их исчезает или обновляется в течение непродолжительного периода времени.

|в большинстве

|во мнении

|специалисты оценивают

| |оценивают размеры

| | |размеры сети

|миллиарды страниц

|часть большая

|часть их

|часть исчезает

|в течение

| |течение периода

| | |периода непродолжительного

| | |периода времени

Здесь "понято" что: "специалисты оценивают размеры сети", и что "в течении непродолжительного времени", и что "большая их часть исчезает".

** Существует ли какая-нибудь возможность ориентироваться в этом практически бесконечном неиссякаемом быстроменяющемся потоке информации?

|возможность какая

|потоке информации

|существует ориентироваться

"существует ориентироваться" ? с чего бы это здесь так связалось?

** Попробуем разобраться.

|попробуем разобраться

** Частично эту проблему решают специальные информационно-поисковые системы, которые умеют самостоятельно собирать информацию.

|решают проблему

| |проблему эту

|системы поисковые

|которые умеют

| |умеют собирать

| | |собирать информацию

Здесь наречие "самостоятельно" не включено в смысл "которые умеют собирать информацию", потому как наречия отключены. в медленном анализаторе наречия успешно "осмысливались"

** Естественно, каждая такая система имеет ограниченные возможности и часто содержит уже устаревшую информацию, но, к сожалению, ничего лучшего до сих пор не придумано.

|система такая

|система имеет

|ограниченные возможности

** Тем не менее, сделав такую поисковую систему вашим другом, можно в течении достаточно короткого времени находить такую информацию, на поиск которой без использования интернет могут уходить месяцы и даже годы.

|на поиск

|без использования

|систему поисковую

|систему такую

|в течении

| |течении времени

| | |времени короткого

|находить информацию

| |информацию такую

|могут уходить

** Практика показывает, что в настоящий момент эффективно и правильно использовать поисковые системы умеют не более 3% человек.

|в момент

|умеют использовать

| |использовать системы

| | |системы поисковые

==== и так далее..

Видно что связывание слов в предложении не выше 35% от количества слов вообще :((

вот почти на 70% "понятое" Системой предложение:

**В идеале процесс поиска должен выглядеть примерно так.

|в идеале

|процесс поиска

|процесс должен

| |должен выглядеть

** Эти операторы не только существенно облегчат вам жизнь, но и помогут находить такую информацию, которую с помощью простых запросов найти совершенно невозможно.

|операторы эти

|операторы облегчат

|помогут находить

| |находить информацию

| | |информацию такую

|с помощью

| |помощью запросов

| | |запросов простых

** Будем считать, что с основными операторами языка запросов поисковых систем мы уже ознакомились.

|с операторами

| |операторами языка

| | |языка запросов

| | | |запросов систем

| | | | |систем поисковых

|мы ознакомились

Теперь, о том как Система ищет. Если она "поняла" часть предложения, то переворачивает "понятое" во внутреннюю базу знаний. Потом пользователь дает запрос, например "умеют использовать поисковые системы". Система этот запрос должна найти в своей базе знаний и выдать найденный смысл или оригинал текста. А может и не найти...

С уважением Ермолаев Дмитрий
VT
На сайте с 27.01.2001
Offline
130
#22
Если она "поняла" часть предложения, то переворачивает "понятое" во внутреннюю базу знаний.

До сих пор совсем не понятно, что значит "понятое". Кроме того, различные словосочетания с одним и тем же лексическим значением (например, поисковая система или поисковая машина) означают разные вещи, если я правильно понял.

Тогда о какой "осмысленности" может идти речь?

I
На сайте с 22.09.2003
Offline
36
#23
Как писал Vyacheslav Tikhonov

До сих пор совсем не понятно, что значит "понятое".

Об этом Вам даже крутые философы ничего не скажут, и нет определения в толковом словаре, сами же говорите, что там зацикливание идет


Кроме того, различные словосочетания с одним и тем же лексическим значением (например, поисковая система или поисковая машина) означают разные вещи, если я правильно понял.
Тогда о какой "осмысленности" может идти речь?

далее в Системе должны появиться знания об этом. Например, что "поисковая машина" это равнозначно "поисковая система". На основе этих знаний Система будет эмулироваь процесс "понимания"-"мышления". Тоесть в запросе пользователя "поисковая система", а Система ему находит текст где стоит "поисковик". Вот для этого и нужен тезаурус (толковый словарь).

spark
На сайте с 24.01.2001
Offline
130
#24
Вот для этого и нужен тезаурус (толковый словарь).

предлагаю вам вместо толкового словаря воспользоваться энциклопедическим. Во-первых там также личности представлены. Во вторых, если ваша система разберет сами словарные статьи, она получит почти все связи, возможные для определенного термина/личности, выраженные в наиболее лаконичной форме.

Например http://encycl.yandex.ru/cgi-bin/art.pl?art=io/io/19000/12991.htm&encpage=io&mrkp=/yandbtm7%3Fq%3D1562668508%26p%3D0%26g%3D1%26d%3D0%26ag%3Denc_abc%26tg%3D1%26p0%3D0%26q0%3D637614192%26d0%3D1%26script%3D/yandpage%253F

I
На сайте с 22.09.2003
Offline
36
#25
Как писал spark

предлагаю вам вместо толкового словаря воспользоваться энциклопедическим. Во-первых там также личности представлены. Во вторых, если ваша система разберет сами словарные статьи, она получит почти все связи, возможные для определенного термина/личности, выраженные в наиболее лаконичной форме.
Например http://encycl.yandex.ru/cgi-bin/art.pl?art=io/io/19000/12991.htm&encpage=io&mrkp=/yandbtm7%3Fq%3D1562668508%26p%3D0%26g%3D1%26d%3D0%26ag%3Denc_abc%26tg%3D1%26p0%3D0%26q0%3D637614192%26d0%3D1%26script%3D/yandpage%253F

спасибо за ссылку. Система еще не готова глотать такие тексты, так как там уйма умолчаний и сокращений. например:

Агафангел
Агафангел (в миру Александр Лаврентьевич Преображенский) (1854-1928), митрополит Ярославский и Ростовский (1917). В 1922 распоряжением патриарха Тихона назначен временноуправляющим делами Русской…

здесь в скобках уже есть умолчание "в миру..." что в миру? назывался или жил или спал или был родственником? Нам-то людям понятно из контекста что "Агафанагел ЗВАЛСЯ в миру ..." Опять же в скобках стоят года - год рождения или смерти или свадьбы? Опять же во втором предложении умолчание на местоимение. правильно было бы написать "Он в 1922 ГОДУ распоряжением...". Короче работы с толковыми словарями тоже еще уйма нужно делать :(

Вот юридические документы Система лучше разбирает - так как там меньше умолчаний и недосказываний. Там ЕЯ больше на алгоритмический язык смахивает. Хотя тоже там еще далеко до нормального "понимания" Системой.

spark
На сайте с 24.01.2001
Offline
130
#26
Вот юридические документы

ну-ну, "нижеподписавшиеся", "именуемый в дальнейшем Исполнитель", "Приложение 3 настоящего договора". Ногу сломит любая система. Начнет всех исполнителей и всех нижеподписавшихся искать :)

Что до того, что стиль словарей - неполные предложения, полностью согласен, потому как требуется максимальная лаконичность (нет свободного места на странице). В реальной ситуации мы восстанавливаем субъект по лицу глагола. Здесь же ценно то, что словарь дает "синонимы" (это в корне не верно, но назовем их так): Агафангел-Преображенский-митрополит Ярославский- управляющий делами и т.д. По-моему это стоит того, чтобы с этим повозиться и найти решение возникших трудностей с неполными предложениями.

I
На сайте с 22.09.2003
Offline
36
#27

Вы бы взялись за то чтобы привести все словарные статьи в нормальный вид? То есть без умолчаний и конкретными смысловыми связями.

spark
На сайте с 24.01.2001
Offline
130
#28

Да есть мне на ближайшие полгода что приводить в нормальный вид :)

Кстати, очень близкое по дебильности и обширности задание, но из области морфологии :) Посмотрим, как оно пойдет.

I
На сайте с 22.09.2003
Offline
36
#29

вот и получается, что круг замкнулся - для того чтобы инвестор вложился в осмысленный поиск нужно что бы он (поиск) поумнел, а для этого нужно толковый словарь весь перелапатить, а для этого нужны инвестиции. :(

spark
На сайте с 24.01.2001
Offline
130
#30

Ну, я ведь не отказываюсь "лопатить" :) Просто сейчас мне нужно "лопатить" другое. За бакалаврскую работу. Круг размыкается. Студенты спасут мир :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий