icreator

Рейтинг
36
Регистрация
22.09.2003
Как писал Ashmanov
б) разделите общую идею системы на несколько составляющих более низкого уровня (например, синтаксис отдельно, вычисление антецедентов для местоимений отдельно, латентное семантическое индексирование отдельно, ...). Объясните, зачем они нужны в вашей теории. Дайте оценку будущего качества этих составляющих, сравните с аналогами.

Это все хорошо, НО ведь те идеи которые я имею ничем не защищены. Поэтому просто так их открывать я не собираюсь. Думаю точно в том же проблема остальных разработчиков. Как тут быть? Как защитить свою интеллектуальную собственность так чтобы всем было хорошо? Так что бы и инвестор мог понять очем речь и почему это выгодно или почему это будет выгодно и почему это возможно реализовать, и еще так чтобы разработчик остался защищенным от недобросовестных действий того, кто ознакамливается с интеллектуальной собственностью? На уровне патента здесь вряд ли можно защитить, да и не нужно! Так как сразу будет уйма пиратов и самому инвестору это (борьба с пиратами) тоже не понравится. Вот я готов предоставить свои знания, в том случае если будет гарантия их защиты. Вы как-нибудь эту задачу можете решить?

по многому критика верная... Одному действительно не подсилу поднять всю тему до уровня нормального приложения. Пути кооперации как правило непросты, и людей для кооперации не найдешь... Потому-то воз и поныне там. Всмысле, развития реальной программы не наблюдается за 2 прошедших года, хотя идей нереализоанных полно. А инвесторы не верят... Вот у Вас, Игорь, ведь есть коллектив разработчиков и возможности инвестирования есть. А Вам не интересно... (я уже Вам предлагал свое участие, положительного ответа не получил)... Да и многим предлагал начать разработки. Везде отказ. А с большой буквы "Система" - потому что хоть так надежда на реализацию подкрепляется. На счет интеллектальности моя программа не претендует, думать она не умеет как человек, но обрабатывать инфо будет так же как это делает человек. Где тут грать интеллекта? Калькулятор тоже обрабатывает инфо - он интеллектуальный? Возможно, но он не думающий. Есть вообще люди, которые верят в то, что можно создать осмысленный поиск и осмысленный перевод текста? Давайте объединимся, оформим сотрудничество по человески и начнем сообща делать кто что может и кто что предлагает. Собственность в конечном продукте по % использованых знаний и использованного труда. Но желательно чтобы все находились в одном городе и контактировали друг с другом лично. Короче можно даже небольшой офис взять на 5-х человек разработчиков. кто готов обсудить это звоните: мой телефон (095)736-1028 Дмитрий

вот и получается, что круг замкнулся - для того чтобы инвестор вложился в осмысленный поиск нужно что бы он (поиск) поумнел, а для этого нужно толковый словарь весь перелапатить, а для этого нужны инвестиции. :(

Вы бы взялись за то чтобы привести все словарные статьи в нормальный вид? То есть без умолчаний и конкретными смысловыми связями.

Как писал spark

предлагаю вам вместо толкового словаря воспользоваться энциклопедическим. Во-первых там также личности представлены. Во вторых, если ваша система разберет сами словарные статьи, она получит почти все связи, возможные для определенного термина/личности, выраженные в наиболее лаконичной форме.
Например http://encycl.yandex.ru/cgi-bin/art.pl?art=io/io/19000/12991.htm&encpage=io&mrkp=/yandbtm7%3Fq%3D1562668508%26p%3D0%26g%3D1%26d%3D0%26ag%3Denc_abc%26tg%3D1%26p0%3D0%26q0%3D637614192%26d0%3D1%26script%3D/yandpage%253F

спасибо за ссылку. Система еще не готова глотать такие тексты, так как там уйма умолчаний и сокращений. например:

Агафангел
Агафангел (в миру Александр Лаврентьевич Преображенский) (1854-1928), митрополит Ярославский и Ростовский (1917). В 1922 распоряжением патриарха Тихона назначен временноуправляющим делами Русской…

здесь в скобках уже есть умолчание "в миру..." что в миру? назывался или жил или спал или был родственником? Нам-то людям понятно из контекста что "Агафанагел ЗВАЛСЯ в миру ..." Опять же в скобках стоят года - год рождения или смерти или свадьбы? Опять же во втором предложении умолчание на местоимение. правильно было бы написать "Он в 1922 ГОДУ распоряжением...". Короче работы с толковыми словарями тоже еще уйма нужно делать :(

Вот юридические документы Система лучше разбирает - так как там меньше умолчаний и недосказываний. Там ЕЯ больше на алгоритмический язык смахивает. Хотя тоже там еще далеко до нормального "понимания" Системой.

Как писал Vyacheslav Tikhonov

До сих пор совсем не понятно, что значит "понятое".

Об этом Вам даже крутые философы ничего не скажут, и нет определения в толковом словаре, сами же говорите, что там зацикливание идет


Кроме того, различные словосочетания с одним и тем же лексическим значением (например, поисковая система или поисковая машина) означают разные вещи, если я правильно понял.
Тогда о какой "осмысленности" может идти речь?

далее в Системе должны появиться знания об этом. Например, что "поисковая машина" это равнозначно "поисковая система". На основе этих знаний Система будет эмулироваь процесс "понимания"-"мышления". Тоесть в запросе пользователя "поисковая система", а Система ему находит текст где стоит "поисковик". Вот для этого и нужен тезаурус (толковый словарь).

Как писал Vyacheslav Tikhonov

Это все, безусловно, здорово, на что реально удалось вытащить из моего документа?

чего-то я посмотрел отчет Системы и прослезился... На самом деле она смогла только 35% понять, хотя статистику мне выдала в цифирях на уровне 50%. вот примеры:

Результаты разбора реального текста синтаксическим анализатором.

Здесь: "**" - обозначает ЕЯ предложение которое прочитала Система, а под ним сообщение Системы чего она "поняла". Далее мой коментарий.

Формат сообщения Системы в виде строк в каждой из которых пара связанных слов, первое слово главное. Сдвиг строки указывает на вложнное подчинение.

** Ни для кого не секрет, что современный интернет представляет уникальное безграничное хранилище знаний, которое позволяет получить ответ практически на любой вопрос.

|на вопрос

|представляет хранилище

| |хранилище безграничное

|которое позволяет

| |позволяет получить

| | |получить ответ

то есть из этого предложения Система "поняла" что: "ЧТО-ТО представляет безграничное хранилище", что: "которое позволяет получить ответ". Здесь надо заметить, что в текущей реализации ускоренного анализатора местоимения типа "который" не связываются со смыслом текста, то есть Система не знает к чему это "которое" относится. В медленной версии анализатора все местоимения типа "который" успешно связывались со своими сутями. То есть здесь бы "которое" подчинилось бы "хранилище".

** Фактически, здесь собрано все лучшее, изобретенное и созданное человечеством как за всю его долгую историю, так и новинки, появившиеся буквально недавно.

|историю долгую

здесь Система вообще только два слова связала :(

** Однако появление такой огромной и обширной библиотеки не могло не привести к перегруженности информационного пространства.

|библиотеки обширной

|к перегруженности

| |перегруженности пространства

| | |пространства информационного

|могло привести

здесь Система "поняла" что: "библиотека обширная", и что "к перегруженности информационного пространства", и что "могло привести". Как видно лигика "НЕ" не обработалась, хотя в медленной версии анализатора "НЕ" успешно связывалось.

** Специалисты по-разному оценивают размеры сети, однако в большинстве своем сходятся во мнении, что сейчас здесь находятся миллиарды страниц, причем большая часть их исчезает или обновляется в течение непродолжительного периода времени.

|в большинстве

|во мнении

|специалисты оценивают

| |оценивают размеры

| | |размеры сети

|миллиарды страниц

|часть большая

|часть их

|часть исчезает

|в течение

| |течение периода

| | |периода непродолжительного

| | |периода времени

Здесь "понято" что: "специалисты оценивают размеры сети", и что "в течении непродолжительного времени", и что "большая их часть исчезает".

** Существует ли какая-нибудь возможность ориентироваться в этом практически бесконечном неиссякаемом быстроменяющемся потоке информации?

|возможность какая

|потоке информации

|существует ориентироваться

"существует ориентироваться" ? с чего бы это здесь так связалось?

** Попробуем разобраться.

|попробуем разобраться

** Частично эту проблему решают специальные информационно-поисковые системы, которые умеют самостоятельно собирать информацию.

|решают проблему

| |проблему эту

|системы поисковые

|которые умеют

| |умеют собирать

| | |собирать информацию

Здесь наречие "самостоятельно" не включено в смысл "которые умеют собирать информацию", потому как наречия отключены. в медленном анализаторе наречия успешно "осмысливались"

** Естественно, каждая такая система имеет ограниченные возможности и часто содержит уже устаревшую информацию, но, к сожалению, ничего лучшего до сих пор не придумано.

|система такая

|система имеет

|ограниченные возможности

** Тем не менее, сделав такую поисковую систему вашим другом, можно в течении достаточно короткого времени находить такую информацию, на поиск которой без использования интернет могут уходить месяцы и даже годы.

|на поиск

|без использования

|систему поисковую

|систему такую

|в течении

| |течении времени

| | |времени короткого

|находить информацию

| |информацию такую

|могут уходить

** Практика показывает, что в настоящий момент эффективно и правильно использовать поисковые системы умеют не более 3% человек.

|в момент

|умеют использовать

| |использовать системы

| | |системы поисковые

==== и так далее..

Видно что связывание слов в предложении не выше 35% от количества слов вообще :((

вот почти на 70% "понятое" Системой предложение:

**В идеале процесс поиска должен выглядеть примерно так.

|в идеале

|процесс поиска

|процесс должен

| |должен выглядеть

** Эти операторы не только существенно облегчат вам жизнь, но и помогут находить такую информацию, которую с помощью простых запросов найти совершенно невозможно.

|операторы эти

|операторы облегчат

|помогут находить

| |находить информацию

| | |информацию такую

|с помощью

| |помощью запросов

| | |запросов простых

** Будем считать, что с основными операторами языка запросов поисковых систем мы уже ознакомились.

|с операторами

| |операторами языка

| | |языка запросов

| | | |запросов систем

| | | | |систем поисковых

|мы ознакомились

Теперь, о том как Система ищет. Если она "поняла" часть предложения, то переворачивает "понятое" во внутреннюю базу знаний. Потом пользователь дает запрос, например "умеют использовать поисковые системы". Система этот запрос должна найти в своей базе знаний и выдать найденный смысл или оригинал текста. А может и не найти...

Как писал bvd

1) проводили лы Вы проверку синтаксического разбора на корпусе
текстов величиной в 1 Мбайт?
(а лучше для текстов разных жанров)

на размере 437кБ формата .txt



2) какой процент предложений разобран а)правильно, какой б)частично
правильно (с незначащими ошибками), какой процент в)ошибочных из
разобранных, сколько не разобрано с).

я сейчас посмотрел на реальном тексте, результаты не ахти:

а) -0%, б) частично правильно имеется ввиду связи некоторые установлены, но среди них нет неправильных - 80%, в) 20%, с) - в каждом что-то да связано. Но процент связывания не по предложениям, а по словам: около 35% - количество слов учавствующих в связях к общему числу слов. Тут нужно заметить что:

- оключена обработка наречий

- отключен поиск подчинения прелогов

- отключен поиск починения существительных глаголу

- отключена обработка причастий

- не работает обработка списков

- не работает обработка частиц (а, но, и, или, не...)

- не работает связывание местоимений


Если эти цифры для хороших не превосходят 50% (что обычно), то, к сожалению, надо сильно постараться, чтобы найти приложение, где это может работать (а тем более поискать, где это будет лучше работать, чем более простые методы).

думаю что в интерент-поиске очень даже должно пригодиться.


Кроме того, у Вас упоминается Prolog - для синтаксического анализа требуются базы правил большого размера - а у реализаций Prolog'a с этим ранее были проблемы.
То есть вопрос - какой размер Вашей базы правил?

ПроЛог я использую ViP 5.0 - у него таких проблем нет. Есть проблема со скоростью работы с фактами - то есть тормоза по сравнению с использованием обычных переменных в обычных алгоритмических языках программирования налицо, хотя относительно других ПроЛогов факты у ViP очень быстрые.

Как писал Ashmanov
При записи пишущим многомерной структуры смысла, существующей в его уме, в виде более плоской структуры текста она сжимается, а потом в уме читающего разжимается - с потерями и искажениями. Мысль изреченная есть ложь.
Поэтому любые претензии на создание системы, "извлекающей" смысл - шарлатанство. Кролика в шляпе нет.

Вообще, Вы, Игорь, очень правильно все заметили. Машина не может извлекать СМЫСЛ, она лишь выдает ту "плоскую структуру текста", а человек уже эту структуру разжимает в своем понимании "с потерями и искажениями". Но не соглашусь тем, что осмысленного машинного поиска быть не может. Я сужу по своей Системе о-поиска. Она находит все же более подходящие смысловые "плоские структуры текста", чем то что реализовано на обычных поисковиках, например даже на Вашем Яндексе, при всем к нему уважении. И кстати, этот обычный поиск ещё все наровят "интеллектуальным" обозвать! Вот поищите в инете "интеллектальный поиск" и Вы найдете кучу криков, что у них он есть, хотя на самом деле там стоит поисковик Яндеса. Так почему бы поиск, который делает моя Система, не назвать "осмысленный поиск" или "поиск по смыслу"?

инфо по Системе о-поиска на моем сайте представлена:

www.icreator.ru\isearch

1 234
Всего: 37