bvd

Рейтинг
42
Регистрация
02.09.2002
Как писал Maxim Golubev
В этом форуме при попытке передать (поделиться) своими идеями я получал только критические замечания. Не буду спорить, многие из них верны. Уж не однократно серъёзно задумывался, может и действительно в корне ошибаюсь. И тут, вижу вот это: наш уважаемый администратор сайта публикует статью Станислава Тактаева, в которой описано всё то, о чём я говорил, только более грамотно. Цитирую:

Целью данной работы является выработка теоретического подхода к математическому анализу смысла понятий как объектов окружающего мира и, с определенным уровнем абстракции, выражаемых в человеческих языках, путем их систематизации в многомерном пространстве ( Пространстве понятий) и разработка математического аппарата преобразования (действия над) понятиями - алгебры понятий.

Ну я это дело назвал N-мерным информационным пространством, но суть одна! О чём я писал год назад: http://213.33.170.91/about.htm

"математический анализ смысла понятий" - как минимум, неудачный термин, следуя красивой формулировке которого можно потерять много времени:

1) математический аппарат смысла понятий уже разработан (см. Formal Concept Analysis)

2) ничего конструктивного там доказать не удалось. Более того доказана "антиконструктивная" теорема, смысл которой, что если есть пространство из N признаков, то существует 2**N понятий

3) в лингвистике для описания "алгебры понятий" рассматривался т.н. "компонентный анализ значения". Так вот, "выяснилось", что большиство "понятий" в языке не раскладываются на компоненты (практически всегда имеет место некоторое "облако смысла")

IMHO построение общей теории не очень продуктивно, гораздо полезнее ограничить то, что Вы называете "смыслом" в конкретной предметной области тогда:

а) громких заявлений по давно уже пройденным вещам будет меньше

б) может и результаты интересные получатся

А статей на эту тему написано много, особенно с таким вот впечатляющим списком литературы...

Причем, сама статья, конечно, хороша как ликбез .

Как писал spark

Существуют ли программы, которые могут представить связи такой системы в графическом виде?

Программ отображения графов связанных объектов много,

например, в продуктах, посвященных исследованию ПО.

В некоторых случаях - классические задачи.

Как писал spark

Не толковый словарь всем обо всем, а терминологический стандарт какой-нибудь узкой предметной области. Т.е. составлялся терминологами, большинство указанных вами проблем снято. Например, множественность значений терминам не характерна, логические циклы сняты и т.п.

Общее мнение, что чем уже область тем дальше можно продвинуться. Например, call-центры.

Чем шире - тем сложнее. С терминами стоит быть по-аккуратнее -

люди-то себя понимают, но каждый чуть-чуть по-разному.

Недавно видел как два доктора наук обнаружили, что один и тот же термин понимали неодинаково.

Может быть дело в том, что "термин" (в узком смысле - практически понятие), и его смысл не изолирован, но зависит от места в терминологической системе. Поэтому даже если термины лексически совпадают, но находятся в разном окружении - проблемы.

При этом - маленькую терминосистему все могут обозревать целиком, но зависит от задачи, хватит ли мощности системы для выражения цели. Если не хватит - идет подкачка терминов из внешнего мира - и см. выше.

Как писал AlexA

Мне кажется, что, как минимум, для задачи автоклассификации, автоматические ("механистические", как ты называешь) методы использовать можно и нужно. Результаты у нас есть, и вроде бы, сравнительно неплохие для класса задач с автоматическим построением шаблона рубрики по образцу.

насчет этого спорить не буду - результаты могут быть неплохими, в смысле - сопоставимы с лучшими для некоторых задач,

но здесь вроде обсуждалось, что это панацея - должно быть ЛУЧШЕ всего остального, причем посредством достаточно простых методов. Это - сомнительно.

Насчет автоклассификации - надеюсь ваша команда послала прогоны в РОМИП?

Как писал spark
Хорошо, а пытался ли кто-нибудь строить сем. сети не на основе подшивок газет за 97 год, а на основе толковых словарей, скажем? Киньте ссылочку, если кто такие проекты знает.

с толковыми словарями народу пыталось работать жуть (идея то лежит на поверхности), но, конечно :), безрезультатно

ссылки лень сейчас искать

Толковые словари пишут люди для ЛЮДЕЙ же.

Из-за этого:

1) проблема значений - обычно выделяют слишком много значений (которые нужны человеку, как бы редки они не были), которые машина "не переваривает" (ей то нужны "типичные").

2) проблема описания. Составители стараются отразить в полном объеме и ДОСТУПНОЙ форме понятие. В р-те понятие описывается:

а) через далекие от него (такие пары не встречаются в обычных текстах)

б) непоследовательно, как через вышестоящие, так и через нижестоящие (иногда, правда, без этого не обойтись - понятия бывают "аналитические" и "синтетические", но здесь не об этом)

в) описывается правильно, но не совсем так как это понимается в жизни (используется в большинстве текстов),

типа (по памяти) "очки - оптический прибор в виде полумаски или ..." То есть отражаются одни черты (не всегда частотные) и не отражаются другие (в конкретном примере - очки как товар, как предмет моды и т.п.).

3) проблема "зацикливания"

Большой процент описания А через Б, а затем Б через А.

Я слышал доклад, где человек нашел цикл длиной 13.

что-то мне не удается сразу дописать все

(мысль теряется, склероз, навер....) :)

так вот, я думаю неспроста эти самые объекты типа

"вождение автотраспорта", "вождение в пьяном состоянии"

(это хорошие объекты) не приведены.

Потому что сейчас ни у кого в мире нет рецептов отфильтровать с надлежащим качеством автоматически эти хорошие от кучи плохих.

Есть даже проблемка с генерацией такого рода объектов, особенно предложных. Морфологические программы умеют выдавать правильную форму среди выдаваемого множества вариантов для неизвестного словарю слова. Но выбрать эту правильную форму из вариантов...

Как писал spark
Может вы просветите, почему эта связь возникла? Меня например "милиция - ухо" больше всего вдохновила. У каждого милиционера есть ухо, что ж тут непонятного. Но почему она вообще возникла и при чем тут тогда семантика?

запостили одновременно...

частичный ответ - в предыдущем посте

Как писал trink
Имелось ввиду, что в результате качественной реализации связи вроде "вождение" -> "серпуховский район" могут быть отфильтрованы как незначительные.

В больших масштабах - не могут В ПРИНЦИПЕ,

в частности из-за:

1) наличия многозначности в языке.

менеджер - президент

менеджер - приказчик в магазине

2) неопределенности с набором хороших/плохих отношений

попробуйте объяснить, почему:

а) "вождение" -- "серпуховский район" плохое отношение

б) "вождение" -- "нива" - так себе (скорее плохое)

в) "вождение" -- "автотранспорт" (получше)

3) да и, вообще, я уже писал здесь:

просто "вождение" НЕЛЬЗЯ связывать напрямую ни с одним из объектов на диаграммке.

Диаграмма выглядит красиво, но содержит в себе наколку пользователя.

Дело в том, что диаграммка-то расчитана на человека, который

подсознательно объединяет "вождение" + "автотранспорт" в новый объект "вождение автотранспорта", которого НЕТ на диаграмме. А скажем "вождение" + "перебежка" не объединяет.

(Говорят, что если процент правильного на экране около 30%,

то 70% ошибок человек просто не замечает).

Поэтому-то, IMHO красиво, возможно, полезно для помощи при визуализации результатов, но совершенно бесполезно при попытке использовать в дальнейшей машинной обработке (той или иной форме АВТОМАТИЧЕСКОГО логического вывода).

, имеется в виду .

Как писал trink

О твоем последним на тот момент посте.
Как писал trink

Ну эти погрешности могут варьироваться от реализации к реализации. Не секрет что есть хорошие продукты а есть плохие.

О! Может быть расскажете о ХОРОШИХ?

Я надеюсь, имеются в виду ХОРОШИЕ программные продукты,

СУЩЕСТВЕННО использующие "семантические сети"?

Я то полагал, что посредством только автоматического формирования ассоциативных сетей хорошего продукта получить нельзя. Но может быть я ошибаюсь?

Как писал trink
Ну эти погрешности могут варьироваться от реализации к реализации. Не секрет что есть хорошие продукты а есть плохие.

это Вы о чем?

Хотелось бы дописать про ассоциативные сети.

Общеизвестный факт, что если А встречается в 90% текстов, где встречается Б, а Б встречается менее чем в 10%, где встречается А, то скорее всего А "выше" чем Б.

Проблема в этом "скорее всего".

На практике, качество установления

отношений, относящихся к "семантическим" РЕЗКО падает

(в списке упорядоченных по отношению этих "вероятносте").

Механистическими методами невозможно отличить хорошие связи от плохих.

В результате получается сеть, где большой процент ошибочных отношений между объектами.

Что-то и с этим можно делать, но говорить, что это "семантическая сеть"?

Сейчас возможна только ручная выверка, а это достаточно большие трудозатраты.

Причем, обратите внимание, на вопросик о "плохих" и "хороших" отношениях. Надо ЗНАТЬ какие отношения хороши для КАЖДОЙ задачи и иметь критерии проверять установленные отношения.

Всего: 133