Новые технологии в поиске

B
На сайте с 02.09.2002
Offline
42
bvd
#31
Как писал trink

О твоем последним на тот момент посте.
Как писал trink

Ну эти погрешности могут варьироваться от реализации к реализации. Не секрет что есть хорошие продукты а есть плохие.

О! Может быть расскажете о ХОРОШИХ?

Я надеюсь, имеются в виду ХОРОШИЕ программные продукты,

СУЩЕСТВЕННО использующие "семантические сети"?

Я то полагал, что посредством только автоматического формирования ассоциативных сетей хорошего продукта получить нельзя. Но может быть я ошибаюсь?

T
На сайте с 15.04.2003
Offline
36
#32

Имелось ввиду, что в результате качественной реализации связи вроде "вождение" -> "серпуховский район" могут быть отфильтрованы как незначительные.

B
На сайте с 02.09.2002
Offline
42
bvd
#33
Как писал trink
Имелось ввиду, что в результате качественной реализации связи вроде "вождение" -> "серпуховский район" могут быть отфильтрованы как незначительные.

В больших масштабах - не могут В ПРИНЦИПЕ,

в частности из-за:

1) наличия многозначности в языке.

менеджер - президент

менеджер - приказчик в магазине

2) неопределенности с набором хороших/плохих отношений

попробуйте объяснить, почему:

а) "вождение" -- "серпуховский район" плохое отношение

б) "вождение" -- "нива" - так себе (скорее плохое)

в) "вождение" -- "автотранспорт" (получше)

3) да и, вообще, я уже писал здесь:

просто "вождение" НЕЛЬЗЯ связывать напрямую ни с одним из объектов на диаграммке.

Диаграмма выглядит красиво, но содержит в себе наколку пользователя.

Дело в том, что диаграммка-то расчитана на человека, который

подсознательно объединяет "вождение" + "автотранспорт" в новый объект "вождение автотранспорта", которого НЕТ на диаграмме. А скажем "вождение" + "перебежка" не объединяет.

(Говорят, что если процент правильного на экране около 30%,

то 70% ошибок человек просто не замечает).

Поэтому-то, IMHO красиво, возможно, полезно для помощи при визуализации результатов, но совершенно бесполезно при попытке использовать в дальнейшей машинной обработке (той или иной форме АВТОМАТИЧЕСКОГО логического вывода).

, имеется в виду .

spark
На сайте с 24.01.2001
Offline
130
#34

Может вы просветите, почему эта связь возникла? Меня например "милиция - ухо" больше всего вдохновила. У каждого милиционера есть ухо, что ж тут непонятного. Но почему она вообще возникла и при чем тут тогда семантика?

B
На сайте с 02.09.2002
Offline
42
bvd
#35
Как писал spark
Может вы просветите, почему эта связь возникла? Меня например "милиция - ухо" больше всего вдохновила. У каждого милиционера есть ухо, что ж тут непонятного. Но почему она вообще возникла и при чем тут тогда семантика?

запостили одновременно...

частичный ответ - в предыдущем посте

B
На сайте с 02.09.2002
Offline
42
bvd
#36

что-то мне не удается сразу дописать все

(мысль теряется, склероз, навер....) :)

так вот, я думаю неспроста эти самые объекты типа

"вождение автотраспорта", "вождение в пьяном состоянии"

(это хорошие объекты) не приведены.

Потому что сейчас ни у кого в мире нет рецептов отфильтровать с надлежащим качеством автоматически эти хорошие от кучи плохих.

Есть даже проблемка с генерацией такого рода объектов, особенно предложных. Морфологические программы умеют выдавать правильную форму среди выдаваемого множества вариантов для неизвестного словарю слова. Но выбрать эту правильную форму из вариантов...

spark
На сайте с 24.01.2001
Offline
130
#37

Хорошо, а пытался ли кто-нибудь строить сем. сети не на основе подшивок газет за 97 год, а на основе толковых словарей, скажем? Киньте ссылочку, если кто такие проекты знает.

B
На сайте с 02.09.2002
Offline
42
bvd
#38
Как писал spark
Хорошо, а пытался ли кто-нибудь строить сем. сети не на основе подшивок газет за 97 год, а на основе толковых словарей, скажем? Киньте ссылочку, если кто такие проекты знает.

с толковыми словарями народу пыталось работать жуть (идея то лежит на поверхности), но, конечно :), безрезультатно

ссылки лень сейчас искать

Толковые словари пишут люди для ЛЮДЕЙ же.

Из-за этого:

1) проблема значений - обычно выделяют слишком много значений (которые нужны человеку, как бы редки они не были), которые машина "не переваривает" (ей то нужны "типичные").

2) проблема описания. Составители стараются отразить в полном объеме и ДОСТУПНОЙ форме понятие. В р-те понятие описывается:

а) через далекие от него (такие пары не встречаются в обычных текстах)

б) непоследовательно, как через вышестоящие, так и через нижестоящие (иногда, правда, без этого не обойтись - понятия бывают "аналитические" и "синтетические", но здесь не об этом)

в) описывается правильно, но не совсем так как это понимается в жизни (используется в большинстве текстов),

типа (по памяти) "очки - оптический прибор в виде полумаски или ..." То есть отражаются одни черты (не всегда частотные) и не отражаются другие (в конкретном примере - очки как товар, как предмет моды и т.п.).

3) проблема "зацикливания"

Большой процент описания А через Б, а затем Б через А.

Я слышал доклад, где человек нашел цикл длиной 13.

AA
На сайте с 16.04.2001
Offline
70
#39
Как писал bvd

Поэтому-то, IMHO красиво, возможно, полезно для помощи при визуализации результатов, но совершенно бесполезно при попытке использовать в дальнейшей машинной обработке (той или иной форме АВТОМАТИЧЕСКОГО логического вывода).

Борис, вот тут, боюсь ты слишком категоричен.

Мне кажется, что, как минимум, для задачи автоклассификации, автоматические ("механистические", как ты называешь) методы использовать можно и нужно. Результаты у нас есть, и вроде бы, сравнительно неплохие для класса задач с автоматическим построением шаблона рубрики по образцу. Да, конечно можно говорить о несовершенности такой технологии: подчищенный человеком шаблон даст лучшие результаты. Но у каждой технологии есть свои ограничения и области применимости: например, когда недостаточно времени и/или квалификации почистить шаблоны.

С уважением, Антонов Александр.
B
На сайте с 02.09.2002
Offline
42
bvd
#40
Как писал AlexA

Мне кажется, что, как минимум, для задачи автоклассификации, автоматические ("механистические", как ты называешь) методы использовать можно и нужно. Результаты у нас есть, и вроде бы, сравнительно неплохие для класса задач с автоматическим построением шаблона рубрики по образцу.

насчет этого спорить не буду - результаты могут быть неплохими, в смысле - сопоставимы с лучшими для некоторых задач,

но здесь вроде обсуждалось, что это панацея - должно быть ЛУЧШЕ всего остального, причем посредством достаточно простых методов. Это - сомнительно.

Насчет автоклассификации - надеюсь ваша команда послала прогоны в РОМИП?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий