Попробуйте объяснить, почему это связь возникла - Поисковые технологии

Новые технологии в поиске

aka352 · 2004-06-23T06:35:18.0000000Z

Хочется верить, что в скором времени поисковые системы отойдут от анализа формальных признаков для определения релевантности и начнут продвигать новые технологии. На мой взгляд, самой перспективной является технология семантического анализа контента и определение смысловой близости запросу.

B

42

bvd

3 сентября 2004, 13:01

#31

Как писал trink

О твоем последним на тот момент посте.

Как писал trink

Ну эти погрешности могут варьироваться от реализации к реализации. Не секрет что есть хорошие продукты а есть плохие.

О! Может быть расскажете о ХОРОШИХ?

Я надеюсь, имеются в виду ХОРОШИЕ программные продукты,

СУЩЕСТВЕННО использующие "семантические сети"?

Я то полагал, что посредством только автоматического формирования ассоциативных сетей хорошего продукта получить нельзя. Но может быть я ошибаюсь?

T

36

trink

3 сентября 2004, 13:12

#32

Имелось ввиду, что в результате качественной реализации связи вроде "вождение" -> "серпуховский район" могут быть отфильтрованы как незначительные.

B

42

bvd

3 сентября 2004, 13:34

#33

Как писал trink
Имелось ввиду, что в результате качественной реализации связи вроде "вождение" -> "серпуховский район" могут быть отфильтрованы как незначительные.

В больших масштабах - не могут В ПРИНЦИПЕ,

в частности из-за:

1) наличия многозначности в языке.

менеджер - президент

менеджер - приказчик в магазине

2) неопределенности с набором хороших/плохих отношений

попробуйте объяснить, почему:

а) "вождение" -- "серпуховский район" плохое отношение

б) "вождение" -- "нива" - так себе (скорее плохое)

в) "вождение" -- "автотранспорт" (получше)

3) да и, вообще, я уже писал здесь:

просто "вождение" НЕЛЬЗЯ связывать напрямую ни с одним из объектов на диаграммке.

Диаграмма выглядит красиво, но содержит в себе наколку пользователя.

Дело в том, что диаграммка-то расчитана на человека, который

подсознательно объединяет "вождение" + "автотранспорт" в новый объект "вождение автотранспорта", которого НЕТ на диаграмме. А скажем "вождение" + "перебежка" не объединяет.

(Говорят, что если процент правильного на экране около 30%,

то 70% ошибок человек просто не замечает).

Поэтому-то, IMHO красиво, возможно, полезно для помощи при визуализации результатов, но совершенно бесполезно при попытке использовать в дальнейшей машинной обработке (той или иной форме АВТОМАТИЧЕСКОГО логического вывода).

, имеется в виду .

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

130

spark

3 сентября 2004, 13:34

#34

Может вы просветите, почему эта связь возникла? Меня например "милиция - ухо" больше всего вдохновила. У каждого милиционера есть ухо, что ж тут непонятного. Но почему она вообще возникла и при чем тут тогда семантика?

Разъяснение правил форума, ответы Как менять url без Упал доход

B

42

bvd

3 сентября 2004, 13:36

#35

Как писал spark
Может вы просветите, почему эта связь возникла? Меня например "милиция - ухо" больше всего вдохновила. У каждого милиционера есть ухо, что ж тут непонятного. Но почему она вообще возникла и при чем тут тогда семантика?

запостили одновременно...

частичный ответ - в предыдущем посте

B

42

bvd

3 сентября 2004, 13:45

#36

что-то мне не удается сразу дописать все

(мысль теряется, склероз, навер....) :)

так вот, я думаю неспроста эти самые объекты типа

"вождение автотраспорта", "вождение в пьяном состоянии"

(это хорошие объекты) не приведены.

Потому что сейчас ни у кого в мире нет рецептов отфильтровать с надлежащим качеством автоматически эти хорошие от кучи плохих.

Есть даже проблемка с генерацией такого рода объектов, особенно предложных. Морфологические программы умеют выдавать правильную форму среди выдаваемого множества вариантов для неизвестного словарю слова. Но выбрать эту правильную форму из вариантов...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

130

spark

3 сентября 2004, 13:49

#37

Хорошо, а пытался ли кто-нибудь строить сем. сети не на основе подшивок газет за 97 год, а на основе толковых словарей, скажем? Киньте ссылочку, если кто такие проекты знает.

B

42

bvd

3 сентября 2004, 14:27

#38

Как писал spark
Хорошо, а пытался ли кто-нибудь строить сем. сети не на основе подшивок газет за 97 год, а на основе толковых словарей, скажем? Киньте ссылочку, если кто такие проекты знает.

с толковыми словарями народу пыталось работать жуть (идея то лежит на поверхности), но, конечно :), безрезультатно

ссылки лень сейчас искать

Толковые словари пишут люди для ЛЮДЕЙ же.

Из-за этого:

1) проблема значений - обычно выделяют слишком много значений (которые нужны человеку, как бы редки они не были), которые машина "не переваривает" (ей то нужны "типичные").

2) проблема описания. Составители стараются отразить в полном объеме и ДОСТУПНОЙ форме понятие. В р-те понятие описывается:

а) через далекие от него (такие пары не встречаются в обычных текстах)

б) непоследовательно, как через вышестоящие, так и через нижестоящие (иногда, правда, без этого не обойтись - понятия бывают "аналитические" и "синтетические", но здесь не об этом)

в) описывается правильно, но не совсем так как это понимается в жизни (используется в большинстве текстов),

типа (по памяти) "очки - оптический прибор в виде полумаски или ..." То есть отражаются одни черты (не всегда частотные) и не отражаются другие (в конкретном примере - очки как товар, как предмет моды и т.п.).

3) проблема "зацикливания"

Большой процент описания А через Б, а затем Б через А.

Я слышал доклад, где человек нашел цикл длиной 13.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

8 сентября 2004, 16:19

#39

Как писал bvd

Поэтому-то, IMHO красиво, возможно, полезно для помощи при визуализации результатов, но совершенно бесполезно при попытке использовать в дальнейшей машинной обработке (той или иной форме АВТОМАТИЧЕСКОГО логического вывода).

Борис, вот тут, боюсь ты слишком категоричен.

Мне кажется, что, как минимум, для задачи автоклассификации, автоматические ("механистические", как ты называешь) методы использовать можно и нужно. Результаты у нас есть, и вроде бы, сравнительно неплохие для класса задач с автоматическим построением шаблона рубрики по образцу. Да, конечно можно говорить о несовершенности такой технологии: подчищенный человеком шаблон даст лучшие результаты. Но у каждой технологии есть свои ограничения и области применимости: например, когда недостаточно времени и/или квалификации почистить шаблоны.

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

8 сентября 2004, 17:38

#40

Как писал AlexA

Мне кажется, что, как минимум, для задачи автоклассификации, автоматические ("механистические", как ты называешь) методы использовать можно и нужно. Результаты у нас есть, и вроде бы, сравнительно неплохие для класса задач с автоматическим построением шаблона рубрики по образцу.

насчет этого спорить не буду - результаты могут быть неплохими, в смысле - сопоставимы с лучшими для некоторых задач,

но здесь вроде обсуждалось, что это панацея - должно быть ЛУЧШЕ всего остального, причем посредством достаточно простых методов. Это - сомнительно.

Насчет автоклассификации - надеюсь ваша команда послала прогоны в РОМИП?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, чтобы попасть в ответы Google Bard

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Новые технологии в поиске