bvd

Рейтинг
42
Регистрация
02.09.2002
Как писал icreator
у меня на компе есть демка - там и "база" и "знания". Но конечно это не человек - а всего лишь компьютер.
Примеры по "знаниям" см. выше в этой теме

остается только радоваться, что нашелся-таки человек, знающий, что такое "база знаний",

знающий как сделать машину вывода по текстам

Как писал icreator
далее это передаётся в базу знаний и поиск идёт по таким смысловым структурам.

когда я слышу "база знаний" - я хватаюсь за пистолет

Так, ради интереса, примерчик бы работы

Как писал icreator
вот, теперь можно побаловаться он-лайн:
синтаксическтй анализатор предложений русского языка

неплохо,

но основная проблема управления не решена:

----*

-----------*

------------------*

Г С1 С2 С2

либо

----*

     ------*

     -------------*

Г С1 С2 С2

либо

----*

     ------*

         --------*

Г С1 С2 С2

и где это может работать?

Как писал Vyacheslav Tikhonov

Все это не вызывает возражений. Но та методика, о которой Вы говорите, определяет совсем не точность, а релевантность.

я остаюсь при своем мнении:

точность для темы = Р/В

где Р - количество релевантных

В - количество выданных системой

Как писал Vyacheslav Tikhonov

К тому же, оценка субъективна - одного все устраивает, другого - нет.

поэтому-то и берется несколько тестеров (асессоров).

Там, действительно, много забавного (в РОМИП, например, рассматривается "слабая релевантность", "сильная релевантность"), но, например, в TREC и РОМИП считается, что средние цифры соответствуют действительности.

Как писал Vyacheslav Tikhonov

Я так и не увидел определения, что же такое точность по потоку. Очевидно, что поток не подчиняется приведенной выше методике, так как представляет собой множество связанных событий.

отчего же.

Здесь точность = П/С,

где

П - количество правильно отнесенных к темам сообщений

(те которые были помечены релевантными в конкретных темах)

С - общее число сообщений, приписанных к какой-либо теме (то есть выданных системой).

Это определение, по-моему, macroaverage precision. Можно и microaverage precision - найти среднее по процентам каждой темы (если я не ошибся).

-----------------

Вы же, мне кажется, меряете точность соответствию некоторому "тематическому образу" кластера.

Это очень удобная позиция для разработчика.

Вопрос только в том, насколько этот тематический образ соответствует ожиданиям Ваших пользователей, которым все равно, как Вы там все вычисляете.

Как писал Vyacheslav Tikhonov

Спрашивал - среди обычных людей реакция вполне нормальная. А вот смотрю среди разработчиков, работающих в смежной области - не очень. ;)
...

А теперь, господин критик, не соблагоизволите ли дать Ваше определение точности применительно к потоку новостей? У меня такое подозрение, что у нас оно несколько разное.

повторяю:

если есть некоторая тема, которая в Вашем случае задается

заголовком темы + фрагментом последнего сообщения.

То берем 3 (или больше) тестеров:

1) предъявляем им заголовок темы (без дополнительных пояснений)

2) они его читают

3) затем предъявляем им список сообщений

4) люди отщелкивают "релевантное/нерелевантное" как они это понимают

Мне кажется, что это определение:

- в духе TREC (традиционное)

- простое, прозрачное

- легко проверяемое

Далее, очевидно, можно считать точность по каждой теме и точность по потоку.

Как писал Vyacheslav Tikhonov

на самом деле тема не просто о Беслане, а о событиях, связанных с терактом в Беслане. Ниже я объясню, почему.

А разве в приведенном примере непонятно, какова основная тема?

Мне как "читающему газеты" понятно.

Рекомендую Вам провести тестирование с вопросом "что вы ожидаете получить, когда принимаете решение нажать на ссылку" и "оправдались ли ваши ожидания" - только не среди разработчиков, а людей с улицы

Как писал Vyacheslav Tikhonov

Конечно, мы могли бы просто вывалить список повторяющихся новостей по теме, часто представляющих собой обычную перепечатку из одного источника, но мы же этого не делаем, пытаясь давать в каждом топике новую информацию о конкретной теме. Разве это плохо?

Разве это мои проблемы как пользователя? Это - Ваши проблемы.

В частности, некоторые люди говорят, что надо выстраивать специальные подкластеры и т.п.

Как писал Vyacheslav Tikhonov

Видите ли, вопрос нельзя ставить таким образом. Понятие точности здесь нужно рассматривать не просто в Новотеке, а в непрерывно изменяющемся новостном потоке.

отчего же. Точность - она и в Африке точность:

если есть некоторая тема, которая в Вашем случае задается

заголовком темы + фрагментом последнего сообщения,

то элементарно подсчитать, сколько попавших туда сообщений соответствует ожиданиям пользователя.

Кроме того, что-то я совсем не понимаю - это ведь Вы употребили термин "очень хорошая точность".

Как писал Vyacheslav Tikhonov

Вопрос в том, мне кажется, что сейчас Вы неаккуратно формулируете эти ожидания.всесторонним. Поэтому точность в Новотеке будет определяться исходным событием, породившим все остальные - в приведенном примере это теракт в Беслане.

а откуда у Вас такая уверенность, что Вы будете знать это исходное событие.

Да и когда оно начинается - почему это вдруг "теракт в Беслане", а не тот момент когда они только подъезжали?

-------

Кстати, сейчас потратил несколько минут на то, чтобы найти и покритиковать за второй пример (рядом был с первым) - вчера это называлось "Клинтон -> в генсеки ООН" - и там был явный мусор о выборах, так как мне казалось, что тема - о Клинтоне.

Но сегодня-то там и название темы другое - что-то о выборах Керри, где лежит и Клинтон со своим ООНством. Что же есть вообще схожего между этими линиями (США что ли? ). Хотелось бы понять - тут уже я даже как "читающий газеты" не могу понять - относительно чего (какой-такой первоначальной новости) все это чудо построилось. И как здесь считать "точность"?

Как писал Vyacheslav Tikhonov

Да, точность в последней версии очень хорошая, вот над полнотой еще приходится работать - очень тяжело собирать полные кластера для быстро развивающихся событий, к примеру, о Беслане или ЮКОСе.

это, конечно, отрадно слышать, но хотелось бы узнать, как эта "хорошая" точность определяется

Давайте рассмотрим 22 октября, тема (по итогам дня) называется "Из Беслана выдворили сайентологов" (34 сообщения).

Судя по всему разработчики, конечно, считают, что тема о Беслане.

Однако, выбирая в качестве заголовка темы ПОСЛЕДНЕЕ сообщение (перед этим висело "14 пострадавших от теракта в Беслане покинули столичные больницы" - 3 сообщения из 34 про 14 человек, про сайентологов-то вообще 1/34), авторы ресурса рождают у пользователя ожидание (психологическое), что тема более близка к заявленной, чем есть на самом деле.

Авторы ресурса перекладывают на пользователя обязанность делать выводы какая же на самом деле была основная тема.

То есть, что же такое ТОЧНОСТЬ в Novoteka.

Как писал vadim_crow


Попробую пояснить. Данная семантическая сеть построена ...

А нельзя ли пояснить зачем называть ЭТО "семантической сетью" (кроме как в рекламных целях)?

Как писал Maxim Golubev
.

Я много размышлял над этим. Если теоретически представить, что такое пространство имеет место быть. То наилучший способ вычислять координату(местонахождение) это строить путь по простым 2-х мерным пространствам. Путь и вектор - одно и тоже. Например, до определённого понятия будет 5-ть векторов, а до другого 15. Таким способом можно задавать координаты с точностью 100%. Это очень простое решение, но и наиболее эффективное, как мне кажется.

Рекомендую почитать литературу по "репертуарным решеткам" и LSI (Latent Semantic Indexing).

Как писал Maxim Golubev

В завершении я хотел бы предложить заинтересованным людям организовать группу по данному направлению и вести совместную теоретическую и практическую разработку. Что-то у меня уже есть, но одному очень тяжело продвигаться.

Если у Вас серьезный интерес к проблеме - его надо переводить в офф-лайн. Можно поездить на специализированные конференции (например, RCDL, КИИ, которые скоро будут) и пообщаться - переписываться подробно слишком тяжело.

Как писал Maxim Golubev

Уж не однократно серъёзно задумывался, может и действительно в корне ошибаюсь.

Никто так не утверждает. Просто все "немного" не так.

Всего: 133