Тематическая кластеризация документов

VT
На сайте с 27.01.2001
Offline
130
#51
Рекомендую Вам провести тестирование с вопросом "что вы ожидаете получить, когда принимаете решение нажать на ссылку" и "оправдались ли ваши ожидания" - только не среди разработчиков, а людей с улицы

Спрашивал - среди обычных людей реакция вполне нормальная. А вот смотрю среди разработчиков, работающих в смежной области - не очень. ;)

Разве это мои проблемы как пользователя? Это - Ваши проблемы.
В частности, некоторые люди говорят, что надо выстраивать специальные подкластеры и т.п.

Будет. Уж будьте уверены, много чего там еще будет. Кстати, а кто говорит?

Кроме того, что-то я совсем не понимаю - это ведь Вы употребили термин "очень хорошая точность".

Именно - точность самого алгоритма хорошая. Но сейчас идет приходится выбирать нечто среднее между точностью и полнотой.

а откуда у Вас такая уверенность, что Вы будете знать это исходное событие.
Да и когда оно начинается - почему это вдруг "теракт в Беслане", а не тот момент когда они только подъезжали?

Кластера перестраиваются раз в 5 минут. За это время определенные ключевые слова (назовем их опорными) повышают свой рейтинг.

Кстати, сейчас потратил несколько минут на то, чтобы найти и покритиковать за второй пример (рядом был с первым) - вчера это называлось "Клинтон -> в генсеки ООН" - и там был явный мусор о выборах, так как мне казалось, что тема - о Клинтоне.

А здесь все вообще просто - в течение дня в пределах кластера собираются преимущественно "простые" события. В конце дня система пытается объединить связанные события. В данном случае кластера были о президентах США - нынешних претендентах и бывшем президенте.

И как здесь считать "точность"?

А теперь, господин критик, не соблагоизволите ли дать Ваше определение точности применительно к потоку новостей? У меня такое подозрение, что у нас оно несколько разное.

B
На сайте с 02.09.2002
Offline
42
bvd
#52
Как писал Vyacheslav Tikhonov

Спрашивал - среди обычных людей реакция вполне нормальная. А вот смотрю среди разработчиков, работающих в смежной области - не очень. ;)
...

А теперь, господин критик, не соблагоизволите ли дать Ваше определение точности применительно к потоку новостей? У меня такое подозрение, что у нас оно несколько разное.

повторяю:

если есть некоторая тема, которая в Вашем случае задается

заголовком темы + фрагментом последнего сообщения.

То берем 3 (или больше) тестеров:

1) предъявляем им заголовок темы (без дополнительных пояснений)

2) они его читают

3) затем предъявляем им список сообщений

4) люди отщелкивают "релевантное/нерелевантное" как они это понимают

Мне кажется, что это определение:

- в духе TREC (традиционное)

- простое, прозрачное

- легко проверяемое

Далее, очевидно, можно считать точность по каждой теме и точность по потоку.

VT
На сайте с 27.01.2001
Offline
130
#53
если есть некоторая тема, которая в Вашем случае задается
заголовком темы + фрагментом последнего сообщения.

Все это не вызывает возражений. Но та методика, о которой Вы говорите, определяет совсем не точность, а релевантность.

К тому же, оценка субъективна - одного все устраивает, другого - нет.

Далее, очевидно, можно считать точность по каждой теме и точность по потоку.

Я так и не увидел определения, что же такое точность по потоку. Очевидно, что поток не подчиняется приведенной выше методике, так как представляет собой множество связанных событий.

B
На сайте с 02.09.2002
Offline
42
bvd
#54
Как писал Vyacheslav Tikhonov

Все это не вызывает возражений. Но та методика, о которой Вы говорите, определяет совсем не точность, а релевантность.

я остаюсь при своем мнении:

точность для темы = Р/В

где Р - количество релевантных

В - количество выданных системой

Как писал Vyacheslav Tikhonov

К тому же, оценка субъективна - одного все устраивает, другого - нет.

поэтому-то и берется несколько тестеров (асессоров).

Там, действительно, много забавного (в РОМИП, например, рассматривается "слабая релевантность", "сильная релевантность"), но, например, в TREC и РОМИП считается, что средние цифры соответствуют действительности.

Как писал Vyacheslav Tikhonov

Я так и не увидел определения, что же такое точность по потоку. Очевидно, что поток не подчиняется приведенной выше методике, так как представляет собой множество связанных событий.

отчего же.

Здесь точность = П/С,

где

П - количество правильно отнесенных к темам сообщений

(те которые были помечены релевантными в конкретных темах)

С - общее число сообщений, приписанных к какой-либо теме (то есть выданных системой).

Это определение, по-моему, macroaverage precision. Можно и microaverage precision - найти среднее по процентам каждой темы (если я не ошибся).

-----------------

Вы же, мне кажется, меряете точность соответствию некоторому "тематическому образу" кластера.

Это очень удобная позиция для разработчика.

Вопрос только в том, насколько этот тематический образ соответствует ожиданиям Ваших пользователей, которым все равно, как Вы там все вычисляете.

spark
На сайте с 24.01.2001
Offline
130
#55
Вопрос только в том, насколько этот тематический образ соответствует ожиданиям Ваших пользователей, которым все равно, как Вы там все вычисляете.

Простого пользователя вызывали? Моим ожиданиям кластеризация в Новотеке соотвествует. Главное - дублей новостей заметно меньше стало. Впрочем, я обычно смотрю новости, никак не связанные зо взрывами, терроризмом и прочими хитами сезона, могу ошибаться.

VT
На сайте с 27.01.2001
Offline
130
#56

-----------------
Вы же, мне кажется, меряете точность соответствию некоторому "тематическому образу" кластера.
Это очень удобная позиция для разработчика.

Я думаю, это правильная позиция. Зайдите на любой новостной ресурс - как правило, под любой новостью есть еще список "новостей по теме", причем не обязательно напрямую связанных с событиями, о которых идет речь в новости.

Пользователь к этому уже приучен.

Единственная проблема заключается в том, что мы показываем последнюю новость кластера и это не совсем хорошо. В приведенных Вами примерах гораздо логичнее было бы назвать кластера как "Выборы в Америке" и "Последствия теракта в Беслане", тогда никаких вопросов вообще бы не возникало.

Кроме того, явно не хватает подкластеров, которые бы четко отделили одно связанное событие от другого в пределах одного кластера. В будущем они появятся.

VT
На сайте с 27.01.2001
Offline
130
#57
Кроме того, явно не хватает подкластеров, которые бы четко отделили одно связанное событие от другого в пределах одного кластера. В будущем они появятся.

Запустили новую версию Новотеки.

Теперь она умеет не только рубрицировать новости, но и собирать сюжеты, показывающие развитие событий во времени, и при этом скрывать "почти" дубли, сильно раздражающие обычного пользователя.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий