Тематическая кластеризация документов

trink · 2003-04-15T17:39:02.0000000Z

Привет всем Пытаюсь сделать что то умное по этому поводу но пока ничего не получается Откуда взялась такая тема -- диплом в университете О платформе которую выбрал -- Java + MySQL(Самая быстрая на мой взгляд из бесплатных) + JSP Сейчас уже сделал -- Морфологию на базе ispell(классы обертки для этого словаря) Разбивание текстов на предложения и абзацы Помещение их в простой индекс (wordid, articleid). Упрощатель логических запросов(позволяет приводить булевые запросы любой глубины к каноническому виду и преобразовывать из в сиквел) Сохраняет в базе статистику о встречаемости двух слов рядом и умеет быстро ее находить Отсеивание стоп слов(базовый список -- mnogosearch + мои дополнения) По ispell словарю сделал для русского и украинского определитель части речи Пока что все довольно быстро Теперь нужно построить автоматический построитель тематической иерархии Пробовал выделять кластеры из связаных с друг другом слов Но результаты очень плохие Думал построить связи между документами но не придумал пока достаточно быстрых алгоритмов Подскажите какие нибудь идеи пожалуйста

VT

130

Vyacheslav Tikhonov

23 октября 2004, 22:47

#51

Рекомендую Вам провести тестирование с вопросом "что вы ожидаете получить, когда принимаете решение нажать на ссылку" и "оправдались ли ваши ожидания" - только не среди разработчиков, а людей с улицы

Спрашивал - среди обычных людей реакция вполне нормальная. А вот смотрю среди разработчиков, работающих в смежной области - не очень. ;)

Разве это мои проблемы как пользователя? Это - Ваши проблемы.
В частности, некоторые люди говорят, что надо выстраивать специальные подкластеры и т.п.

Будет. Уж будьте уверены, много чего там еще будет. Кстати, а кто говорит?

Кроме того, что-то я совсем не понимаю - это ведь Вы употребили термин "очень хорошая точность".

Именно - точность самого алгоритма хорошая. Но сейчас идет приходится выбирать нечто среднее между точностью и полнотой.

а откуда у Вас такая уверенность, что Вы будете знать это исходное событие.
Да и когда оно начинается - почему это вдруг "теракт в Беслане", а не тот момент когда они только подъезжали?

Кластера перестраиваются раз в 5 минут. За это время определенные ключевые слова (назовем их опорными) повышают свой рейтинг.

Кстати, сейчас потратил несколько минут на то, чтобы найти и покритиковать за второй пример (рядом был с первым) - вчера это называлось "Клинтон -> в генсеки ООН" - и там был явный мусор о выборах, так как мне казалось, что тема - о Клинтоне.

А здесь все вообще просто - в течение дня в пределах кластера собираются преимущественно "простые" события. В конце дня система пытается объединить связанные события. В данном случае кластера были о президентах США - нынешних претендентах и бывшем президенте.

И как здесь считать "точность"?

А теперь, господин критик, не соблагоизволите ли дать Ваше определение точности применительно к потоку новостей? У меня такое подозрение, что у нас оно несколько разное.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

24 октября 2004, 05:46

#52

Как писал Vyacheslav Tikhonov

Спрашивал - среди обычных людей реакция вполне нормальная. А вот смотрю среди разработчиков, работающих в смежной области - не очень. ;)
...

А теперь, господин критик, не соблагоизволите ли дать Ваше определение точности применительно к потоку новостей? У меня такое подозрение, что у нас оно несколько разное.

повторяю:

если есть некоторая тема, которая в Вашем случае задается

заголовком темы + фрагментом последнего сообщения.

То берем 3 (или больше) тестеров:

1) предъявляем им заголовок темы (без дополнительных пояснений)

2) они его читают

3) затем предъявляем им список сообщений

4) люди отщелкивают "релевантное/нерелевантное" как они это понимают

Мне кажется, что это определение:

- в духе TREC (традиционное)

- простое, прозрачное

- легко проверяемое

Далее, очевидно, можно считать точность по каждой теме и точность по потоку.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

24 октября 2004, 09:58

#53

если есть некоторая тема, которая в Вашем случае задается
заголовком темы + фрагментом последнего сообщения.

Все это не вызывает возражений. Но та методика, о которой Вы говорите, определяет совсем не точность, а релевантность.

К тому же, оценка субъективна - одного все устраивает, другого - нет.

Далее, очевидно, можно считать точность по каждой теме и точность по потоку.

Я так и не увидел определения, что же такое точность по потоку. Очевидно, что поток не подчиняется приведенной выше методике, так как представляет собой множество связанных событий.

B

42

bvd

24 октября 2004, 11:50

#54

Как писал Vyacheslav Tikhonov

Все это не вызывает возражений. Но та методика, о которой Вы говорите, определяет совсем не точность, а релевантность.

я остаюсь при своем мнении:

точность для темы = Р/В

где Р - количество релевантных

В - количество выданных системой

Как писал Vyacheslav Tikhonov

К тому же, оценка субъективна - одного все устраивает, другого - нет.

поэтому-то и берется несколько тестеров (асессоров).

Там, действительно, много забавного (в РОМИП, например, рассматривается "слабая релевантность", "сильная релевантность"), но, например, в TREC и РОМИП считается, что средние цифры соответствуют действительности.

Как писал Vyacheslav Tikhonov

Я так и не увидел определения, что же такое точность по потоку. Очевидно, что поток не подчиняется приведенной выше методике, так как представляет собой множество связанных событий.

отчего же.

Здесь точность = П/С,

где

П - количество правильно отнесенных к темам сообщений

(те которые были помечены релевантными в конкретных темах)

С - общее число сообщений, приписанных к какой-либо теме (то есть выданных системой).

Это определение, по-моему, macroaverage precision. Можно и microaverage precision - найти среднее по процентам каждой темы (если я не ошибся).

-----------------

Вы же, мне кажется, меряете точность соответствию некоторому "тематическому образу" кластера.

Это очень удобная позиция для разработчика.

Вопрос только в том, насколько этот тематический образ соответствует ожиданиям Ваших пользователей, которым все равно, как Вы там все вычисляете.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

130

spark

25 октября 2004, 14:37

#55

Вопрос только в том, насколько этот тематический образ соответствует ожиданиям Ваших пользователей, которым все равно, как Вы там все вычисляете.

Простого пользователя вызывали? Моим ожиданиям кластеризация в Новотеке соотвествует. Главное - дублей новостей заметно меньше стало. Впрочем, я обычно смотрю новости, никак не связанные зо взрывами, терроризмом и прочими хитами сезона, могу ошибаться.

Упал доход Яндекс кобласит Яндекс.Новости изменили ранжирование сообщений

VT

130

Vyacheslav Tikhonov

27 октября 2004, 12:11

#56

-----------------
Вы же, мне кажется, меряете точность соответствию некоторому "тематическому образу" кластера.
Это очень удобная позиция для разработчика.

Я думаю, это правильная позиция. Зайдите на любой новостной ресурс - как правило, под любой новостью есть еще список "новостей по теме", причем не обязательно напрямую связанных с событиями, о которых идет речь в новости.

Пользователь к этому уже приучен.

Единственная проблема заключается в том, что мы показываем последнюю новость кластера и это не совсем хорошо. В приведенных Вами примерах гораздо логичнее было бы назвать кластера как "Выборы в Америке" и "Последствия теракта в Беслане", тогда никаких вопросов вообще бы не возникало.

Кроме того, явно не хватает подкластеров, которые бы четко отделили одно связанное событие от другого в пределах одного кластера. В будущем они появятся.

VT

130

Vyacheslav Tikhonov

30 марта 2005, 11:21

#57

Кроме того, явно не хватает подкластеров, которые бы четко отделили одно связанное событие от другого в пределах одного кластера. В будущем они появятся.

Запустили новую версию Новотеки.

Теперь она умеет не только рубрицировать новости, но и собирать сюжеты, показывающие развитие событий во времени, и при этом скрывать "почти" дубли, сильно раздражающие обычного пользователя.

Что делать, чтобы попасть в ответы Google Bard

Вышел новый Яндекс Браузер с YandexGPT и YandexART