Тематическая кластеризация документов

I
На сайте с 06.04.2004
Offline
0
#41

Доброе время суток!

Я занимаюсь тематической кластеризацией полнотекстовых документов в институте. Пока все достаточно примитивно: частотный анализ, кластерный анализ...

Вот собственно в чем дело: для проведения исследований необходима исходная база полнотекстовых документов на русском языке. Около 250 документов. Количество тем - 5 или 6.

Я понимаю, что формирование такой базы дело не минутное, но буду очень благодарен за помощь.

Даже если есть документов 50 на одну тему, буду очень благодарен.

Также приветствуются ссылки на публичные базы.

Заранее спасибо за помощь. ChasovskyAV@mpei.ru

VT
На сайте с 27.01.2001
Offline
130
#42
Вот собственно в чем дело: для проведения исследований необходима исходная база полнотекстовых документов на русском языке. Около 250 документов. Количество тем - 5 или 6. Я понимаю, что формирование такой базы дело не минутное, но буду очень благодарен за помощь.

Могу выдать такую базу, но с одним условием - можно будет посмотреть результаты и получить краткое описание алгоритма :) Если это не проблема, то мой e-mail в профайле.

Также приветствуются ссылки на публичные базы.

TREC

M
На сайте с 16.07.2003
Offline
28
#43
Также приветствуются ссылки на публичные базы.

Есть публичные русскоязычные коллекции: http://romip.narod.ru

С уважением

Михаил Маслов

VT
На сайте с 27.01.2001
Offline
130
#44

Запустилась бета-версия еще одного новостного поисковика - Новотека.

Если интересно, посмотрите на качество кластеризации.

AA
На сайте с 16.04.2001
Offline
70
#45
Если интересно, посмотрите на качество кластеризации

Точность на сегодня неплохая, мусора в 5 темах (Лукашенко, Тебуев, Шеремет, ЦАС, венесуэл.пожар) не обнаружил. Полноту не проверил, как это сделать без серьезных затрат и не представляю.

Вопрос: как вы оцениваете важность новости, по количеству публикаций за фиксированный период?

С уважением, Антонов Александр.
VT
На сайте с 27.01.2001
Offline
130
#46
Точность на сегодня неплохая, мусора в 5 темах (Лукашенко, Тебуев, Шеремет, ЦАС, венесуэл.пожар) не обнаружил. Полноту не проверил, как это сделать без серьезных затрат и не представляю.

Да, точность в последней версии очень хорошая, вот над полнотой еще приходится работать - очень тяжело собирать полные кластера для быстро развивающихся событий, к примеру, о Беслане или ЮКОСе.

Вопрос: как вы оцениваете важность новости, по количеству публикаций за фиксированный период?

Пока да - это самая простая и надежная мера. Я думаю, что в дальнейшем важность конкретного события будет зависеть как от времени, так и от авторитетности источников, которые напечатали что-то об этом событии.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#47

Посмотрел - с большим опозданием - эту дискуссиию, пытаюсь понять - о чем идет речь ...

Как писал Ashmanov
... семантические образы (наборы терминов с весами) ...

- разве СУТЬ "семантической образЦОВОСТИ" может быть сведена к "набору терминов" (даже если - "с весами")???

B
На сайте с 02.09.2002
Offline
42
bvd
#48
Как писал Vyacheslav Tikhonov

Да, точность в последней версии очень хорошая, вот над полнотой еще приходится работать - очень тяжело собирать полные кластера для быстро развивающихся событий, к примеру, о Беслане или ЮКОСе.

это, конечно, отрадно слышать, но хотелось бы узнать, как эта "хорошая" точность определяется

Давайте рассмотрим 22 октября, тема (по итогам дня) называется "Из Беслана выдворили сайентологов" (34 сообщения).

Судя по всему разработчики, конечно, считают, что тема о Беслане.

Однако, выбирая в качестве заголовка темы ПОСЛЕДНЕЕ сообщение (перед этим висело "14 пострадавших от теракта в Беслане покинули столичные больницы" - 3 сообщения из 34 про 14 человек, про сайентологов-то вообще 1/34), авторы ресурса рождают у пользователя ожидание (психологическое), что тема более близка к заявленной, чем есть на самом деле.

Авторы ресурса перекладывают на пользователя обязанность делать выводы какая же на самом деле была основная тема.

То есть, что же такое ТОЧНОСТЬ в Novoteka.

VT
На сайте с 27.01.2001
Offline
130
#49
Давайте рассмотрим 22 октября, тема (по итогам дня) называется "Из Беслана выдворили сайентологов" (34 сообщения).

Судя по всему разработчики, конечно, считают, что тема о Беслане.

Борис, на самом деле тема не просто о Беслане, а о событиях, связанных с терактом в Беслане. Ниже я объясню, почему.

Авторы ресурса перекладывают на пользователя обязанность делать выводы какая же на самом деле была основная тема.

А разве в приведенном примере непонятно, какова основная тема? Конечно, мы могли бы просто вывалить список повторяющихся новостей по теме, часто представляющих собой обычную перепечатку из одного источника, но мы же этого не делаем, пытаясь давать в каждом топике новую информацию о конкретной теме. Разве это плохо?

То есть, что же такое ТОЧНОСТЬ в Novoteka.

Видите ли, вопрос нельзя ставить таким образом. Понятие точности здесь нужно рассматривать не просто в Новотеке, а в непрерывно изменяющемся новостном потоке.

Отличительная особенность новостей заключается в том, что среди других источников информации они имеют максимальную энтропию, так как события с равной вероятностью могут развиваться по любому сюжету.

Кроме того, события всегда зависят друг от друга, поэтому зародившееся с утра событие к вечеру может либо затухнуть, либо быть разбито на серию более мелких, связанных с ним. Это вызывает определенные трудности, так как события в начале дня могут быть абсолютно "не похожи" на события в конце дня.

На данный момент ведутся работы, чтобы определить степень связи простых событых с целью показать не просто некое плоское событие, а попытаться сделать этот показ всесторонним. Поэтому точность в Новотеке будет определяться исходным событием, породившим все остальные - в приведенном примере это теракт в Беслане.

B
На сайте с 02.09.2002
Offline
42
bvd
#50
Как писал Vyacheslav Tikhonov

на самом деле тема не просто о Беслане, а о событиях, связанных с терактом в Беслане. Ниже я объясню, почему.

А разве в приведенном примере непонятно, какова основная тема?

Мне как "читающему газеты" понятно.

Рекомендую Вам провести тестирование с вопросом "что вы ожидаете получить, когда принимаете решение нажать на ссылку" и "оправдались ли ваши ожидания" - только не среди разработчиков, а людей с улицы

Как писал Vyacheslav Tikhonov

Конечно, мы могли бы просто вывалить список повторяющихся новостей по теме, часто представляющих собой обычную перепечатку из одного источника, но мы же этого не делаем, пытаясь давать в каждом топике новую информацию о конкретной теме. Разве это плохо?

Разве это мои проблемы как пользователя? Это - Ваши проблемы.

В частности, некоторые люди говорят, что надо выстраивать специальные подкластеры и т.п.

Как писал Vyacheslav Tikhonov

Видите ли, вопрос нельзя ставить таким образом. Понятие точности здесь нужно рассматривать не просто в Новотеке, а в непрерывно изменяющемся новостном потоке.

отчего же. Точность - она и в Африке точность:

если есть некоторая тема, которая в Вашем случае задается

заголовком темы + фрагментом последнего сообщения,

то элементарно подсчитать, сколько попавших туда сообщений соответствует ожиданиям пользователя.

Кроме того, что-то я совсем не понимаю - это ведь Вы употребили термин "очень хорошая точность".

Как писал Vyacheslav Tikhonov

Вопрос в том, мне кажется, что сейчас Вы неаккуратно формулируете эти ожидания.всесторонним. Поэтому точность в Новотеке будет определяться исходным событием, породившим все остальные - в приведенном примере это теракт в Беслане.

а откуда у Вас такая уверенность, что Вы будете знать это исходное событие.

Да и когда оно начинается - почему это вдруг "теракт в Беслане", а не тот момент когда они только подъезжали?

-------

Кстати, сейчас потратил несколько минут на то, чтобы найти и покритиковать за второй пример (рядом был с первым) - вчера это называлось "Клинтон -> в генсеки ООН" - и там был явный мусор о выборах, так как мне казалось, что тема - о Клинтоне.

Но сегодня-то там и название темы другое - что-то о выборах Керри, где лежит и Клинтон со своим ООНством. Что же есть вообще схожего между этими линиями (США что ли? ). Хотелось бы понять - тут уже я даже как "читающий газеты" не могу понять - относительно чего (какой-такой первоначальной новости) все это чудо построилось. И как здесь считать "точность"?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий