Google, MSN, Yandex news cluster

12
VT
На сайте с 27.01.2001
Offline
130
#11
Если не сложно, подскажите, пожалуйста, откуда с TDT можно начать разбираться (кроме вышеупомянутых источников)?

Начинать можно отсюда и дальше уже изучать конкретную задачу:

Story Segmentation - Detect changes between topically cohesive sections

Topic Tracking - Keep track of stories similar to a set of example stories

Topic Detection - Build clusters of stories that discuss the same topic

First Story Detection - Detect if a story is the first story of a new, unknown topic

Link Detection - Detect whether or not two stories are topically linked

X
На сайте с 15.05.2004
Offline
16
#12

Вячеслав, спасибо за ссылку. Там я был (туда меня послалали уже посту на пятом), но мне это мало помогло - материалы весьма (для меня) разбросаны и нет какой-то чёткой и понятной структуры...

Пока не время не торопит, ищу что-нибудь поструктурированее... Не найду, полезу туда разбираться, но может что таки есть? =)

VT
На сайте с 27.01.2001
Offline
130
#13
Пока не время не торопит, ищу что-нибудь поструктурированее... Не найду, полезу туда разбираться, но может что таки есть? =)

А что конкретно Вы ищете? Все ведь зависит от стоящей задачи.

X
На сайте с 15.05.2004
Offline
16
#14

"Задача" выглядит примерно следующим образом: пусть есть некоторая база с документами. Задача - сгруппировать документы в некоторые, чтоли "кусты" - то есть наиболее близкие и похожие.

Как я понял, кластеризация, во-первых, очень дорогое (ресурсы, время) занятие, а во-вторых, не очень понятно по какому принципу можно собирать такие кусты. Как мне кажется, в отношении (осмысленного) текста наиболее адекватен подход применяемый, в частности, в новостях яндекса.

Опять же, как я понял, Яндекс использует TDT, которое, если можно назвать частным приложением кластеризации, но не в общем случае, а учитывая, что текст можеть иметь много смыслов, много сюжетов/кустов/топиков (в терминологии Яндекса/моей/исследовательской соответственно) и т.д.

Вот именно это мне и интересно. Прочитав этот раздел форума понял, что разкластеризовать всё (например, весь интернет, невозможно), но хоть немного приблизиться - очень хочется...

Собственно именно это и интересует...

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий