Google, MSN, Yandex news cluster

xlex · 2004-06-04T09:17:45.0000000Z

Может ли кто подсказать, по какому принципу (хотя бы теоретически) происходит кластеризация на этих ресурсах (или как она могла бы происходить)? Прочитал всю ветку "Технических вопросов", но информации не нашёл... Если кто кинет сылками, или что объяснит - буду премного благодарен - а то не знаю куда рыть...

VT

130

Vyacheslav Tikhonov

3 марта 2005, 19:58

#11

Если не сложно, подскажите, пожалуйста, откуда с TDT можно начать разбираться (кроме вышеупомянутых источников)?

Начинать можно отсюда и дальше уже изучать конкретную задачу:

Story Segmentation - Detect changes between topically cohesive sections

Topic Tracking - Keep track of stories similar to a set of example stories

Topic Detection - Build clusters of stories that discuss the same topic

First Story Detection - Detect if a story is the first story of a new, unknown topic

Link Detection - Detect whether or not two stories are topically linked

Письмо от Google Что лучше для пустых Google: новые сайты на

X

16

xlex

3 марта 2005, 20:07

#12

Вячеслав, спасибо за ссылку. Там я был (туда меня послалали уже посту на пятом), но мне это мало помогло - материалы весьма (для меня) разбросаны и нет какой-то чёткой и понятной структуры...

Пока не время не торопит, ищу что-нибудь поструктурированее... Не найду, полезу туда разбираться, но может что таки есть? =)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

3 марта 2005, 20:13

#13

Пока не время не торопит, ищу что-нибудь поструктурированее... Не найду, полезу туда разбираться, но может что таки есть? =)

А что конкретно Вы ищете? Все ведь зависит от стоящей задачи.

X

16

xlex

3 марта 2005, 20:24

#14

"Задача" выглядит примерно следующим образом: пусть есть некоторая база с документами. Задача - сгруппировать документы в некоторые, чтоли "кусты" - то есть наиболее близкие и похожие.

Как я понял, кластеризация, во-первых, очень дорогое (ресурсы, время) занятие, а во-вторых, не очень понятно по какому принципу можно собирать такие кусты. Как мне кажется, в отношении (осмысленного) текста наиболее адекватен подход применяемый, в частности, в новостях яндекса.

Опять же, как я понял, Яндекс использует TDT, которое, если можно назвать частным приложением кластеризации, но не в общем случае, а учитывая, что текст можеть иметь много смыслов, много сюжетов/кустов/топиков (в терминологии Яндекса/моей/исследовательской соответственно) и т.д.

Вот именно это мне и интересно. Прочитав этот раздел форума понял, что разкластеризовать всё (например, весь интернет, невозможно), но хоть немного приблизиться - очень хочется...

Собственно именно это и интересует...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи