Google, MSN, Yandex news cluster

12
X
На сайте с 15.05.2004
Offline
16
2567

Может ли кто подсказать, по какому принципу (хотя бы теоретически) происходит кластеризация на этих ресурсах (или как она могла бы происходить)?

Прочитал всю ветку "Технических вопросов", но информации не нашёл...

Если кто кинет сылками, или что объяснит - буду премного благодарен - а то не знаю куда рыть...

N
На сайте с 14.11.2001
Offline
53
nis
#1

кое-какие идеи можно почерпнуть из обсуждения здесь

http://groups.yahoo.com/group/romip/message/148

X
На сайте с 15.05.2004
Offline
16
#2

Спасибо!

Если будут ещё какие ссылки и/или ключевые слова для поиска буду весьма благодарен (в том числе и по автоматическому аннотированию).

VT
На сайте с 27.01.2001
Offline
130
#3
Прочитал всю ветку "Технических вопросов", но информации не нашёл...

Странно. А ведь вопрос уже обсуждался, причем с представителями Яндекса.

X
На сайте с 15.05.2004
Offline
16
#4

Vyacheslav Tikhonov, да эту тему я, конечно, читал. Только там для человека в этой теме не сведущего там нет ничего кроме общего диагноза: "это очень сложно"... =|

VT
На сайте с 27.01.2001
Offline
130
#5
Только там для человека в этой теме не сведущего там нет ничего кроме общего диагноза: "это очень сложно"... =|

Конечно, для понимания нужно хотя бы немного владеть терминологией.

Для начала советую почитать, что такое

TDT - Topic Detection and Tracking.

TDT призвана решить следующие задачи:

1. Сегментация статей (Story Segmentation) - задача разделения непрерывного потока на новости, связанные одним и тем же событием.

2. Отслеживание новостной дорожки (Topic Tracking) - нахождение всех новостей, которые "похожи" на множество эталонных новостей. Используется для отлова всех потенциально интересных документов по теме, которые могут появиться в будущем.

3. Определение дорожки (Topic Detection) - кластеризация всех новостей, порожденных конкретным событием.

4. Определение первой новости в дорожке (First Story Detection) -

для нахождения самого первого сообщения в новом событии.

5. Определение связей (Link Detection) - позволяет определить, порождены ли две новости одним и тем же событием.

Вам какую задачу нужно решить?

X
На сайте с 15.05.2004
Offline
16
#6

Вячеслав, да именно это. Плюс автоматическое аннотирование.

Где можно почитать более подробно (кроме указанной Вами ссылки)?

VT
На сайте с 27.01.2001
Offline
130
#7
Где можно почитать более подробно (кроме указанной Вами ссылки)?

В Google. :)

X
На сайте с 15.05.2004
Offline
16
#8

Спасибо, это я и так знал, блин =)

Возможно есть какие-нибудь сайты, статьи, форумы, мейл-листы где есть обсуждения на эту тему? Что-то сродни этого тематического подфорума на котором мы сейчас находимся?

VT
На сайте с 27.01.2001
Offline
130
#9
Спасибо, это я и так знал, блин =)
Возможно есть какие-нибудь сайты, статьи, форумы, мейл-листы где есть обсуждения на эту тему?

Кстати, если не секрет, а что за проект? Я в TDT немного разбираюсь. :)

X
На сайте с 15.05.2004
Offline
16
#10

Вячеслав, извиняюсь за столь запоздалый ответ, но, как выяснилось уведомление по почте не работало (бесплатная почта... =/ ).

Насчёт проекта - не секрет. На данный момент это в большей степени личный интерес.

Если не сложно, подскажите, пожалуйста, откуда с TDT можно начать разбираться (кроме вышеупомянутых источников)?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий