Тематическая кластеризация документов

1 2345 6
VT
На сайте с 27.01.2001
Offline
130
#21
Но попробуйте применить его для одной из больших тем с несколькими десятками новостей и вы получите плохой результат.

Спорить не буду, но описанный мной алгоритм является стандартным для TDT - Topic Detection and Tracking и вряд ли яндекс пошел по пути наибольшего сопротивления.

Я пошел по другому пути: я иследую частотные характеристики документов в рамках общего набора и пытаюсь применить алгоритмы кластеризации.
На мой взгляд так поступили и ребята из яндекса.

Частотные методы для новостей не очень годятся - дело в том, что есть такое понятие, как фокус новости (event focus) - он никак не зависит от частотных характеристик документа. Для коллекций документов - возможно, хотя результаты получше дают лексические цепочки.

В общем-то, мы уже отвлеклись...

T
На сайте с 15.04.2003
Offline
36
#22

Вот здесь написано кое что по этому поводу :

http://company.yandex.ru/articles/smi-mirror.html

Исходя из содержания документа получается что я немного ближе к истине

Но на самом деле ответ содержится в способе построения матрицы близости, ведь она может быть построена и с помощью лексических цепочек и с помощью частотных методов

M
На сайте с 16.07.2003
Offline
28
#23
Спорить не буду, но описанный мной алгоритм является стандартным для TDT - Topic Detection and Tracking и вряд ли яндекс пошел по пути наибольшего сопротивления.

Вячеслав, в TDT, как известно, есть четыре задачи:

New event detection

Story link detection

Topic detection

Topic Tracking

(раньше у них еще было Story segmentation, но они его убрали)

(см. TDT 2003 )

и способом "составления запроса" можно пытаться решать разве что одну из них - Topic Tracking (есть 3-5 документов-образцов по теме; из новостного потока требуется выловить все документы по этой теме). Однако TDT-шники, видимо, не склонны решать эту задачу столь "лобовым" методом.

Задача Яндекс-Новостей ближе всего к Topic detection (структурировать _весь_ новостной поток, сгруппировав сообщения в кластеры, соответствующие событиям).

trink: Но попробуйте применить его для одной из больших тем с несколькими десятками новостей и вы получите плохой результат.

Из недавнего: 700 сообщений было в сюжете об отставке Шеварднадзе и сопутствующим событиям (митинги оппозиции, захват парламента, посредничество Игоря Иванова ...)

В настоящий момент самый большой - Березовский в Грузии ~ 170 сообщений. Т.е. кластер в сотни сообщений при дневном потоке в 5-10 тыс. - норма жизни.

trink: Но на самом деле ответ содержится в способе построения матрицы близости, ведь она может быть построена и с помощью лексических цепочек и с помощью частотных методов

Кроме того, первое вовсе не исключает второго.

С уважением

Михаил Маслов

VT
На сайте с 27.01.2001
Offline
130
#24
Однако TDT-шники, видимо, не склонны решать эту задачу столь "лобовым" методом.

Так-так, похоже появился один из авторов сего замечательного сервиса :) И, если не секрет, каким же образом задача кластеризации решена в Яндекс-Новости?

У меня, если можно так сказать, почти научный интерес :)

M
На сайте с 16.07.2003
Offline
28
#25
Vyacheslav Tikhonov: И, если не секрет, каким же образом задача кластеризации решена в Яндекс-Новости?

Вы почитайте вышепроцитированный текст http://company.yandex.ru/articles/smi-mirror.html Там процесс довольно подробно описан.

С уважением

Михаил Маслов

S
На сайте с 03.12.2003
Offline
5
#26

Вопрос был про иерархическую структуру - я на него и ответил. Подразумевалось, что кластеры уже есть, но они пока равноправны и проблема только в том, как построить из них дерево. А как сделать сами кластеры - тут, конечно, мой опыт ничем не поможет.

Был у меня один знакомый, который как раз кластеризацией занимался, но сейчас уехал куда-то за границу, кажется в Англию, и на письма не отвечает. Одно время он в livejournal часто пописывал, может там его можно отловить, но адрес потерялся после того, как мне пришлось закарантинить свой почтовый ящик, зараженный нелечимым вирусом. Будет время - открою его со всеми необходимыми предосторожностями и посмотрю.

T
На сайте с 15.04.2003
Offline
36
#27
Как писал maslov

Вы почитайте вышепроцитированный текст http://company.yandex.ru/articles/smi-mirror.html Там процесс довольно подробно описан.

С уважением
Михаил Маслов

Ну вот как я уже и говорил там описаны общие идеи а о том как расчитывается матрица похожести и какие именно алгоритмы кластеризации применяются -- ничего не написано

Хотя в http://news.yandex.ru/about.html написано что алгоритмы открыты

Если это не является комерческой тайной можно ли подробнее рассказать о вышеописанных моментах?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#28
В XML, который они получают, уже указана рубрика новости, причем указана сайтом-источником, то есть никакой рубрикации новостей Яндекс сам не проводит.

Слава, это не так. Спросил бы, я бы тебе рассказал. Да, в случае с тематической лентой там очень много тематических сайтов, но в рубрике "Интернет" очень много сообщений lenta.ru, например, а новость с этого сайта попадала даже в "Экономику".

M
На сайте с 12.01.2003
Offline
130
#29
казалось бы высший пилотаж - не только "автоматические" семантические образы, но и автоматическое построение самого рубрикатора. Даёте мешок с текстами, а машина сама его упорядочивает и дальше классифицирует и входной поток автоматически. Это звучит оглушительно красиво, но в целом ни у кого не работает.

www.neurok.com - у них как-то работает. И на самом деле не так уж и плохо. Конкретно вот этот http://soft.neurok.ru/ раздел

AA
На сайте с 16.04.2001
Offline
70
#30
www.neurok.com - у них как-то работает. И на самом деле не так уж и плохо. Конкретно вот этот http://soft.neurok.ru/ раздел

Простите, можно чуть подробнее, как вы оценили качество работы кластеризации уважаемого мной Сергея Шумского. Насколько я понял, у него на сайте приведен только один пример кластеризации ("советы Путину"). Причем этот пример - уже готовая замороженная структура, а не живая программа (к тому же необученная заранее на похожих рубриках), где можно поиграться пусть даже с фиксированным и хорошо разделяющимся массивом.

С уважением, Антонов Александр.
1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий