Для меня критична независимость алгоритма сжатия от структуры данных так как я сжимаю не только обычный инвертированный позиционный индекс описанный в первой предложенной вам книге но и другие структуры данных которые нужны для других задач
Просто хотелось одолеть эту проблему малыми силами
На счет ручного труда -- согласен.
Просто я в самом начале непонял откуда беруться темы.
А на счет вашего примера то возможно ваш алгоритм и работает для маленьких кластеров с очень близкими по текстовому написанию новостями
Но попробуйте применить его для одной из больших тем с несколькими десятками новостей и вы получите плохой результат.
Возможно в ваших словах и есть рациональное зерно но сказать так у них все работает или нет можно только после серьезных экспериментов на которые конечно же ни у кого нету времени. А так остается слишком много "но"
Я пошел по другому пути: я иследую частотные характеристики документов в рамках общего набора и пытаюсь применить алгоритмы кластеризации.
На мой взгляд так поступили и ребята из яндекса.
Мне кажется вы неправы на счет яндекс ньюз
Щеки они действительно раздувают в словах синонимах к слову "выдающееся"
Но если внимательно изучить результаты запроса то окажется что в один кластер ложатся новости из совершенно разных источников и они относятся к теме которая возникла только сегодня
Поэтому я исключаю возможность ручного формирования тем
Это был бы просто непосильный труд
Хотя все может быть.
А свои результаты могу разве что выслать на мыло
В вебе у меня ничего не висит
Я сейчас решаю немного не такую задачу
У меня скорее не рубрикация а кластеризация
То есть на перед для какого то набора документов не задается не списка тем ни уровней
Система должна сама построить его
Пробовал разные классические алгоритмы но результатом был не доволен
После этого ввел массу мелких изменений которые влияли как на качество так и на требования к вычислительным ресурсам и в принципе сейчас имею достаточно неплохие результаты
ПО моей субьективной оценке мой модуль лучше справляется с работой чем яндекс ньюз
А на счет изложения Северина то Вячеслав прав -- самые наукоемкие моменты это реализация подсчета релевантности и структуры данных которыми задается дерево тем
А какая основная цель?
Привет
Ну если ты в Киеве то можешь связаться с вычислительным центром моего универа(КНУ им Шевченка) там достаточно часто выделяют выч технику(включая достаточно мощный кластер) ради научных проэктов
А что можно сделать в отношении кластеризации относительно посещаемости? Вообще у тебя что нибудь интересное получается?
http://algolist.manual.ru/maths/combinat/sequential.php#perebor
Алгоритм очень известен и описывается во многих книгах по програмированию
Он положен скажем в основу решения задачи комивояжеров
Названия бывают разные
Кажется здесь четкой терминологии не выработано
Я слышал название Бэктрекинг.
Но были еще какие то.
Сорри за поздний ответ
Я из Шевченка факультет кибернетики
Не знаю
В других тредах иногда люди косвенно дают понять что вроде как что то понимают в таких алгоритмах