trink

Рейтинг
36
Регистрация
15.04.2003

Для меня критична независимость алгоритма сжатия от структуры данных так как я сжимаю не только обычный инвертированный позиционный индекс описанный в первой предложенной вам книге но и другие структуры данных которые нужны для других задач

Просто хотелось одолеть эту проблему малыми силами

Как писал Vyacheslav Tikhonov

Вроде никто и не говорил, что это делается вручную. В XML, который они получают, уже указана рубрика новости, причем указана сайтом-источником, то есть никакой рубрикации новостей Яндекс сам не проводит. А темы, как я уже сказал, собираются в кластер элементарно.
Пример - берем новость
Шеварднадзе получил письмо от Буша .
Подобрать все новости по этой же теме несложно - извлекаем ключевые слова, например, существительные - Шеварнадзе, письмо, Буш.
Теперь автоматически формируем запрос.
Документы в выдаче слишком отличаются от кластера , который показывает по этой теме Яндекс? :)

На счет ручного труда -- согласен.

Просто я в самом начале непонял откуда беруться темы.

А на счет вашего примера то возможно ваш алгоритм и работает для маленьких кластеров с очень близкими по текстовому написанию новостями

Но попробуйте применить его для одной из больших тем с несколькими десятками новостей и вы получите плохой результат.

Возможно в ваших словах и есть рациональное зерно но сказать так у них все работает или нет можно только после серьезных экспериментов на которые конечно же ни у кого нету времени. А так остается слишком много "но"

Я пошел по другому пути: я иследую частотные характеристики документов в рамках общего набора и пытаюсь применить алгоритмы кластеризации.

На мой взгляд так поступили и ребята из яндекса.

Мне кажется вы неправы на счет яндекс ньюз

Щеки они действительно раздувают в словах синонимах к слову "выдающееся"

Но если внимательно изучить результаты запроса то окажется что в один кластер ложатся новости из совершенно разных источников и они относятся к теме которая возникла только сегодня

Поэтому я исключаю возможность ручного формирования тем

Это был бы просто непосильный труд

Хотя все может быть.

А свои результаты могу разве что выслать на мыло

В вебе у меня ничего не висит

Я сейчас решаю немного не такую задачу

У меня скорее не рубрикация а кластеризация

То есть на перед для какого то набора документов не задается не списка тем ни уровней

Система должна сама построить его

Пробовал разные классические алгоритмы но результатом был не доволен

После этого ввел массу мелких изменений которые влияли как на качество так и на требования к вычислительным ресурсам и в принципе сейчас имею достаточно неплохие результаты

ПО моей субьективной оценке мой модуль лучше справляется с работой чем яндекс ньюз

А на счет изложения Северина то Вячеслав прав -- самые наукоемкие моменты это реализация подсчета релевантности и структуры данных которыми задается дерево тем

А какая основная цель?

Привет

Ну если ты в Киеве то можешь связаться с вычислительным центром моего универа(КНУ им Шевченка) там достаточно часто выделяют выч технику(включая достаточно мощный кластер) ради научных проэктов

А что можно сделать в отношении кластеризации относительно посещаемости? Вообще у тебя что нибудь интересное получается?

Алгоритм очень известен и описывается во многих книгах по програмированию

Он положен скажем в основу решения задачи комивояжеров

Названия бывают разные

Кажется здесь четкой терминологии не выработано

Я слышал название Бэктрекинг.

Но были еще какие то.

Как писал Vyacheslav Tikhonov


А что за университет и факультет, если не секрет? Случайно не Факультет Информатики и Вычислительной Техники (ФИВТ) КПИ? :)

Привет

Сорри за поздний ответ

Я из Шевченка факультет кибернетики

Не знаю

В других тредах иногда люди косвенно дают понять что вроде как что то понимают в таких алгоритмах

1 234
Всего: 33