А можно поподробнее на счет нейрока?
Пытался найти в открытых источниках какие то сведения по поводу их инструментов кластеризации, но так ничего внятного не нашел.
Почему вы считаете его лучшим представителем?
Можно где то познакомится с демо версией кластеризации???
На сколько я помню на сайте демки именно для этой функции нету.
Ну и интересны тактико технические характеристики: скорость, ресурсоемкомть, оценка качества, пусть даже и просто чья то субьективная.
2icreator
А можно более подробно, что собой представляет ваша база знаний.
Какие типы обьектов в ней хранятся, какие типы связей?
А можно если не сложно немного тактико технических характеристик
То есть на скольки серверах все это крутится? Какая конфигурация сервера? Сколько новостей в сутки способна обрабатывать ваша система?
При запросе происходит кластеризация ведь не всех документов соответствующих этому запросу? Сколько документов способна прокластеризировать ваша система скажем за десять секунд? Или вы сохраняете уже готовые кластера а потом подымаете те в которых найдены документы из запроса?
Если конечно же эта информация не является комерческой тайной :)
Но я ведь написал что сейчас пробую zlib в самом первом посте и я спрашивал ваших идей имеено по этому поводу
А усилия нужно направить в слишком многие направления одновременно
Я понимаю вашу мысль
Спасибо за все советы которые здесь прозвучали
Сейчас я хочу сделать все таки быстро и более менее эффективно а в дальнейшем когда будет время то конечно же соптимизировать
Я понимаю что такое сегмент кода
Мне просто было не совсем понятно причем тут это?
Можно пояснить что вы имеете ввиду упоминая сегмент кода?
Может это внесло неясность но фразу "малыми силами" я имел ввиду применительно к затратам на программирование
То есть мне не хотелось бы разрабатывать различные алгоритмы под различные структуры данных(которые могут быть достаточно сложными) поэтому я и попросил совета: возможно кто нибудь поможет с подбором универсального и производительного алгоритма и его готовой реализации
Да действительно
Моя информация скорее всего устарела
Я начал детально иследовать Яндекс Ньюз сразу после внедрения автоматической кластеризации новостей.
Иследование мое включало и прочтение прес релизов а также прочтение страницы news.yandex.ru/about.html
Если мне не изменяет память то сейчас ее содержимое изменилось
Сейчас мне кажется что там были фразы вроде "нами проделана грандиозная и нетривиальная работа касающаяся построения алгоритмов" или "единственный рускоязычный ресурс с подобными возможностями"
Эту страницу я читал достаточно давно поэтому во всех перечисленных местах могу ошибаться
А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла
Ну вот как я уже и говорил там описаны общие идеи а о том как расчитывается матрица похожести и какие именно алгоритмы кластеризации применяются -- ничего не написано
Хотя в http://news.yandex.ru/about.html написано что алгоритмы открыты
Если это не является комерческой тайной можно ли подробнее рассказать о вышеописанных моментах?
Вот здесь написано кое что по этому поводу :
http://company.yandex.ru/articles/smi-mirror.html
Исходя из содержания документа получается что я немного ближе к истине
Но на самом деле ответ содержится в способе построения матрицы близости, ведь она может быть построена и с помощью лексических цепочек и с помощью частотных методов