trink

Рейтинг
36
Регистрация
15.04.2003

Ну в лучшем случае - какой-то кластерный алгоритм -
среди лучших представителей, например, NeuroK.

А можно поподробнее на счет нейрока?

Пытался найти в открытых источниках какие то сведения по поводу их инструментов кластеризации, но так ничего внятного не нашел.

Почему вы считаете его лучшим представителем?

Можно где то познакомится с демо версией кластеризации???

На сколько я помню на сайте демки именно для этой функции нету.

Ну и интересны тактико технические характеристики: скорость, ресурсоемкомть, оценка качества, пусть даже и просто чья то субьективная.

2icreator

А можно более подробно, что собой представляет ваша база знаний.

Какие типы обьектов в ней хранятся, какие типы связей?

Как писал maslov



Хорошо, чуть подробнее...

С уважением
Михаил Маслов

А можно если не сложно немного тактико технических характеристик

То есть на скольки серверах все это крутится? Какая конфигурация сервера? Сколько новостей в сутки способна обрабатывать ваша система?

При запросе происходит кластеризация ведь не всех документов соответствующих этому запросу? Сколько документов способна прокластеризировать ваша система скажем за десять секунд? Или вы сохраняете уже готовые кластера а потом подымаете те в которых найдены документы из запроса?

Если конечно же эта информация не является комерческой тайной :)

Как писал iseg


Потому что никто не понимает, почему вы не можете взять какой-нибудь zlib и жать им все "универсальное". На чем вы экономите? На усилиях выигрыш.

Но я ведь написал что сейчас пробую zlib в самом первом посте и я спрашивал ваших идей имеено по этому поводу

А усилия нужно направить в слишком многие направления одновременно

Как писал AlexA
Повторюсь, что для различных задач сжатия эффективного универсального алгоритма, увы, нет. Данная задача принципиально неуниверсальна. Ссылок вам дали много, есть даже кусочек алгоритма, так что выбирайте, что нужно. Что до универсальности, то такое пожелание напоминает желание найти универсальный клей, поскольку нет времени разбираться в типах склеиваемых материалов. Что бы вы ни взяли, хорошо и прочно не будет в большинстве случаев.

Я понимаю вашу мысль

Спасибо за все советы которые здесь прозвучали

Сейчас я хочу сделать все таки быстро и более менее эффективно а в дальнейшем когда будет время то конечно же соптимизировать

Как писал Vyacheslav Tikhonov

CS - Code Segment, где размещается исполняемый код. Неплохо было бы просмотреть курс программирования на ассемблере :)

Я понимаю что такое сегмент кода

Мне просто было не совсем понятно причем тут это?

Как писал iseg



Я не понял, вы что пишете для PDA или ракетоносителей? У вас что, дефицит простарнства для сегмента кода?

Если это не так, то вам нужно взять два РАЗНЫХ алгоритма, и не морочить людям голову.

Можно пояснить что вы имеете ввиду упоминая сегмент кода?

Может это внесло неясность но фразу "малыми силами" я имел ввиду применительно к затратам на программирование

То есть мне не хотелось бы разрабатывать различные алгоритмы под различные структуры данных(которые могут быть достаточно сложными) поэтому я и попросил совета: возможно кто нибудь поможет с подбором универсального и производительного алгоритма и его готовой реализации

Как писал iseg


Уважаемый trink!

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Илья Сегалович,
технический директор,
Яндекс

Да действительно

Моя информация скорее всего устарела

Я начал детально иследовать Яндекс Ньюз сразу после внедрения автоматической кластеризации новостей.

Иследование мое включало и прочтение прес релизов а также прочтение страницы news.yandex.ru/about.html

Если мне не изменяет память то сейчас ее содержимое изменилось

Сейчас мне кажется что там были фразы вроде "нами проделана грандиозная и нетривиальная работа касающаяся построения алгоритмов" или "единственный рускоязычный ресурс с подобными возможностями"

Эту страницу я читал достаточно давно поэтому во всех перечисленных местах могу ошибаться

А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла

Как писал maslov

Вы почитайте вышепроцитированный текст http://company.yandex.ru/articles/smi-mirror.html Там процесс довольно подробно описан.

С уважением
Михаил Маслов

Ну вот как я уже и говорил там описаны общие идеи а о том как расчитывается матрица похожести и какие именно алгоритмы кластеризации применяются -- ничего не написано

Хотя в http://news.yandex.ru/about.html написано что алгоритмы открыты

Если это не является комерческой тайной можно ли подробнее рассказать о вышеописанных моментах?

Вот здесь написано кое что по этому поводу :

http://company.yandex.ru/articles/smi-mirror.html

Исходя из содержания документа получается что я немного ближе к истине

Но на самом деле ответ содержится в способе построения матрицы близости, ведь она может быть построена и с помощью лексических цепочек и с помощью частотных методов

123 4
Всего: 33