Тематическая кластеризация документов

1 2345 6
I
На сайте с 15.12.2000
Offline
80
#31
Как писал Vyacheslav Tikhonov
Для справки - Яндекс Ньюз ничего особо не кластеризует - там идет обычный экспорт в XML заранее рубрицированных источником новостей.

Странное утверждение. Я не понял его смысла.

Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?

Можно где-нибудь посмотреть на "особую"?

I
На сайте с 15.12.2000
Offline
80
#32
Как писал trink
Щеки они действительно раздувают в словах синонимах к слову "выдающееся"

Уважаемый trink!

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Илья Сегалович,

технический директор,

Яндекс

VT
На сайте с 27.01.2001
Offline
130
#33
Странное утверждение. Я не понял его смысла.

Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?

Я всего лишь имел в виду, что у Вас исходные данные представляют собой массивы данных, уже отсортированные по темам.

Однако, если Gray говорит, что тематика новостей в XML-экспорте не указывается, то сразу возникает вопрос - какими алгоритмами можно определить тему новости, если зачастую однозначно это не может сделать даже сам редактор? :) Именно новости, средний объем которой в лучшем случае всего несколько килобайт - частотные методы здесь вообще, как я понимаю, не работают, а лексические цепочки должны быть разложены по темам, что вообще непосильная задача для постоянно меняющегося новостного потока.

Но вот если массивы заранее рубрицированы, то задача существенно упрощается тем, что в кластер не будут включены "левые" документы из других тем, то есть задача вполне может быть решена даже в лоб, как я и показал - для этого нужно только составить правильный topic query.

T
На сайте с 15.04.2003
Offline
36
#34
Как писал iseg


Уважаемый trink!

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Илья Сегалович,
технический директор,
Яндекс

Да действительно

Моя информация скорее всего устарела

Я начал детально иследовать Яндекс Ньюз сразу после внедрения автоматической кластеризации новостей.

Иследование мое включало и прочтение прес релизов а также прочтение страницы news.yandex.ru/about.html

Если мне не изменяет память то сейчас ее содержимое изменилось

Сейчас мне кажется что там были фразы вроде "нами проделана грандиозная и нетривиальная работа касающаяся построения алгоритмов" или "единственный рускоязычный ресурс с подобными возможностями"

Эту страницу я читал достаточно давно поэтому во всех перечисленных местах могу ошибаться

А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла

VT
На сайте с 27.01.2001
Offline
130
#35
Эту страницу я читал достаточно давно поэтому во всех перечисленных местах могу ошибаться
А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла

trink, спокойно :) Только за это Яндекс доступ к своему поиску не запрещает :)

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Ну, слова "выдающееся" там, конечно, не было, но так пиариться как-то не слишком красиво, особенно в контексте скандала с баннерами mail.ru ;)

"С другой стороны, признаюсь, я ожидал от Microsoft большего, чем просто копирования идеологии, структуры и навигации Google News. Кстати, единственное заявленное отличие от Google - учет поведения пользователей в качестве одного из факторов ранжирования сюжетов - уже полгода как используется в Яндекс.Новостях. "

"В России существует некоторое количество разработок в этой области, но я не знаю ни одной, кроме Яндекс.Новостей, которая была бы ориентирована на массовую аудиторию и позволяла буквально за секунды составить представление о новостях дня. А робот news.yandex.ru как на ладони показывает - вот пять главных новостей на эту минуту."

А новость-то была, как бы, о новом сервисе Microsoft :)

M
На сайте с 16.07.2003
Offline
28
#36
trink: ... описаны общие идеи а о том как расчитывается матрица похожести и какие именно алгоритмы кластеризации применяются -- ничего не написано. Если это не является комерческой тайной можно ли подробнее рассказать о вышеописанных моментах?

Хорошо, чуть подробнее.

Каждому документу сопоставляется "поисковый образ" - запрос из характерных терминов; запрос строится на основе поиска по кворуму (это стандартный оператор Яндекса, хотя и плохо задокументированный). Из списков найденных документов строится матрица близости; при вычислении меры близости документов используется стандартная же мера релевантности Яндекса.

Метод кластеризации - агломеративный.

У меня сложилось впечатление, что на качество результата большее влияние оказывает адекватность меры близости документов, чем выбор метода первичной кластеризации и подбор его параметров.

С уважением

Михаил Маслов

M
На сайте с 16.07.2003
Offline
28
#37
Vyacheslav Tikhonov: Но вот если массивы заранее рубрицированы, то задача существенно упрощается тем, что в кластер не будут включены "левые" документы из других тем ...

Новости от некоторых источников рубрицированы, но кластеризации это не помогает.

Во-первых, рубрикация дается на уровне 'политика-экономика-культура-спорт-наука', что слишком общо.

Во-вторых, даже при _такой_ рубрикации есть много неоднозначностей. Например, новость про продажу Русскими фондами акций Рамблера сообщили 17 источников, из них 9 ее отнесли к экономике, 3 - к интернету (Gray в их числе), 1 - к науке и т.д. Более того, есть регулярные неоднозначности: взрывы - происшествия или политика, ДТП - происшествия или авто, крупный бизнес типа ЮКОСа - политика или экономика (а в случае Челси-Абрамовича еще и спорт) и т.п.

В-третьих, рубрикации разных источников не совпадают друг с другом, и не совпадают с рубрикацией Яндекса (рубрики источников поэтому маппируются в яндексовские), что усугубляет бардак.

В общем, улучшать кластеры с помощью рубрик мы не стали даже пробовать. Пока те стали, во всяком случае.

С уважением

Михаил Маслов

M
На сайте с 12.01.2003
Offline
130
#38

AlexA, воля случая. Я не по тому что на сайте оценивал. как раз то что на сайте сейчас лежит я вообще не смотрел :)

T
На сайте с 15.04.2003
Offline
36
#39
Как писал maslov



Хорошо, чуть подробнее...

С уважением
Михаил Маслов

А можно если не сложно немного тактико технических характеристик

То есть на скольки серверах все это крутится? Какая конфигурация сервера? Сколько новостей в сутки способна обрабатывать ваша система?

При запросе происходит кластеризация ведь не всех документов соответствующих этому запросу? Сколько документов способна прокластеризировать ваша система скажем за десять секунд? Или вы сохраняете уже готовые кластера а потом подымаете те в которых найдены документы из запроса?

Если конечно же эта информация не является комерческой тайной :)

AA
На сайте с 16.04.2001
Offline
70
#40
Как писал Mauser
Конкретно вот этот http://soft.neurok.ru/ раздел.

AlexA, воля случая. Я не по тому что на сайте оценивал. как раз то что на сайте сейчас лежит я вообще не смотрел :)

Простите, но я просил чуть подробнее. Неужто такой секрет? К тому же вы не находите в приведенных совете и ответе некоторого противоречия?

С уважением, Антонов Александр.
1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий