Хорошо, чуть подробнее. Попробуйте улучшать кластеры с помощью рубрик - Поисковые технологии

Тематическая кластеризация документов

trink · 2003-04-15T17:39:02.0000000Z

Привет всем Пытаюсь сделать что то умное по этому поводу но пока ничего не получается Откуда взялась такая тема -- диплом в университете О платформе которую выбрал -- Java + MySQL(Самая быстрая на мой взгляд из бесплатных) + JSP Сейчас уже сделал -- Морфологию на базе ispell(классы обертки для этого словаря) Разбивание текстов на предложения и абзацы Помещение их в простой индекс (wordid, articleid). Упрощатель логических запросов(позволяет приводить булевые запросы любой глубины к каноническому виду и преобразовывать из в сиквел) Сохраняет в базе статистику о встречаемости двух слов рядом и умеет быстро ее находить Отсеивание стоп слов(базовый список -- mnogosearch + мои дополнения) По ispell словарю сделал для русского и украинского определитель части речи Пока что все довольно быстро Теперь нужно построить автоматический построитель тематической иерархии Пробовал выделять кластеры из связаных с друг другом слов Но результаты очень плохие Думал построить связи между документами но не придумал пока достаточно быстрых алгоритмов Подскажите какие нибудь идеи пожалуйста

I

80

iseg

6 декабря 2003, 14:29

#31

Как писал Vyacheslav Tikhonov
Для справки - Яндекс Ньюз ничего особо не кластеризует - там идет обычный экспорт в XML заранее рубрицированных источником новостей.

Странное утверждение. Я не понял его смысла.

Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?

Можно где-нибудь посмотреть на "особую"?

I

80

iseg

6 декабря 2003, 14:35

#32

Как писал trink
Щеки они действительно раздувают в словах синонимах к слову "выдающееся"

Уважаемый trink!

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Илья Сегалович,

технический директор,

Яндекс

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

6 декабря 2003, 23:49

#33

Странное утверждение. Я не понял его смысла.

Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?

Я всего лишь имел в виду, что у Вас исходные данные представляют собой массивы данных, уже отсортированные по темам.

Однако, если Gray говорит, что тематика новостей в XML-экспорте не указывается, то сразу возникает вопрос - какими алгоритмами можно определить тему новости, если зачастую однозначно это не может сделать даже сам редактор? :) Именно новости, средний объем которой в лучшем случае всего несколько килобайт - частотные методы здесь вообще, как я понимаю, не работают, а лексические цепочки должны быть разложены по темам, что вообще непосильная задача для постоянно меняющегося новостного потока.

Но вот если массивы заранее рубрицированы, то задача существенно упрощается тем, что в кластер не будут включены "левые" документы из других тем, то есть задача вполне может быть решена даже в лоб, как я и показал - для этого нужно только составить правильный topic query.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

T

36

trink

8 декабря 2003, 11:53

#34

Как писал iseg

Уважаемый trink!

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Илья Сегалович,
технический директор,
Яндекс

Да действительно

Моя информация скорее всего устарела

Я начал детально иследовать Яндекс Ньюз сразу после внедрения автоматической кластеризации новостей.

Иследование мое включало и прочтение прес релизов а также прочтение страницы news.yandex.ru/about.html

Если мне не изменяет память то сейчас ее содержимое изменилось

Сейчас мне кажется что там были фразы вроде "нами проделана грандиозная и нетривиальная работа касающаяся построения алгоритмов" или "единственный рускоязычный ресурс с подобными возможностями"

Эту страницу я читал достаточно давно поэтому во всех перечисленных местах могу ошибаться

А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

8 декабря 2003, 12:41

#35

Эту страницу я читал достаточно давно поэтому во всех перечисленных местах могу ошибаться
А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла

trink, спокойно :) Только за это Яндекс доступ к своему поиску не запрещает :)

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Ну, слова "выдающееся" там, конечно, не было, но так пиариться как-то не слишком красиво, особенно в контексте скандала с баннерами mail.ru ;)

"С другой стороны, признаюсь, я ожидал от Microsoft большего, чем просто копирования идеологии, структуры и навигации Google News. Кстати, единственное заявленное отличие от Google - учет поведения пользователей в качестве одного из факторов ранжирования сюжетов - уже полгода как используется в Яндекс.Новостях. "

"В России существует некоторое количество разработок в этой области, но я не знаю ни одной, кроме Яндекс.Новостей, которая была бы ориентирована на массовую аудиторию и позволяла буквально за секунды составить представление о новостях дня. А робот news.yandex.ru как на ладони показывает - вот пять главных новостей на эту минуту."

А новость-то была, как бы, о новом сервисе Microsoft :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

28

maslov

8 декабря 2003, 20:37

#36

trink: ... описаны общие идеи а о том как расчитывается матрица похожести и какие именно алгоритмы кластеризации применяются -- ничего не написано. Если это не является комерческой тайной можно ли подробнее рассказать о вышеописанных моментах?

Хорошо, чуть подробнее.

Каждому документу сопоставляется "поисковый образ" - запрос из характерных терминов; запрос строится на основе поиска по кворуму (это стандартный оператор Яндекса, хотя и плохо задокументированный). Из списков найденных документов строится матрица близости; при вычислении меры близости документов используется стандартная же мера релевантности Яндекса.

Метод кластеризации - агломеративный.

У меня сложилось впечатление, что на качество результата большее влияние оказывает адекватность меры близости документов, чем выбор метода первичной кластеризации и подбор его параметров.

С уважением

Михаил Маслов

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

28

maslov

8 декабря 2003, 21:39

#37

Vyacheslav Tikhonov: Но вот если массивы заранее рубрицированы, то задача существенно упрощается тем, что в кластер не будут включены "левые" документы из других тем ...

Новости от некоторых источников рубрицированы, но кластеризации это не помогает.

Во-первых, рубрикация дается на уровне 'политика-экономика-культура-спорт-наука', что слишком общо.

Во-вторых, даже при _такой_ рубрикации есть много неоднозначностей. Например, новость про продажу Русскими фондами акций Рамблера сообщили 17 источников, из них 9 ее отнесли к экономике, 3 - к интернету (Gray в их числе), 1 - к науке и т.д. Более того, есть регулярные неоднозначности: взрывы - происшествия или политика, ДТП - происшествия или авто, крупный бизнес типа ЮКОСа - политика или экономика (а в случае Челси-Абрамовича еще и спорт) и т.п.

В-третьих, рубрикации разных источников не совпадают друг с другом, и не совпадают с рубрикацией Яндекса (рубрики источников поэтому маппируются в яндексовские), что усугубляет бардак.

В общем, улучшать кластеры с помощью рубрик мы не стали даже пробовать. Пока те стали, во всяком случае.

С уважением

Михаил Маслов

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

130

Mauser

9 декабря 2003, 09:03

#38

AlexA, воля случая. Я не по тому что на сайте оценивал. как раз то что на сайте сейчас лежит я вообще не смотрел :)

Золото (http://www.shopxml.com) | Реальность (http://shopxml.com/page_100.html) | Серебро (http://www.shopxml.com/catalog/catalog.html?StID=14) | denaq (http://www.denaq.com/)

T

36

trink

10 декабря 2003, 13:41

#39

Как писал maslov

Хорошо, чуть подробнее...

С уважением
Михаил Маслов

А можно если не сложно немного тактико технических характеристик

То есть на скольки серверах все это крутится? Какая конфигурация сервера? Сколько новостей в сутки способна обрабатывать ваша система?

При запросе происходит кластеризация ведь не всех документов соответствующих этому запросу? Сколько документов способна прокластеризировать ваша система скажем за десять секунд? Или вы сохраняете уже готовые кластера а потом подымаете те в которых найдены документы из запроса?

Если конечно же эта информация не является комерческой тайной :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

11 декабря 2003, 09:05

#40

Как писал Mauser
Конкретно вот этот http://soft.neurok.ru/ раздел.

AlexA, воля случая. Я не по тому что на сайте оценивал. как раз то что на сайте сейчас лежит я вообще не смотрел :)

Простите, но я просил чуть подробнее. Неужто такой секрет? К тому же вы не находите в приведенных совете и ответе некоторого противоречия?

С уважением, Антонов Александр.

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Все что нужно знать о DDоS-атаках грамотному менеджеру

Тематическая кластеризация документов