Автоматическая фильтрация и рубрикация документов в коллекции. Помогите разобраться.

10

goover

4 сентября 2006, 08:42

3338

Уважаемые гуру.

Проясните пожалуйста ситуацию...

Есть задача сбора тематической коллекции документов (под документом в коллекции много чего понимается).

В коллекции есть иерархический рубрикатор, то есть каждый документ может быть привязан к одной или нескольким рубрикам. Рубрики описываются более менее стандартно - при помощи набора из нескольких десятков терминов, характеризующих ее тематику.

Требуется создать автоматический механизм, который осуществляет привязку поступающих в коллекцию документов к одной или нескольким рубрикам, ну а документы, нерелеватные тематике (не относящиеся ни к одной рубрике) отбрасывает.

Изначально думал что применяем один из наиболее удачных алгоритмов автоклассификации (SVM, k-ближ.сосед или даже байес), которые распихают релевантный документ по рубрикам, а нерелевантные выбросят

Но в работе например некрестьянинова, читаю что классическая задача автоматической классификации - это распихать документы по рубрикам, при условии что документы не являются мусором, то есть принадлежат хотя бы одной рубрике.

То есть что получается - сначала я должен документы фильтровать, а потом уже их по рубрикам распихивать??? как то мне кажется это извратным и мудреным...

например, как фильтровать документ - пробегаться по всем рубрикам и каким либо алгоритмом выяснять, что он к ней относится или нет. И если не относится ни к одной рубрике - то выкидывать??

Подскажите пожалуйста, как грамотно организовать решение такой задачи, и где поподробнее прочитать об этом...

Заранее спасибо...

R

37

Rusl

4 сентября 2006, 09:22

#1

Во первых наверное все же Некрестьянов.

Во вторых у Вас некая каша в голове. Все зависит от метода. Например в классическом СВМ у вас вряд ли получится исключить нерелевантные документы (исходя из того, что количество классов к кторым приписываются документы будет равно числу классов обучающего множества и невозможно построить гиперплоскость между релевантными и всеми остальными документами), а вот например в ближайшем соседе вполне. Если значение "близости" к ближайшему документу будет меньше определенного порога то выкидываем.

А вообще хорошим введением будет http://www.math.unipd.it/~fabseb60/Publications/ACMCS02.pdf

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

G

10

goover

4 сентября 2006, 10:01

#2

во-первых, спасибо.

насчет каши - то я наверное не очень удачно сформулировал мысль, спихав все алгоритмы в один. Про SVM примерно понятно, что рассекая все пространство гиперплоскостями соответствующими воображаемым границам рубрик мы не можем "оградить" все нерелевантные документы в отдельное множество.

По байесу, kNN и может TF*IDF пожалуй более понятнее - то есть задача, если я правильно понял, будет заключаться в том, чтобы для всех рубрик просчитать степень близости документа к ней? и документ не принятый не одной рубрикой будет автоматически отброшен.

А как в этом случае мы поступаем с иерархией рубрик? проверяем близость документа к каждому листу дерева?

статья, которую вы привели, действительно хорошая, рассмотрена просто куча методов. Обязательно гляну.

Читал про некоторые системы классификации новостей, что они автоматически распихивают контент по рубрикам, фильтруя ненужное.... интересно бы узнать. какие алгоритмы применяются...

Кстати в топике /ru/forum/42080

вариант с первичной фильтрацией по байесу а затем классификацией по SVN вы определили как изврат... объясните пожалуйста с чем это связано? и какой вы метод посоветовали бы?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

37

Rusl

4 сентября 2006, 10:20

#3

goover:

По байесу, kNN и может TF*IDF пожалуй более понятнее - то есть задача, если я правильно понял, будет заключаться в том, чтобы для всех рубрик просчитать степень близости документа к ней? и документ не принятый не одной рубрикой будет автоматически отброшен.

TF*IDF это все таки метод взвешивания термов, а не ММО

goover:

А как в этом случае мы поступаем с иерархией рубрик? проверяем близость документа к каждому листу дерева?

Есть два пути, либо идти по уровням (сначала определять к какой из тем верхнего уровня относится документ, потом все ниже и ниже), либо считать что все рубрики принадлежат к одному уровню.

goover:
статья, которую вы привели, действительно хорошая, рассмотрена просто куча методов. Обязательно гляну.

Она хороша как систематизирующая знания в области классификации.

goover:
Читал про некоторые системы классификации новостей, что они автоматически распихивают контент по рубрикам, фильтруя ненужное.... интересно бы узнать. какие алгоритмы применяются...

Да у всех разные. Надо смотреть конкретную.

goover:

Кстати в топике /ru/forum/42080
вариант с первичной фильтрацией по байесу а затем классификацией по SVN вы определили как изврат... объясните пожалуйста с чем это связано? и какой вы метод посоветовали бы?

Мне конечно приятно, что вы считаете меня экспертом в классификации, но это не совсем верно. На этом форуме есть люди смыслящие в этом вопросе гораздо больше моего.

Если нужно качество - СВМ, kNN, если скорость - Байес.

А по поводу изврата, сам не пробовал - поэтому сказать наверняка не могу, но все это пахнет как то не хорошо. Ошибки опять же будут накапливаться. Вообщем я бы так наверное не делал, а поискал бы более простой путь.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

G

10

goover

4 сентября 2006, 11:09

#4

TF*IDF это все таки метод взвешивания термов, а не ММО

да, но например в документе "Автоматическая рубрикация web-страниц в

интернет-каталоге с иерархической структурой" (Дунаев, Шелестов), как раз таки предлагается использовать данный метод (а точнее его модификацию) для вычисления условных вероятностей принадлежности документа к рубрике.

Есть два пути, либо идти по уровням (сначала определять к какой из тем верхнего уровня относится документ, потом все ниже и ниже), либо считать что все рубрики принадлежат к одному уровню.

да, как я уже понял, пообмыслив, задача распадается на несколько подзадач рубрикации внутри одной рубрики. Кстати выбор алгоритмов классификации в зависимости от уровня вложенности неплохо освещен в статье "Оптимизация процедуры автоматического

пополнения веб-каталога (Киселев)". Вот только неясно, данное исследование адекватно только коллекциям веб-страниц, или же впринципе любым документам. Так вроде с ходу кажется что без разницы.

Мне конечно приятно, что вы считаете меня экспертом в классификации, но это не совсем верно.

просто вы мне всегда оперативно отвечатете, чему я очень рад. Так сказать не оставили наедине с проблемой :) А то вчера вот полночи сидел, читал разные статьи и как то правда уже запутался... На самом деле прочитав сравнение многих методов я в курсе о скорости байеса и о качестве SVN и kNN, да и масса других методов есть - и нейросети теже.

В фильтрации спама например - там почти везде байес применяется, действительно видимо изза скорости, и вроде результат очень даже ничего зачастую.

Так что быть может вариант первоначальной фильтрации с последующей рубрикацией имеет право на существование. сложно сказать, вообще конечно по уму так. с точки зрения науки... нужно брать коллекцию, 3-4 метода и вперед - сравнивать.... но уж муторно это все....

должны же быть проверенные временем и опытом решения....

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

37

Rusl

4 сентября 2006, 13:49

#5

goover:
просто вы мне всегда оперативно отвечатете, чему я очень рад. Так сказать не оставили наедине с проблемой :) А то вчера вот полночи сидел, читал разные статьи и как то правда уже запутался... На самом деле прочитав сравнение многих методов я в курсе о скорости байеса и о качестве SVN и kNN, да и масса других методов есть - и нейросети теже.
В фильтрации спама например - там почти везде байес применяется, действительно видимо изза скорости, и вроде результат очень даже ничего зачастую.
Так что быть может вариант первоначальной фильтрации с последующей рубрикацией имеет право на существование. сложно сказать, вообще конечно по уму так. с точки зрения науки... нужно брать коллекцию, 3-4 метода и вперед - сравнивать.... но уж муторно это все....
должны же быть проверенные временем и опытом решения....

Вообще, умные люди говорят, что все зависит от коллекции. Бывает так, что Байес ничють не хуже опорных векторов (а скорости конечно не сравнить), бывает, что хватает бинарного взвешивания, бывает, что одна рубрика никак не хочет работать, бывает примитивный алгоритм работает гораздо лучше более совершенного... Многое бывает.

Критерием на самом деле может быть только опыт.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

G

10

goover

4 сентября 2006, 15:14

#6

все это конечно так, но я не думаю что все эти алгоритмы сродни шаманским пляскам.... мол, хз, когда чтолибо будет лучше.

Всегда работа алгоритма зависит от чего либо, вот вопрос от чего - и волнует больше всего.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

37

Rusl

4 сентября 2006, 15:17

#7

goover:
все это конечно так, но я не думаю что все эти алгоритмы сродни шаманским пляскам.... мол, хз, когда чтолибо будет лучше.

Всегда работа алгоритма зависит от чего либо, вот вопрос от чего - и волнует больше всего.

На опыте можно будет сказать точно. А до экспериментов лишь общие соображения.

R

37

Rusl

5 сентября 2006, 12:28

#8

Если Вас серьезно интересует эта тема, советую съездить в октябре на РОМИП. Там соберуться "столпы" и Вы сможете обсудить любые вопросы, которые у Вас есть по классификации.

http://romip.narod.ru/

G

10

goover

6 сентября 2006, 06:50

#9

спасибо, я постараюсь

P

121

PHWizard

29 сентября 2006, 10:58

#10

Rusl:

А вообще хорошим введением будет http://www.math.unipd.it/~fabseb60/Publications/ACMCS02.pdf

Спасибо и от меня, только ссылка уже не работает, вот рабочая:

http://www.cis.uni-muenchen.de/kurse/pmaier/ML_05/material/ACMCS02.pdf

Dappros: your private business blockchain in the cloud (https://www.dappros.com/)

Open AI тестирует память для ChatGPT

Что делать, чтобы попасть в ответы Google Bard