спасибо, я постараюсь
все это конечно так, но я не думаю что все эти алгоритмы сродни шаманским пляскам.... мол, хз, когда чтолибо будет лучше.
Всегда работа алгоритма зависит от чего либо, вот вопрос от чего - и волнует больше всего.
да, но например в документе "Автоматическая рубрикация web-страниц в
интернет-каталоге с иерархической структурой" (Дунаев, Шелестов), как раз таки предлагается использовать данный метод (а точнее его модификацию) для вычисления условных вероятностей принадлежности документа к рубрике.
да, как я уже понял, пообмыслив, задача распадается на несколько подзадач рубрикации внутри одной рубрики. Кстати выбор алгоритмов классификации в зависимости от уровня вложенности неплохо освещен в статье "Оптимизация процедуры автоматического
пополнения веб-каталога (Киселев)". Вот только неясно, данное исследование адекватно только коллекциям веб-страниц, или же впринципе любым документам. Так вроде с ходу кажется что без разницы.
просто вы мне всегда оперативно отвечатете, чему я очень рад. Так сказать не оставили наедине с проблемой :) А то вчера вот полночи сидел, читал разные статьи и как то правда уже запутался... На самом деле прочитав сравнение многих методов я в курсе о скорости байеса и о качестве SVN и kNN, да и масса других методов есть - и нейросети теже.
В фильтрации спама например - там почти везде байес применяется, действительно видимо изза скорости, и вроде результат очень даже ничего зачастую.
Так что быть может вариант первоначальной фильтрации с последующей рубрикацией имеет право на существование. сложно сказать, вообще конечно по уму так. с точки зрения науки... нужно брать коллекцию, 3-4 метода и вперед - сравнивать.... но уж муторно это все....
должны же быть проверенные временем и опытом решения....
во-первых, спасибо.
насчет каши - то я наверное не очень удачно сформулировал мысль, спихав все алгоритмы в один. Про SVM примерно понятно, что рассекая все пространство гиперплоскостями соответствующими воображаемым границам рубрик мы не можем "оградить" все нерелевантные документы в отдельное множество.
По байесу, kNN и может TF*IDF пожалуй более понятнее - то есть задача, если я правильно понял, будет заключаться в том, чтобы для всех рубрик просчитать степень близости документа к ней? и документ не принятый не одной рубрикой будет автоматически отброшен.
А как в этом случае мы поступаем с иерархией рубрик? проверяем близость документа к каждому листу дерева?
статья, которую вы привели, действительно хорошая, рассмотрена просто куча методов. Обязательно гляну.
Читал про некоторые системы классификации новостей, что они автоматически распихивают контент по рубрикам, фильтруя ненужное.... интересно бы узнать. какие алгоритмы применяются...
Кстати в топике /ru/forum/42080
вариант с первичной фильтрацией по байесу а затем классификацией по SVN вы определили как изврат... объясните пожалуйста с чем это связано? и какой вы метод посоветовали бы?
> Хорошая статья о методах машинного обучения:
ознакомился... В ней вообще байес никакой был... Хотя в других экспериментах он давал неплохие результаты.
я читал про SVM, про его более высокие результаты по сравнению с байесом и к-ближ. соседей...
но в основном эксперименты проводились с точки зрения авторубрикации страниц. В моем же случае требуется просто фильтрация. Я согласен что фильтрация это частный случай рубрикации с двумя рубриками, но все таки интересно узнать по опыту насколько SVM превзойдет его по точности.
На эксперименты нет времени :(
да. Веб-страницы сайтов из Интернет-каталога предлагается использовать как обучающую выборку.
вопрос к знатокам:
существует такая задача
1) Имеется интернет-каталог веб-ресурсов по определенной тематике. Ресурсы объединяются в рубрики (одноуровневые).
2) На данные ресурсы натравливается спайдер и скачивает все веб-страницы, формируя некую коллекцию. Спайдер очень простой, работает по алгоритму "вширь" (breadth-first), так как типа нечего мудрить, каталог небольшой, и ресурсы считаются все релевантными тематике.
3) Также существует задача автоматического поиска в интернет страниц, которые релевантны тематике. Чтобы отсеивать нерелевантные страницы предполагается использовать наивный байесовский фильтр (с не большими модификациями), который обучается на уже собранной на этапе 2 коллекции страниц.
4) Предполагается использовать сфокусированных спайдеров, которые работают по алгоритму Best-First, ну пусть, скажем - по предложенному в работе Некрестьянинова И. (векторный способ грубого отсева с уточнением грубого фильтра по формуле Роше)
Вопросы такие:
1) насколько работоспособна данная схема. Применим ли байесовский фильтр, который практически повсеместно используется в спамоборонах для данной фильтрации, учитывая достаточно большую обучающую выборку. Кроме того, учитывая производительность данного метода.
2) если нет - то на какие алгоритмы посоветуете обратить внимание.
да-да... читали мы эту статью, правда в Pdf :)
в чем он заключался? точнее с какой целью - индексирование тематически близких новостных сюжетов?