Комментарии - goover - Профиль вебмастера - Форум об интернет-маркетинге

Автоматическая фильтрация и рубрикация документов в коллекции. Помогите разобраться.

6 сентября 2006, 06:50

спасибо, я постараюсь

Автоматическая фильтрация и рубрикация документов в коллекции. Помогите разобраться.

4 сентября 2006, 15:14

все это конечно так, но я не думаю что все эти алгоритмы сродни шаманским пляскам.... мол, хз, когда чтолибо будет лучше.

Всегда работа алгоритма зависит от чего либо, вот вопрос от чего - и волнует больше всего.

Автоматическая фильтрация и рубрикация документов в коллекции. Помогите разобраться.

4 сентября 2006, 11:09

TF*IDF это все таки метод взвешивания термов, а не ММО

да, но например в документе "Автоматическая рубрикация web-страниц в

интернет-каталоге с иерархической структурой" (Дунаев, Шелестов), как раз таки предлагается использовать данный метод (а точнее его модификацию) для вычисления условных вероятностей принадлежности документа к рубрике.

Есть два пути, либо идти по уровням (сначала определять к какой из тем верхнего уровня относится документ, потом все ниже и ниже), либо считать что все рубрики принадлежат к одному уровню.

да, как я уже понял, пообмыслив, задача распадается на несколько подзадач рубрикации внутри одной рубрики. Кстати выбор алгоритмов классификации в зависимости от уровня вложенности неплохо освещен в статье "Оптимизация процедуры автоматического

пополнения веб-каталога (Киселев)". Вот только неясно, данное исследование адекватно только коллекциям веб-страниц, или же впринципе любым документам. Так вроде с ходу кажется что без разницы.

Мне конечно приятно, что вы считаете меня экспертом в классификации, но это не совсем верно.

просто вы мне всегда оперативно отвечатете, чему я очень рад. Так сказать не оставили наедине с проблемой :) А то вчера вот полночи сидел, читал разные статьи и как то правда уже запутался... На самом деле прочитав сравнение многих методов я в курсе о скорости байеса и о качестве SVN и kNN, да и масса других методов есть - и нейросети теже.

В фильтрации спама например - там почти везде байес применяется, действительно видимо изза скорости, и вроде результат очень даже ничего зачастую.

Так что быть может вариант первоначальной фильтрации с последующей рубрикацией имеет право на существование. сложно сказать, вообще конечно по уму так. с точки зрения науки... нужно брать коллекцию, 3-4 метода и вперед - сравнивать.... но уж муторно это все....

должны же быть проверенные временем и опытом решения....

Автоматическая фильтрация и рубрикация документов в коллекции. Помогите разобраться.

4 сентября 2006, 10:01

во-первых, спасибо.

насчет каши - то я наверное не очень удачно сформулировал мысль, спихав все алгоритмы в один. Про SVM примерно понятно, что рассекая все пространство гиперплоскостями соответствующими воображаемым границам рубрик мы не можем "оградить" все нерелевантные документы в отдельное множество.

По байесу, kNN и может TF*IDF пожалуй более понятнее - то есть задача, если я правильно понял, будет заключаться в том, чтобы для всех рубрик просчитать степень близости документа к ней? и документ не принятый не одной рубрикой будет автоматически отброшен.

А как в этом случае мы поступаем с иерархией рубрик? проверяем близость документа к каждому листу дерева?

статья, которую вы привели, действительно хорошая, рассмотрена просто куча методов. Обязательно гляну.

Читал про некоторые системы классификации новостей, что они автоматически распихивают контент по рубрикам, фильтруя ненужное.... интересно бы узнать. какие алгоритмы применяются...

Кстати в топике /ru/forum/42080

вариант с первичной фильтрацией по байесу а затем классификацией по SVN вы определили как изврат... объясните пожалуйста с чем это связано? и какой вы метод посоветовали бы?

Методы фильтрации веб-страниц для сфокусированного спайдера

2 мая 2006, 11:39

> Хорошая статья о методах машинного обучения:

ознакомился... В ней вообще байес никакой был... Хотя в других экспериментах он давал неплохие результаты.

Методы фильтрации веб-страниц для сфокусированного спайдера

2 мая 2006, 11:34

я читал про SVM, про его более высокие результаты по сравнению с байесом и к-ближ. соседей...

но в основном эксперименты проводились с точки зрения авторубрикации страниц. В моем же случае требуется просто фильтрация. Я согласен что фильтрация это частный случай рубрикации с двумя рубриками, но все таки интересно узнать по опыту насколько SVM превзойдет его по точности.

На эксперименты нет времени :(

Методы фильтрации веб-страниц для сфокусированного спайдера

2 мая 2006, 09:31

да. Веб-страницы сайтов из Интернет-каталога предлагается использовать как обучающую выборку.

Методы фильтрации веб-страниц для сфокусированного спайдера

1 мая 2006, 12:24

вопрос к знатокам:

существует такая задача

1) Имеется интернет-каталог веб-ресурсов по определенной тематике. Ресурсы объединяются в рубрики (одноуровневые).

2) На данные ресурсы натравливается спайдер и скачивает все веб-страницы, формируя некую коллекцию. Спайдер очень простой, работает по алгоритму "вширь" (breadth-first), так как типа нечего мудрить, каталог небольшой, и ресурсы считаются все релевантными тематике.

3) Также существует задача автоматического поиска в интернет страниц, которые релевантны тематике. Чтобы отсеивать нерелевантные страницы предполагается использовать наивный байесовский фильтр (с не большими модификациями), который обучается на уже собранной на этапе 2 коллекции страниц.

4) Предполагается использовать сфокусированных спайдеров, которые работают по алгоритму Best-First, ну пусть, скажем - по предложенному в работе Некрестьянинова И. (векторный способ грубого отсева с уточнением грубого фильтра по формуле Роше)

Вопросы такие:

1) насколько работоспособна данная схема. Применим ли байесовский фильтр, который практически повсеместно используется в спамоборонах для данной фильтрации, учитывая достаточно большую обучающую выборку. Кроме того, учитывая производительность данного метода.

2) если нет - то на какие алгоритмы посоветуете обратить внимание.

Поиск в Интернет файлов заданных расширений

22 декабря 2005, 11:21

Дальше пойдет их сфокусированное сканирование.

да-да... читали мы эту статью, правда в Pdf :)

Поиск в Интернет файлов заданных расширений

22 декабря 2005, 11:20

Когда я разрабатывал систему сбора информации для Новотеки, я использовал подобный подход.

в чем он заключался? точнее с какой целью - индексирование тематически близких новостных сюжетов?

Все что нужно знать о DDоS-атаках грамотному менеджеру

Вышел новый Яндекс Браузер с YandexGPT и YandexART

goover