Rusl

Рейтинг
37
Регистрация
29.04.2003

Если Вас серьезно интересует эта тема, советую съездить в октябре на РОМИП. Там соберуться "столпы" и Вы сможете обсудить любые вопросы, которые у Вас есть по классификации.

http://romip.narod.ru/

goover:
все это конечно так, но я не думаю что все эти алгоритмы сродни шаманским пляскам.... мол, хз, когда чтолибо будет лучше.

Всегда работа алгоритма зависит от чего либо, вот вопрос от чего - и волнует больше всего.

На опыте можно будет сказать точно. А до экспериментов лишь общие соображения.

goover:
просто вы мне всегда оперативно отвечатете, чему я очень рад. Так сказать не оставили наедине с проблемой :) А то вчера вот полночи сидел, читал разные статьи и как то правда уже запутался... На самом деле прочитав сравнение многих методов я в курсе о скорости байеса и о качестве SVN и kNN, да и масса других методов есть - и нейросети теже.
В фильтрации спама например - там почти везде байес применяется, действительно видимо изза скорости, и вроде результат очень даже ничего зачастую.
Так что быть может вариант первоначальной фильтрации с последующей рубрикацией имеет право на существование. сложно сказать, вообще конечно по уму так. с точки зрения науки... нужно брать коллекцию, 3-4 метода и вперед - сравнивать.... но уж муторно это все....
должны же быть проверенные временем и опытом решения....

Вообще, умные люди говорят, что все зависит от коллекции. Бывает так, что Байес ничють не хуже опорных векторов (а скорости конечно не сравнить), бывает, что хватает бинарного взвешивания, бывает, что одна рубрика никак не хочет работать, бывает примитивный алгоритм работает гораздо лучше более совершенного... Многое бывает.

Критерием на самом деле может быть только опыт.

!Иван FXS:
Сырой материал для лингвистических исследований ...

А, тогда быть может в ней и есть какой толк...

goover:

По байесу, kNN и может TF*IDF пожалуй более понятнее - то есть задача, если я правильно понял, будет заключаться в том, чтобы для всех рубрик просчитать степень близости документа к ней? и документ не принятый не одной рубрикой будет автоматически отброшен.

TF*IDF это все таки метод взвешивания термов, а не ММО

goover:

А как в этом случае мы поступаем с иерархией рубрик? проверяем близость документа к каждому листу дерева?

Есть два пути, либо идти по уровням (сначала определять к какой из тем верхнего уровня относится документ, потом все ниже и ниже), либо считать что все рубрики принадлежат к одному уровню.

goover:
статья, которую вы привели, действительно хорошая, рассмотрена просто куча методов. Обязательно гляну.

Она хороша как систематизирующая знания в области классификации.

goover:
Читал про некоторые системы классификации новостей, что они автоматически распихивают контент по рубрикам, фильтруя ненужное.... интересно бы узнать. какие алгоритмы применяются...

Да у всех разные. Надо смотреть конкретную.

goover:

Кстати в топике /ru/forum/42080
вариант с первичной фильтрацией по байесу а затем классификацией по SVN вы определили как изврат... объясните пожалуйста с чем это связано? и какой вы метод посоветовали бы?

Мне конечно приятно, что вы считаете меня экспертом в классификации, но это не совсем верно. На этом форуме есть люди смыслящие в этом вопросе гораздо больше моего.

Если нужно качество - СВМ, kNN, если скорость - Байес.

А по поводу изврата, сам не пробовал - поэтому сказать наверняка не могу, но все это пахнет как то не хорошо. Ошибки опять же будут накапливаться. Вообщем я бы так наверное не делал, а поискал бы более простой путь.

!Иван FXS:
lermont.ru, эта пока еще не появилась, только обещана. Но на ней ведь свет клином не сошелся!

Кстати, объем ее - 6 DVD - это, видимо, 40-50 Гиг ...

Вообще такая подборка (если она существует) очень странное явление. какой в ней практический смысл?

Во первых наверное все же Некрестьянов.

Во вторых у Вас некая каша в голове. Все зависит от метода. Например в классическом СВМ у вас вряд ли получится исключить нерелевантные документы (исходя из того, что количество классов к кторым приписываются документы будет равно числу классов обучающего множества и невозможно построить гиперплоскость между релевантными и всеми остальными документами), а вот например в ближайшем соседе вполне. Если значение "близости" к ближайшему документу будет меньше определенного порога то выкидываем.

А вообще хорошим введением будет http://www.math.unipd.it/~fabseb60/Publications/ACMCS02.pdf

Eugen:

В дополнение к 2м перечисленным методам, есть еще такая идея - считать контрольную сумму от слов с частотами появления в интервале 3% - 4% (пока что сказал наобум, смысл в том, чтобы учитывать слова из "середины" по частоте появления в документе)

А поподробнее можно? Идея, насколько я понял в том, что эти слова передают суть документа и при незначительных изменениях теста страницы остаются не изменными?

ANDRY:
Интересует несколько вопросов

1. если поисковик забанет сайт, то он как я понимаю базу этого сайта у себя уничтожает, то возможно тотже сайт просто отзеркалить на другом домене, и поисковик вновь сможет проиндексировать как уже новый сайт, или же у него всётаки база остаётся на некоторое время и индексировать уже не станет?

2. как часто рамблер индексирует сайт, для каждого сайта своя дата или он сразу в одно время индексирует все сайты в рунете, также интересует и другие поисковики типа яши, апорта, гугл

пока всё, были ещё вопросы, правдо забыл, но как если вспомню ешё напишу, а пока хотелось узнать ответы по этим вопросам.

За ранее благодарен...

В этом разделе обсуждаются иные вещи. Вам сюда: /ru/forum/search-engines

TAS:
В определении http://kiew.cs.uni-dortmund.de:8001/mlnet/instances/81d91eaa-da13f5785e нет зависимости от размерности простраства и от самих признаков. Если изменить пространство признаков, то и результат, вполне может измениться.

Я наверное не так выразился - "как работает Information gain В ЗАДАЧЕ уменьшения размерности про-ва признаков". Точне как уменьшить размерность с помощью Information gain.

Но я уже разобрался. Спасибо за ответ. :)

Всего: 62