Rusl

Рейтинг
37
Регистрация
29.04.2003

Смотря что Вы имеете ввиду. Существует как минимум три подхода к тому (если я правильно Вас понимаю) что Вы называете "алгоритмом для словоформ": нормализация, стемминг и алгоритмы, основанные на правилах словообразования.

Какой из этих подходов Вас интересует?

goover:
я читал про SVM, про его более высокие результаты по сравнению с байесом и к-ближ. соседей...
но в основном эксперименты проводились с точки зрения авторубрикации страниц. В моем же случае требуется просто фильтрация. Я согласен что фильтрация это частный случай рубрикации с двумя рубриками, но все таки интересно узнать по опыту насколько SVM превзойдет его по точности.
На эксперименты нет времени :(

Все зависит от выборки. Как от обучающей, так и от той, которую придется анализировать.

Если нужна просто фильтрация, то думаю в байесе стоит задать более мягкие условия для отнесения к основному классу (чтобы он не приписывал к мусору страницы, в которых сомневается). Если на выходе из фильтра нужны более точные данные о реальной принадлежности, то можно к отобранным применить SVM (основной отсев мусора идет через быстрый Байес, а окончательная фильтрация через SVM). Но это уже из разряда извращений.

goover:

Вопросы такие:
1) насколько работоспособна данная схема. Применим ли байесовский фильтр, который практически повсеместно используется в спамоборонах для данной фильтрации, учитывая достаточно большую обучающую выборку. Кроме того, учитывая производительность данного метода.

2) если нет - то на какие алгоритмы посоветуете обратить внимание.

Баес быстр, оттого он и используется в системах, где вопрос времени ключевой. По сравнению с SVM или kNN он работает конечно хуже, но зато гораздо быстрее. Хорошая статья о методах машинного обучения: http://citeseer.ist.psu.edu/cache/papers/cs/5062/http:zSzzSzwww.cs.cmu.eduzSz~yimingzSzpapers.yyzSzsigir99.pdf/yang99reexamination.pdf

Не понял. 3 пункт это основная задача? Мы обучаемся на выборке и запускаем спайдер?

ЗодчийТеней:
вопрос из области «помогите мне жить» и явно не в той ветке задан.

Полностью согласен. Вопрос явно не про стеминг или шинглы.

Space:
У меня одна продажа на 19 кликов.

Неплохо...

Некрестьянов И.С. Тематико-ориентированные методы информационного поиска. http://meta.math.spbu.ru/~igor/thesis/thesis.html

В работе рассматриваются цели и задачи информационного поиска:

"Классическая задача информационного поиска, с которой и началось развитие этой области, -- это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов.

Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т. д."

Значительная часть работы посвящена архитектуре сетевого робота:

"Поскольку основным предметом нашего исследования является использование информации о тематике для выбора специализированной стратегии обхода и методы отсева ``мусора'', то мы ограничимся лишь кратким описанием базовой архитектуры сетевого робота (рис. 2.1), выделив только затронутые в рамках этой работы подсистемы."

alexf2000:

tf-idf у меня не используется, хотя реализовать без проблем можно. Вопрос остаётся открытым. :)

Как это?! А как же вычисляете вес?

Спасибо за наводку.

Извините что вмешиваюсь. К сожалению не знаком с Вашей программой, но по названию могу судить, что речь идет о стеминге. Не совсем тогда понятно, зачем нужен словарь?

Всего: 62