Смотря что Вы имеете ввиду. Существует как минимум три подхода к тому (если я правильно Вас понимаю) что Вы называете "алгоритмом для словоформ": нормализация, стемминг и алгоритмы, основанные на правилах словообразования.
Какой из этих подходов Вас интересует?
Все зависит от выборки. Как от обучающей, так и от той, которую придется анализировать.
Если нужна просто фильтрация, то думаю в байесе стоит задать более мягкие условия для отнесения к основному классу (чтобы он не приписывал к мусору страницы, в которых сомневается). Если на выходе из фильтра нужны более точные данные о реальной принадлежности, то можно к отобранным применить SVM (основной отсев мусора идет через быстрый Байес, а окончательная фильтрация через SVM). Но это уже из разряда извращений.
Баес быстр, оттого он и используется в системах, где вопрос времени ключевой. По сравнению с SVM или kNN он работает конечно хуже, но зато гораздо быстрее. Хорошая статья о методах машинного обучения: http://citeseer.ist.psu.edu/cache/papers/cs/5062/http:zSzzSzwww.cs.cmu.eduzSz~yimingzSzpapers.yyzSzsigir99.pdf/yang99reexamination.pdf
Не понял. 3 пункт это основная задача? Мы обучаемся на выборке и запускаем спайдер?
Полностью согласен. Вопрос явно не про стеминг или шинглы.
Неплохо...
Некрестьянов И.С. Тематико-ориентированные методы информационного поиска. http://meta.math.spbu.ru/~igor/thesis/thesis.html
В работе рассматриваются цели и задачи информационного поиска:
"Классическая задача информационного поиска, с которой и началось развитие этой области, -- это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов.
Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т. д."
Значительная часть работы посвящена архитектуре сетевого робота:
"Поскольку основным предметом нашего исследования является использование информации о тематике для выбора специализированной стратегии обхода и методы отсева ``мусора'', то мы ограничимся лишь кратким описанием базовой архитектуры сетевого робота (рис. 2.1), выделив только затронутые в рамках этой работы подсистемы."
Как это?! А как же вычисляете вес?
Спасибо за наводку.
Извините что вмешиваюсь. К сожалению не знаком с Вашей программой, но по названию могу судить, что речь идет о стеминге. Не совсем тогда понятно, зачем нужен словарь?