Методы фильтрации веб-страниц для сфокусированного спайдера

G
На сайте с 26.09.2005
Offline
10
1964

Подскажите пожалуйста, какие самые распространенные методы фильтрации документов существуют для создания специализированных тематических коллекций.

Может кто даст ссылочку на подобный обзор или на подробные описания методов (я не нашел). Везде очень отрывочно приводится или в общих чертах, типа используем ключевые слова, или используем тестовую (эталонную) коллекцию документов...

Хотелось бы действительно посмотреть алгоритмы.

R
На сайте с 29.04.2003
Offline
37
#1

Некрестьянов И.С. Тематико-ориентированные методы информационного поиска. http://meta.math.spbu.ru/~igor/thesis/thesis.html

В работе рассматриваются цели и задачи информационного поиска:

"Классическая задача информационного поиска, с которой и началось развитие этой области, -- это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов.

Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т. д."

Значительная часть работы посвящена архитектуре сетевого робота:

"Поскольку основным предметом нашего исследования является использование информации о тематике для выбора специализированной стратегии обхода и методы отсева ``мусора'', то мы ограничимся лишь кратким описанием базовой архитектуры сетевого робота (рис. 2.1), выделив только затронутые в рамках этой работы подсистемы."

G
На сайте с 26.09.2005
Offline
10
#2

вопрос к знатокам:

существует такая задача

1) Имеется интернет-каталог веб-ресурсов по определенной тематике. Ресурсы объединяются в рубрики (одноуровневые).

2) На данные ресурсы натравливается спайдер и скачивает все веб-страницы, формируя некую коллекцию. Спайдер очень простой, работает по алгоритму "вширь" (breadth-first), так как типа нечего мудрить, каталог небольшой, и ресурсы считаются все релевантными тематике.

3) Также существует задача автоматического поиска в интернет страниц, которые релевантны тематике. Чтобы отсеивать нерелевантные страницы предполагается использовать наивный байесовский фильтр (с не большими модификациями), который обучается на уже собранной на этапе 2 коллекции страниц.

4) Предполагается использовать сфокусированных спайдеров, которые работают по алгоритму Best-First, ну пусть, скажем - по предложенному в работе Некрестьянинова И. (векторный способ грубого отсева с уточнением грубого фильтра по формуле Роше)

Вопросы такие:

1) насколько работоспособна данная схема. Применим ли байесовский фильтр, который практически повсеместно используется в спамоборонах для данной фильтрации, учитывая достаточно большую обучающую выборку. Кроме того, учитывая производительность данного метода.

2) если нет - то на какие алгоритмы посоветуете обратить внимание.

R
На сайте с 29.04.2003
Offline
37
#3

Не понял. 3 пункт это основная задача? Мы обучаемся на выборке и запускаем спайдер?

G
На сайте с 26.09.2005
Offline
10
#4

да. Веб-страницы сайтов из Интернет-каталога предлагается использовать как обучающую выборку.

R
На сайте с 29.04.2003
Offline
37
#5
goover:

Вопросы такие:
1) насколько работоспособна данная схема. Применим ли байесовский фильтр, который практически повсеместно используется в спамоборонах для данной фильтрации, учитывая достаточно большую обучающую выборку. Кроме того, учитывая производительность данного метода.

2) если нет - то на какие алгоритмы посоветуете обратить внимание.

Баес быстр, оттого он и используется в системах, где вопрос времени ключевой. По сравнению с SVM или kNN он работает конечно хуже, но зато гораздо быстрее. Хорошая статья о методах машинного обучения: http://citeseer.ist.psu.edu/cache/papers/cs/5062/http:zSzzSzwww.cs.cmu.eduzSz~yimingzSzpapers.yyzSzsigir99.pdf/yang99reexamination.pdf

G
На сайте с 26.09.2005
Offline
10
#6

я читал про SVM, про его более высокие результаты по сравнению с байесом и к-ближ. соседей...

но в основном эксперименты проводились с точки зрения авторубрикации страниц. В моем же случае требуется просто фильтрация. Я согласен что фильтрация это частный случай рубрикации с двумя рубриками, но все таки интересно узнать по опыту насколько SVM превзойдет его по точности.

На эксперименты нет времени :(

G
На сайте с 26.09.2005
Offline
10
#7

> Хорошая статья о методах машинного обучения:

ознакомился... В ней вообще байес никакой был... Хотя в других экспериментах он давал неплохие результаты.

R
На сайте с 29.04.2003
Offline
37
#8
goover:
я читал про SVM, про его более высокие результаты по сравнению с байесом и к-ближ. соседей...
но в основном эксперименты проводились с точки зрения авторубрикации страниц. В моем же случае требуется просто фильтрация. Я согласен что фильтрация это частный случай рубрикации с двумя рубриками, но все таки интересно узнать по опыту насколько SVM превзойдет его по точности.
На эксперименты нет времени :(

Все зависит от выборки. Как от обучающей, так и от той, которую придется анализировать.

Если нужна просто фильтрация, то думаю в байесе стоит задать более мягкие условия для отнесения к основному классу (чтобы он не приписывал к мусору страницы, в которых сомневается). Если на выходе из фильтра нужны более точные данные о реальной принадлежности, то можно к отобранным применить SVM (основной отсев мусора идет через быстрый Байес, а окончательная фильтрация через SVM). Но это уже из разряда извращений.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий