Методы фильтрации веб-страниц для сфокусированного спайдера

10

goover

17 марта 2006, 08:58

1964

Подскажите пожалуйста, какие самые распространенные методы фильтрации документов существуют для создания специализированных тематических коллекций.

Может кто даст ссылочку на подобный обзор или на подробные описания методов (я не нашел). Везде очень отрывочно приводится или в общих чертах, типа используем ключевые слова, или используем тестовую (эталонную) коллекцию документов...

Хотелось бы действительно посмотреть алгоритмы.

R

37

Rusl

17 марта 2006, 11:41

#1

Некрестьянов И.С. Тематико-ориентированные методы информационного поиска. http://meta.math.spbu.ru/~igor/thesis/thesis.html

В работе рассматриваются цели и задачи информационного поиска:

"Классическая задача информационного поиска, с которой и началось развитие этой области, -- это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов.

Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т. д."

Значительная часть работы посвящена архитектуре сетевого робота:

"Поскольку основным предметом нашего исследования является использование информации о тематике для выбора специализированной стратегии обхода и методы отсева ``мусора'', то мы ограничимся лишь кратким описанием базовой архитектуры сетевого робота (рис. 2.1), выделив только затронутые в рамках этой работы подсистемы."

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

G

10

goover

1 мая 2006, 12:24

#2

вопрос к знатокам:

существует такая задача

1) Имеется интернет-каталог веб-ресурсов по определенной тематике. Ресурсы объединяются в рубрики (одноуровневые).

2) На данные ресурсы натравливается спайдер и скачивает все веб-страницы, формируя некую коллекцию. Спайдер очень простой, работает по алгоритму "вширь" (breadth-first), так как типа нечего мудрить, каталог небольшой, и ресурсы считаются все релевантными тематике.

3) Также существует задача автоматического поиска в интернет страниц, которые релевантны тематике. Чтобы отсеивать нерелевантные страницы предполагается использовать наивный байесовский фильтр (с не большими модификациями), который обучается на уже собранной на этапе 2 коллекции страниц.

4) Предполагается использовать сфокусированных спайдеров, которые работают по алгоритму Best-First, ну пусть, скажем - по предложенному в работе Некрестьянинова И. (векторный способ грубого отсева с уточнением грубого фильтра по формуле Роше)

Вопросы такие:

1) насколько работоспособна данная схема. Применим ли байесовский фильтр, который практически повсеместно используется в спамоборонах для данной фильтрации, учитывая достаточно большую обучающую выборку. Кроме того, учитывая производительность данного метода.

2) если нет - то на какие алгоритмы посоветуете обратить внимание.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

37

Rusl

2 мая 2006, 07:52

#3

Не понял. 3 пункт это основная задача? Мы обучаемся на выборке и запускаем спайдер?

G

10

goover

2 мая 2006, 09:31

#4

да. Веб-страницы сайтов из Интернет-каталога предлагается использовать как обучающую выборку.

R

37

Rusl

2 мая 2006, 09:46

#5

goover:

Вопросы такие:
1) насколько работоспособна данная схема. Применим ли байесовский фильтр, который практически повсеместно используется в спамоборонах для данной фильтрации, учитывая достаточно большую обучающую выборку. Кроме того, учитывая производительность данного метода.

2) если нет - то на какие алгоритмы посоветуете обратить внимание.

Баес быстр, оттого он и используется в системах, где вопрос времени ключевой. По сравнению с SVM или kNN он работает конечно хуже, но зато гораздо быстрее. Хорошая статья о методах машинного обучения: http://citeseer.ist.psu.edu/cache/papers/cs/5062/http:zSzzSzwww.cs.cmu.eduzSz~yimingzSzpapers.yyzSzsigir99.pdf/yang99reexamination.pdf

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

G

10

goover

2 мая 2006, 11:34

#6

я читал про SVM, про его более высокие результаты по сравнению с байесом и к-ближ. соседей...

но в основном эксперименты проводились с точки зрения авторубрикации страниц. В моем же случае требуется просто фильтрация. Я согласен что фильтрация это частный случай рубрикации с двумя рубриками, но все таки интересно узнать по опыту насколько SVM превзойдет его по точности.

На эксперименты нет времени :(

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

G

10

goover

2 мая 2006, 11:39

#7

> Хорошая статья о методах машинного обучения:

ознакомился... В ней вообще байес никакой был... Хотя в других экспериментах он давал неплохие результаты.

R

37

Rusl

2 мая 2006, 11:40

#8

goover:
я читал про SVM, про его более высокие результаты по сравнению с байесом и к-ближ. соседей...
но в основном эксперименты проводились с точки зрения авторубрикации страниц. В моем же случае требуется просто фильтрация. Я согласен что фильтрация это частный случай рубрикации с двумя рубриками, но все таки интересно узнать по опыту насколько SVM превзойдет его по точности.
На эксперименты нет времени :(

Все зависит от выборки. Как от обучающей, так и от той, которую придется анализировать.

Если нужна просто фильтрация, то думаю в байесе стоит задать более мягкие условия для отнесения к основному классу (чтобы он не приписывал к мусору страницы, в которых сомневается). Если на выходе из фильтра нужны более точные данные о реальной принадлежности, то можно к отобранным применить SVM (основной отсев мусора идет через быстрый Байес, а окончательная фильтрация через SVM). Но это уже из разряда извращений.

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Переиграть и победить: как анализировать конкурентов для продвижения сайта