- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева

Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Подскажите пожалуйста, какие самые распространенные методы фильтрации документов существуют для создания специализированных тематических коллекций.
Может кто даст ссылочку на подобный обзор или на подробные описания методов (я не нашел). Везде очень отрывочно приводится или в общих чертах, типа используем ключевые слова, или используем тестовую (эталонную) коллекцию документов...
Хотелось бы действительно посмотреть алгоритмы.
Некрестьянов И.С. Тематико-ориентированные методы информационного поиска. http://meta.math.spbu.ru/~igor/thesis/thesis.html
В работе рассматриваются цели и задачи информационного поиска:
"Классическая задача информационного поиска, с которой и началось развитие этой области, -- это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов.
Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т. д."
Значительная часть работы посвящена архитектуре сетевого робота:
"Поскольку основным предметом нашего исследования является использование информации о тематике для выбора специализированной стратегии обхода и методы отсева ``мусора'', то мы ограничимся лишь кратким описанием базовой архитектуры сетевого робота (рис. 2.1), выделив только затронутые в рамках этой работы подсистемы."
вопрос к знатокам:
существует такая задача
1) Имеется интернет-каталог веб-ресурсов по определенной тематике. Ресурсы объединяются в рубрики (одноуровневые).
2) На данные ресурсы натравливается спайдер и скачивает все веб-страницы, формируя некую коллекцию. Спайдер очень простой, работает по алгоритму "вширь" (breadth-first), так как типа нечего мудрить, каталог небольшой, и ресурсы считаются все релевантными тематике.
3) Также существует задача автоматического поиска в интернет страниц, которые релевантны тематике. Чтобы отсеивать нерелевантные страницы предполагается использовать наивный байесовский фильтр (с не большими модификациями), который обучается на уже собранной на этапе 2 коллекции страниц.
4) Предполагается использовать сфокусированных спайдеров, которые работают по алгоритму Best-First, ну пусть, скажем - по предложенному в работе Некрестьянинова И. (векторный способ грубого отсева с уточнением грубого фильтра по формуле Роше)
Вопросы такие:
1) насколько работоспособна данная схема. Применим ли байесовский фильтр, который практически повсеместно используется в спамоборонах для данной фильтрации, учитывая достаточно большую обучающую выборку. Кроме того, учитывая производительность данного метода.
2) если нет - то на какие алгоритмы посоветуете обратить внимание.
Не понял. 3 пункт это основная задача? Мы обучаемся на выборке и запускаем спайдер?
да. Веб-страницы сайтов из Интернет-каталога предлагается использовать как обучающую выборку.
Вопросы такие:
1) насколько работоспособна данная схема. Применим ли байесовский фильтр, который практически повсеместно используется в спамоборонах для данной фильтрации, учитывая достаточно большую обучающую выборку. Кроме того, учитывая производительность данного метода.
2) если нет - то на какие алгоритмы посоветуете обратить внимание.
Баес быстр, оттого он и используется в системах, где вопрос времени ключевой. По сравнению с SVM или kNN он работает конечно хуже, но зато гораздо быстрее. Хорошая статья о методах машинного обучения: http://citeseer.ist.psu.edu/cache/papers/cs/5062/http:zSzzSzwww.cs.cmu.eduzSz~yimingzSzpapers.yyzSzsigir99.pdf/yang99reexamination.pdf
я читал про SVM, про его более высокие результаты по сравнению с байесом и к-ближ. соседей...
но в основном эксперименты проводились с точки зрения авторубрикации страниц. В моем же случае требуется просто фильтрация. Я согласен что фильтрация это частный случай рубрикации с двумя рубриками, но все таки интересно узнать по опыту насколько SVM превзойдет его по точности.
На эксперименты нет времени :(
> Хорошая статья о методах машинного обучения:
ознакомился... В ней вообще байес никакой был... Хотя в других экспериментах он давал неплохие результаты.
я читал про SVM, про его более высокие результаты по сравнению с байесом и к-ближ. соседей...
но в основном эксперименты проводились с точки зрения авторубрикации страниц. В моем же случае требуется просто фильтрация. Я согласен что фильтрация это частный случай рубрикации с двумя рубриками, но все таки интересно узнать по опыту насколько SVM превзойдет его по точности.
На эксперименты нет времени :(
Все зависит от выборки. Как от обучающей, так и от той, которую придется анализировать.
Если нужна просто фильтрация, то думаю в байесе стоит задать более мягкие условия для отнесения к основному классу (чтобы он не приписывал к мусору страницы, в которых сомневается). Если на выходе из фильтра нужны более точные данные о реальной принадлежности, то можно к отобранным применить SVM (основной отсев мусора идет через быстрый Байес, а окончательная фильтрация через SVM). Но это уже из разряда извращений.