- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Уважаемые гуру.
Проясните пожалуйста ситуацию...
Есть задача сбора тематической коллекции документов (под документом в коллекции много чего понимается).
В коллекции есть иерархический рубрикатор, то есть каждый документ может быть привязан к одной или нескольким рубрикам. Рубрики описываются более менее стандартно - при помощи набора из нескольких десятков терминов, характеризующих ее тематику.
Требуется создать автоматический механизм, который осуществляет привязку поступающих в коллекцию документов к одной или нескольким рубрикам, ну а документы, нерелеватные тематике (не относящиеся ни к одной рубрике) отбрасывает.
Изначально думал что применяем один из наиболее удачных алгоритмов автоклассификации (SVM, k-ближ.сосед или даже байес), которые распихают релевантный документ по рубрикам, а нерелевантные выбросят
Но в работе например некрестьянинова, читаю что классическая задача автоматической классификации - это распихать документы по рубрикам, при условии что документы не являются мусором, то есть принадлежат хотя бы одной рубрике.
То есть что получается - сначала я должен документы фильтровать, а потом уже их по рубрикам распихивать??? как то мне кажется это извратным и мудреным...
например, как фильтровать документ - пробегаться по всем рубрикам и каким либо алгоритмом выяснять, что он к ней относится или нет. И если не относится ни к одной рубрике - то выкидывать??
Подскажите пожалуйста, как грамотно организовать решение такой задачи, и где поподробнее прочитать об этом...
Заранее спасибо...
Во первых наверное все же Некрестьянов.
Во вторых у Вас некая каша в голове. Все зависит от метода. Например в классическом СВМ у вас вряд ли получится исключить нерелевантные документы (исходя из того, что количество классов к кторым приписываются документы будет равно числу классов обучающего множества и невозможно построить гиперплоскость между релевантными и всеми остальными документами), а вот например в ближайшем соседе вполне. Если значение "близости" к ближайшему документу будет меньше определенного порога то выкидываем.
А вообще хорошим введением будет http://www.math.unipd.it/~fabseb60/Publications/ACMCS02.pdf
во-первых, спасибо.
насчет каши - то я наверное не очень удачно сформулировал мысль, спихав все алгоритмы в один. Про SVM примерно понятно, что рассекая все пространство гиперплоскостями соответствующими воображаемым границам рубрик мы не можем "оградить" все нерелевантные документы в отдельное множество.
По байесу, kNN и может TF*IDF пожалуй более понятнее - то есть задача, если я правильно понял, будет заключаться в том, чтобы для всех рубрик просчитать степень близости документа к ней? и документ не принятый не одной рубрикой будет автоматически отброшен.
А как в этом случае мы поступаем с иерархией рубрик? проверяем близость документа к каждому листу дерева?
статья, которую вы привели, действительно хорошая, рассмотрена просто куча методов. Обязательно гляну.
Читал про некоторые системы классификации новостей, что они автоматически распихивают контент по рубрикам, фильтруя ненужное.... интересно бы узнать. какие алгоритмы применяются...
Кстати в топике /ru/forum/42080
вариант с первичной фильтрацией по байесу а затем классификацией по SVN вы определили как изврат... объясните пожалуйста с чем это связано? и какой вы метод посоветовали бы?
По байесу, kNN и может TF*IDF пожалуй более понятнее - то есть задача, если я правильно понял, будет заключаться в том, чтобы для всех рубрик просчитать степень близости документа к ней? и документ не принятый не одной рубрикой будет автоматически отброшен.
TF*IDF это все таки метод взвешивания термов, а не ММО
А как в этом случае мы поступаем с иерархией рубрик? проверяем близость документа к каждому листу дерева?
Есть два пути, либо идти по уровням (сначала определять к какой из тем верхнего уровня относится документ, потом все ниже и ниже), либо считать что все рубрики принадлежат к одному уровню.
статья, которую вы привели, действительно хорошая, рассмотрена просто куча методов. Обязательно гляну.
Она хороша как систематизирующая знания в области классификации.
Читал про некоторые системы классификации новостей, что они автоматически распихивают контент по рубрикам, фильтруя ненужное.... интересно бы узнать. какие алгоритмы применяются...
Да у всех разные. Надо смотреть конкретную.
Кстати в топике /ru/forum/42080
вариант с первичной фильтрацией по байесу а затем классификацией по SVN вы определили как изврат... объясните пожалуйста с чем это связано? и какой вы метод посоветовали бы?
Мне конечно приятно, что вы считаете меня экспертом в классификации, но это не совсем верно. На этом форуме есть люди смыслящие в этом вопросе гораздо больше моего.
Если нужно качество - СВМ, kNN, если скорость - Байес.
А по поводу изврата, сам не пробовал - поэтому сказать наверняка не могу, но все это пахнет как то не хорошо. Ошибки опять же будут накапливаться. Вообщем я бы так наверное не делал, а поискал бы более простой путь.
да, но например в документе "Автоматическая рубрикация web-страниц в
интернет-каталоге с иерархической структурой" (Дунаев, Шелестов), как раз таки предлагается использовать данный метод (а точнее его модификацию) для вычисления условных вероятностей принадлежности документа к рубрике.
да, как я уже понял, пообмыслив, задача распадается на несколько подзадач рубрикации внутри одной рубрики. Кстати выбор алгоритмов классификации в зависимости от уровня вложенности неплохо освещен в статье "Оптимизация процедуры автоматического
пополнения веб-каталога (Киселев)". Вот только неясно, данное исследование адекватно только коллекциям веб-страниц, или же впринципе любым документам. Так вроде с ходу кажется что без разницы.
просто вы мне всегда оперативно отвечатете, чему я очень рад. Так сказать не оставили наедине с проблемой :) А то вчера вот полночи сидел, читал разные статьи и как то правда уже запутался... На самом деле прочитав сравнение многих методов я в курсе о скорости байеса и о качестве SVN и kNN, да и масса других методов есть - и нейросети теже.
В фильтрации спама например - там почти везде байес применяется, действительно видимо изза скорости, и вроде результат очень даже ничего зачастую.
Так что быть может вариант первоначальной фильтрации с последующей рубрикацией имеет право на существование. сложно сказать, вообще конечно по уму так. с точки зрения науки... нужно брать коллекцию, 3-4 метода и вперед - сравнивать.... но уж муторно это все....
должны же быть проверенные временем и опытом решения....
просто вы мне всегда оперативно отвечатете, чему я очень рад. Так сказать не оставили наедине с проблемой :) А то вчера вот полночи сидел, читал разные статьи и как то правда уже запутался... На самом деле прочитав сравнение многих методов я в курсе о скорости байеса и о качестве SVN и kNN, да и масса других методов есть - и нейросети теже.
В фильтрации спама например - там почти везде байес применяется, действительно видимо изза скорости, и вроде результат очень даже ничего зачастую.
Так что быть может вариант первоначальной фильтрации с последующей рубрикацией имеет право на существование. сложно сказать, вообще конечно по уму так. с точки зрения науки... нужно брать коллекцию, 3-4 метода и вперед - сравнивать.... но уж муторно это все....
должны же быть проверенные временем и опытом решения....
Вообще, умные люди говорят, что все зависит от коллекции. Бывает так, что Байес ничють не хуже опорных векторов (а скорости конечно не сравнить), бывает, что хватает бинарного взвешивания, бывает, что одна рубрика никак не хочет работать, бывает примитивный алгоритм работает гораздо лучше более совершенного... Многое бывает.
Критерием на самом деле может быть только опыт.
все это конечно так, но я не думаю что все эти алгоритмы сродни шаманским пляскам.... мол, хз, когда чтолибо будет лучше.
Всегда работа алгоритма зависит от чего либо, вот вопрос от чего - и волнует больше всего.
все это конечно так, но я не думаю что все эти алгоритмы сродни шаманским пляскам.... мол, хз, когда чтолибо будет лучше.
Всегда работа алгоритма зависит от чего либо, вот вопрос от чего - и волнует больше всего.
На опыте можно будет сказать точно. А до экспериментов лишь общие соображения.
Если Вас серьезно интересует эта тема, советую съездить в октябре на РОМИП. Там соберуться "столпы" и Вы сможете обсудить любые вопросы, которые у Вас есть по классификации.
http://romip.narod.ru/
спасибо, я постараюсь
А вообще хорошим введением будет http://www.math.unipd.it/~fabseb60/Publications/ACMCS02.pdf
Спасибо и от меня, только ссылка уже не работает, вот рабочая:
http://www.cis.uni-muenchen.de/kurse/pmaier/ML_05/material/ACMCS02.pdf