- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Начинать можно отсюда и дальше уже изучать конкретную задачу:
Story Segmentation - Detect changes between topically cohesive sections
Topic Tracking - Keep track of stories similar to a set of example stories
Topic Detection - Build clusters of stories that discuss the same topic
First Story Detection - Detect if a story is the first story of a new, unknown topic
Link Detection - Detect whether or not two stories are topically linked
Вячеслав, спасибо за ссылку. Там я был (туда меня послалали уже посту на пятом), но мне это мало помогло - материалы весьма (для меня) разбросаны и нет какой-то чёткой и понятной структуры...
Пока не время не торопит, ищу что-нибудь поструктурированее... Не найду, полезу туда разбираться, но может что таки есть? =)
А что конкретно Вы ищете? Все ведь зависит от стоящей задачи.
"Задача" выглядит примерно следующим образом: пусть есть некоторая база с документами. Задача - сгруппировать документы в некоторые, чтоли "кусты" - то есть наиболее близкие и похожие.
Как я понял, кластеризация, во-первых, очень дорогое (ресурсы, время) занятие, а во-вторых, не очень понятно по какому принципу можно собирать такие кусты. Как мне кажется, в отношении (осмысленного) текста наиболее адекватен подход применяемый, в частности, в новостях яндекса.
Опять же, как я понял, Яндекс использует TDT, которое, если можно назвать частным приложением кластеризации, но не в общем случае, а учитывая, что текст можеть иметь много смыслов, много сюжетов/кустов/топиков (в терминологии Яндекса/моей/исследовательской соответственно) и т.д.
Вот именно это мне и интересно. Прочитав этот раздел форума понял, что разкластеризовать всё (например, весь интернет, невозможно), но хоть немного приблизиться - очень хочется...
Собственно именно это и интересует...