- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Спрашивал - среди обычных людей реакция вполне нормальная. А вот смотрю среди разработчиков, работающих в смежной области - не очень. ;)
В частности, некоторые люди говорят, что надо выстраивать специальные подкластеры и т.п.
Будет. Уж будьте уверены, много чего там еще будет. Кстати, а кто говорит?
Именно - точность самого алгоритма хорошая. Но сейчас идет приходится выбирать нечто среднее между точностью и полнотой.
Да и когда оно начинается - почему это вдруг "теракт в Беслане", а не тот момент когда они только подъезжали?
Кластера перестраиваются раз в 5 минут. За это время определенные ключевые слова (назовем их опорными) повышают свой рейтинг.
А здесь все вообще просто - в течение дня в пределах кластера собираются преимущественно "простые" события. В конце дня система пытается объединить связанные события. В данном случае кластера были о президентах США - нынешних претендентах и бывшем президенте.
А теперь, господин критик, не соблагоизволите ли дать Ваше определение точности применительно к потоку новостей? У меня такое подозрение, что у нас оно несколько разное.
Спрашивал - среди обычных людей реакция вполне нормальная. А вот смотрю среди разработчиков, работающих в смежной области - не очень. ;)
...
А теперь, господин критик, не соблагоизволите ли дать Ваше определение точности применительно к потоку новостей? У меня такое подозрение, что у нас оно несколько разное.
повторяю:
если есть некоторая тема, которая в Вашем случае задается
заголовком темы + фрагментом последнего сообщения.
То берем 3 (или больше) тестеров:
1) предъявляем им заголовок темы (без дополнительных пояснений)
2) они его читают
3) затем предъявляем им список сообщений
4) люди отщелкивают "релевантное/нерелевантное" как они это понимают
Мне кажется, что это определение:
- в духе TREC (традиционное)
- простое, прозрачное
- легко проверяемое
Далее, очевидно, можно считать точность по каждой теме и точность по потоку.
заголовком темы + фрагментом последнего сообщения.
Все это не вызывает возражений. Но та методика, о которой Вы говорите, определяет совсем не точность, а релевантность.
К тому же, оценка субъективна - одного все устраивает, другого - нет.
Я так и не увидел определения, что же такое точность по потоку. Очевидно, что поток не подчиняется приведенной выше методике, так как представляет собой множество связанных событий.
Все это не вызывает возражений. Но та методика, о которой Вы говорите, определяет совсем не точность, а релевантность.
я остаюсь при своем мнении:
точность для темы = Р/В
где Р - количество релевантных
В - количество выданных системой
К тому же, оценка субъективна - одного все устраивает, другого - нет.
поэтому-то и берется несколько тестеров (асессоров).
Там, действительно, много забавного (в РОМИП, например, рассматривается "слабая релевантность", "сильная релевантность"), но, например, в TREC и РОМИП считается, что средние цифры соответствуют действительности.
Я так и не увидел определения, что же такое точность по потоку. Очевидно, что поток не подчиняется приведенной выше методике, так как представляет собой множество связанных событий.
отчего же.
Здесь точность = П/С,
где
П - количество правильно отнесенных к темам сообщений
(те которые были помечены релевантными в конкретных темах)
С - общее число сообщений, приписанных к какой-либо теме (то есть выданных системой).
Это определение, по-моему, macroaverage precision. Можно и microaverage precision - найти среднее по процентам каждой темы (если я не ошибся).
-----------------
Вы же, мне кажется, меряете точность соответствию некоторому "тематическому образу" кластера.
Это очень удобная позиция для разработчика.
Вопрос только в том, насколько этот тематический образ соответствует ожиданиям Ваших пользователей, которым все равно, как Вы там все вычисляете.
Простого пользователя вызывали? Моим ожиданиям кластеризация в Новотеке соотвествует. Главное - дублей новостей заметно меньше стало. Впрочем, я обычно смотрю новости, никак не связанные зо взрывами, терроризмом и прочими хитами сезона, могу ошибаться.
-----------------
Вы же, мне кажется, меряете точность соответствию некоторому "тематическому образу" кластера.
Это очень удобная позиция для разработчика.
Я думаю, это правильная позиция. Зайдите на любой новостной ресурс - как правило, под любой новостью есть еще список "новостей по теме", причем не обязательно напрямую связанных с событиями, о которых идет речь в новости.
Пользователь к этому уже приучен.
Единственная проблема заключается в том, что мы показываем последнюю новость кластера и это не совсем хорошо. В приведенных Вами примерах гораздо логичнее было бы назвать кластера как "Выборы в Америке" и "Последствия теракта в Беслане", тогда никаких вопросов вообще бы не возникало.
Кроме того, явно не хватает подкластеров, которые бы четко отделили одно связанное событие от другого в пределах одного кластера. В будущем они появятся.
Запустили новую версию Новотеки.
Теперь она умеет не только рубрицировать новости, но и собирать сюжеты, показывающие развитие событий во времени, и при этом скрывать "почти" дубли, сильно раздражающие обычного пользователя.