- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Спорить не буду, но описанный мной алгоритм является стандартным для TDT - Topic Detection and Tracking и вряд ли яндекс пошел по пути наибольшего сопротивления.
На мой взгляд так поступили и ребята из яндекса.
Частотные методы для новостей не очень годятся - дело в том, что есть такое понятие, как фокус новости (event focus) - он никак не зависит от частотных характеристик документа. Для коллекций документов - возможно, хотя результаты получше дают лексические цепочки.
В общем-то, мы уже отвлеклись...
Вот здесь написано кое что по этому поводу :
http://company.yandex.ru/articles/smi-mirror.html
Исходя из содержания документа получается что я немного ближе к истине
Но на самом деле ответ содержится в способе построения матрицы близости, ведь она может быть построена и с помощью лексических цепочек и с помощью частотных методов
Вячеслав, в TDT, как известно, есть четыре задачи:
New event detection
Story link detection
Topic detection
Topic Tracking
(раньше у них еще было Story segmentation, но они его убрали)
(см. TDT 2003 )
и способом "составления запроса" можно пытаться решать разве что одну из них - Topic Tracking (есть 3-5 документов-образцов по теме; из новостного потока требуется выловить все документы по этой теме). Однако TDT-шники, видимо, не склонны решать эту задачу столь "лобовым" методом.
Задача Яндекс-Новостей ближе всего к Topic detection (структурировать _весь_ новостной поток, сгруппировав сообщения в кластеры, соответствующие событиям).
Из недавнего: 700 сообщений было в сюжете об отставке Шеварднадзе и сопутствующим событиям (митинги оппозиции, захват парламента, посредничество Игоря Иванова ...)
В настоящий момент самый большой - Березовский в Грузии ~ 170 сообщений. Т.е. кластер в сотни сообщений при дневном потоке в 5-10 тыс. - норма жизни.
Кроме того, первое вовсе не исключает второго.
С уважением
Михаил Маслов
Так-так, похоже появился один из авторов сего замечательного сервиса :) И, если не секрет, каким же образом задача кластеризации решена в Яндекс-Новости?
У меня, если можно так сказать, почти научный интерес :)
Вы почитайте вышепроцитированный текст http://company.yandex.ru/articles/smi-mirror.html Там процесс довольно подробно описан.
С уважением
Михаил Маслов
Вопрос был про иерархическую структуру - я на него и ответил. Подразумевалось, что кластеры уже есть, но они пока равноправны и проблема только в том, как построить из них дерево. А как сделать сами кластеры - тут, конечно, мой опыт ничем не поможет.
Был у меня один знакомый, который как раз кластеризацией занимался, но сейчас уехал куда-то за границу, кажется в Англию, и на письма не отвечает. Одно время он в livejournal часто пописывал, может там его можно отловить, но адрес потерялся после того, как мне пришлось закарантинить свой почтовый ящик, зараженный нелечимым вирусом. Будет время - открою его со всеми необходимыми предосторожностями и посмотрю.
Вы почитайте вышепроцитированный текст http://company.yandex.ru/articles/smi-mirror.html Там процесс довольно подробно описан.
С уважением
Михаил Маслов
Ну вот как я уже и говорил там описаны общие идеи а о том как расчитывается матрица похожести и какие именно алгоритмы кластеризации применяются -- ничего не написано
Хотя в http://news.yandex.ru/about.html написано что алгоритмы открыты
Если это не является комерческой тайной можно ли подробнее рассказать о вышеописанных моментах?
Слава, это не так. Спросил бы, я бы тебе рассказал. Да, в случае с тематической лентой там очень много тематических сайтов, но в рубрике "Интернет" очень много сообщений lenta.ru, например, а новость с этого сайта попадала даже в "Экономику".
www.neurok.com - у них как-то работает. И на самом деле не так уж и плохо. Конкретно вот этот http://soft.neurok.ru/ раздел
Простите, можно чуть подробнее, как вы оценили качество работы кластеризации уважаемого мной Сергея Шумского. Насколько я понял, у него на сайте приведен только один пример кластеризации ("советы Путину"). Причем этот пример - уже готовая замороженная структура, а не живая программа (к тому же необученная заранее на похожих рубриках), где можно поиграться пусть даже с фиксированным и хорошо разделяющимся массивом.