- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Для справки - Яндекс Ньюз ничего особо не кластеризует - там идет обычный экспорт в XML заранее рубрицированных источником новостей.
Странное утверждение. Я не понял его смысла.
Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?
Можно где-нибудь посмотреть на "особую"?
Щеки они действительно раздувают в словах синонимах к слову "выдающееся"
Уважаемый trink!
Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.
Илья Сегалович,
технический директор,
Яндекс
Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?
Я всего лишь имел в виду, что у Вас исходные данные представляют собой массивы данных, уже отсортированные по темам.
Однако, если Gray говорит, что тематика новостей в XML-экспорте не указывается, то сразу возникает вопрос - какими алгоритмами можно определить тему новости, если зачастую однозначно это не может сделать даже сам редактор? :) Именно новости, средний объем которой в лучшем случае всего несколько килобайт - частотные методы здесь вообще, как я понимаю, не работают, а лексические цепочки должны быть разложены по темам, что вообще непосильная задача для постоянно меняющегося новостного потока.
Но вот если массивы заранее рубрицированы, то задача существенно упрощается тем, что в кластер не будут включены "левые" документы из других тем, то есть задача вполне может быть решена даже в лоб, как я и показал - для этого нужно только составить правильный topic query.
Уважаемый trink!
Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.
Илья Сегалович,
технический директор,
Яндекс
Да действительно
Моя информация скорее всего устарела
Я начал детально иследовать Яндекс Ньюз сразу после внедрения автоматической кластеризации новостей.
Иследование мое включало и прочтение прес релизов а также прочтение страницы news.yandex.ru/about.html
Если мне не изменяет память то сейчас ее содержимое изменилось
Сейчас мне кажется что там были фразы вроде "нами проделана грандиозная и нетривиальная работа касающаяся построения алгоритмов" или "единственный рускоязычный ресурс с подобными возможностями"
Эту страницу я читал достаточно давно поэтому во всех перечисленных местах могу ошибаться
А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла
А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла
trink, спокойно :) Только за это Яндекс доступ к своему поиску не запрещает :)
Ну, слова "выдающееся" там, конечно, не было, но так пиариться как-то не слишком красиво, особенно в контексте скандала с баннерами mail.ru ;)
"С другой стороны, признаюсь, я ожидал от Microsoft большего, чем просто копирования идеологии, структуры и навигации Google News. Кстати, единственное заявленное отличие от Google - учет поведения пользователей в качестве одного из факторов ранжирования сюжетов - уже полгода как используется в Яндекс.Новостях. "
"В России существует некоторое количество разработок в этой области, но я не знаю ни одной, кроме Яндекс.Новостей, которая была бы ориентирована на массовую аудиторию и позволяла буквально за секунды составить представление о новостях дня. А робот news.yandex.ru как на ладони показывает - вот пять главных новостей на эту минуту."
А новость-то была, как бы, о новом сервисе Microsoft :)
Хорошо, чуть подробнее.
Каждому документу сопоставляется "поисковый образ" - запрос из характерных терминов; запрос строится на основе поиска по кворуму (это стандартный оператор Яндекса, хотя и плохо задокументированный). Из списков найденных документов строится матрица близости; при вычислении меры близости документов используется стандартная же мера релевантности Яндекса.
Метод кластеризации - агломеративный.
У меня сложилось впечатление, что на качество результата большее влияние оказывает адекватность меры близости документов, чем выбор метода первичной кластеризации и подбор его параметров.
С уважением
Михаил Маслов
Новости от некоторых источников рубрицированы, но кластеризации это не помогает.
Во-первых, рубрикация дается на уровне 'политика-экономика-культура-спорт-наука', что слишком общо.
Во-вторых, даже при _такой_ рубрикации есть много неоднозначностей. Например, новость про продажу Русскими фондами акций Рамблера сообщили 17 источников, из них 9 ее отнесли к экономике, 3 - к интернету (Gray в их числе), 1 - к науке и т.д. Более того, есть регулярные неоднозначности: взрывы - происшествия или политика, ДТП - происшествия или авто, крупный бизнес типа ЮКОСа - политика или экономика (а в случае Челси-Абрамовича еще и спорт) и т.п.
В-третьих, рубрикации разных источников не совпадают друг с другом, и не совпадают с рубрикацией Яндекса (рубрики источников поэтому маппируются в яндексовские), что усугубляет бардак.
В общем, улучшать кластеры с помощью рубрик мы не стали даже пробовать. Пока те стали, во всяком случае.
С уважением
Михаил Маслов
AlexA, воля случая. Я не по тому что на сайте оценивал. как раз то что на сайте сейчас лежит я вообще не смотрел :)
Хорошо, чуть подробнее...
С уважением
Михаил Маслов
А можно если не сложно немного тактико технических характеристик
То есть на скольки серверах все это крутится? Какая конфигурация сервера? Сколько новостей в сутки способна обрабатывать ваша система?
При запросе происходит кластеризация ведь не всех документов соответствующих этому запросу? Сколько документов способна прокластеризировать ваша система скажем за десять секунд? Или вы сохраняете уже готовые кластера а потом подымаете те в которых найдены документы из запроса?
Если конечно же эта информация не является комерческой тайной :)
Конкретно вот этот http://soft.neurok.ru/ раздел.
AlexA, воля случая. Я не по тому что на сайте оценивал. как раз то что на сайте сейчас лежит я вообще не смотрел :)
Простите, но я просил чуть подробнее. Неужто такой секрет? К тому же вы не находите в приведенных совете и ответе некоторого противоречия?