Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Надеюсь, спамеров станет меньше

Вообще, тут все получается как раз наоборот - чем больше со спаммерами борешься, тем больше их становится. Азарт, видимо, - всегда интересно "пробить" новый спам-фильтр.

Эту страницу я читал достаточно давно поэтому во всех перечисленных местах могу ошибаться
А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла

trink, спокойно :) Только за это Яндекс доступ к своему поиску не запрещает :)

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Ну, слова "выдающееся" там, конечно, не было, но так пиариться как-то не слишком красиво, особенно в контексте скандала с баннерами mail.ru ;)

"С другой стороны, признаюсь, я ожидал от Microsoft большего, чем просто копирования идеологии, структуры и навигации Google News. Кстати, единственное заявленное отличие от Google - учет поведения пользователей в качестве одного из факторов ранжирования сюжетов - уже полгода как используется в Яндекс.Новостях. "

"В России существует некоторое количество разработок в этой области, но я не знаю ни одной, кроме Яндекс.Новостей, которая была бы ориентирована на массовую аудиторию и позволяла буквально за секунды составить представление о новостях дня. А робот news.yandex.ru как на ладони показывает - вот пять главных новостей на эту минуту."

А новость-то была, как бы, о новом сервисе Microsoft :)

Можно пояснить что вы имеете ввиду упоминая сегмент кода?

CS - Code Segment, где размещается исполняемый код. Неплохо было бы просмотреть курс программирования на ассемблере :)

То есть мне не хотелось бы разрабатывать различные алгоритмы под различные структуры данных(которые могут быть достаточно сложными) поэтому я и попросил совета: возможно кто нибудь поможет с подбором универсального и производительного алгоритма и его готовой реализации

iseg вроде уже описал оптимальный алгоритм сжатия инвертированных файлов:

Вот как будет выглядеть такой список для нашей странички в предположении, что мы запоминаем позицию вплоть до номера главы:

ЖЕНЩИНА: [Быт.1],[+11],[0],[+2],[+4],[+2],[+4],..

Считаете в координатах смещение и храните его в индексе.

Странное утверждение. Я не понял его смысла.

Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?

Я всего лишь имел в виду, что у Вас исходные данные представляют собой массивы данных, уже отсортированные по темам.

Однако, если Gray говорит, что тематика новостей в XML-экспорте не указывается, то сразу возникает вопрос - какими алгоритмами можно определить тему новости, если зачастую однозначно это не может сделать даже сам редактор? :) Именно новости, средний объем которой в лучшем случае всего несколько килобайт - частотные методы здесь вообще, как я понимаю, не работают, а лексические цепочки должны быть разложены по темам, что вообще непосильная задача для постоянно меняющегося новостного потока.

Но вот если массивы заранее рубрицированы, то задача существенно упрощается тем, что в кластер не будут включены "левые" документы из других тем, то есть задача вполне может быть решена даже в лоб, как я и показал - для этого нужно только составить правильный topic query.

Однако TDT-шники, видимо, не склонны решать эту задачу столь "лобовым" методом.

Так-так, похоже появился один из авторов сего замечательного сервиса :) И, если не секрет, каким же образом задача кластеризации решена в Яндекс-Новости?

У меня, если можно так сказать, почти научный интерес :)

Но попробуйте применить его для одной из больших тем с несколькими десятками новостей и вы получите плохой результат.

Спорить не буду, но описанный мной алгоритм является стандартным для TDT - Topic Detection and Tracking и вряд ли яндекс пошел по пути наибольшего сопротивления.

Я пошел по другому пути: я иследую частотные характеристики документов в рамках общего набора и пытаюсь применить алгоритмы кластеризации.
На мой взгляд так поступили и ребята из яндекса.

Частотные методы для новостей не очень годятся - дело в том, что есть такое понятие, как фокус новости (event focus) - он никак не зависит от частотных характеристик документа. Для коллекций документов - возможно, хотя результаты получше дают лексические цепочки.

В общем-то, мы уже отвлеклись...

Поэтому я исключаю возможность ручного формирования тем
Это был бы просто непосильный труд

Вроде никто и не говорил, что это делается вручную. В XML, который они получают, уже указана рубрика новости, причем указана сайтом-источником, то есть никакой рубрикации новостей Яндекс сам не проводит. А темы, как я уже сказал, собираются в кластер элементарно.

Пример - берем новость

Шеварднадзе получил письмо от Буша .

Подобрать все новости по этой же теме несложно - извлекаем ключевые слова, например, существительные - Шеварнадзе, письмо, Буш.

Теперь автоматически формируем запрос.

Документы в выдаче слишком отличаются от кластера , который показывает по этой теме Яндекс? :)

ПО моей субьективной оценке мой модуль лучше справляется с работой чем яндекс ньюз

Для справки - Яндекс Ньюз ничего особо не кластеризует - там идет обычный экспорт в XML заранее рубрицированных источником новостей. Так что задача сводится к тому, чтобы выбрать из заголовка (и возможно резюме) новости наиболее важные ключевые слова и создать специальный запрос, который будет выдавать все "похожие" новости.

Ничего особо героического в этом нет и не совсем понятно, зачем так надувать щеки от осознания собственной крутизны :)

После этого ввел массу мелких изменений которые влияли как на качество так и на требования к вычислительным ресурсам и в принципе сейчас имею достаточно неплохие результаты

А можно ли где-то глянуть на полученные результаты?

Всего: 847