Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

Яндекс открывает самооборону - сервис защиты от спама.

8 декабря 2003, 14:54

Надеюсь, спамеров станет меньше

Вообще, тут все получается как раз наоборот - чем больше со спаммерами борешься, тем больше их становится. Азарт, видимо, - всегда интересно "пробить" новый спам-фильтр.

Тематическая кластеризация документов

8 декабря 2003, 12:41

Эту страницу я читал достаточно давно поэтому во всех перечисленных местах могу ошибаться
А вообще мне хотелось бы уладить этот конфликт поскольку я не вижу в нем смысла

trink, спокойно :) Только за это Яндекс доступ к своему поиску не запрещает :)

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Ну, слова "выдающееся" там, конечно, не было, но так пиариться как-то не слишком красиво, особенно в контексте скандала с баннерами mail.ru ;)

"С другой стороны, признаюсь, я ожидал от Microsoft большего, чем просто копирования идеологии, структуры и навигации Google News. Кстати, единственное заявленное отличие от Google - учет поведения пользователей в качестве одного из факторов ранжирования сюжетов - уже полгода как используется в Яндекс.Новостях. "

"В России существует некоторое количество разработок в этой области, но я не знаю ни одной, кроме Яндекс.Новостей, которая была бы ориентирована на массовую аудиторию и позволяла буквально за секунды составить представление о новостях дня. А робот news.yandex.ru как на ладони показывает - вот пять главных новостей на эту минуту."

А новость-то была, как бы, о новом сервисе Microsoft :)

Технологии сжатия

8 декабря 2003, 12:32

Можно пояснить что вы имеете ввиду упоминая сегмент кода?

CS - Code Segment, где размещается исполняемый код. Неплохо было бы просмотреть курс программирования на ассемблере :)

То есть мне не хотелось бы разрабатывать различные алгоритмы под различные структуры данных(которые могут быть достаточно сложными) поэтому я и попросил совета: возможно кто нибудь поможет с подбором универсального и производительного алгоритма и его готовой реализации

iseg вроде уже описал оптимальный алгоритм сжатия инвертированных файлов:

Вот как будет выглядеть такой список для нашей странички в предположении, что мы запоминаем позицию вплоть до номера главы:

ЖЕНЩИНА: [Быт.1],[+11],[0],[+2],[+4],[+2],[+4],..

Считаете в координатах смещение и храните его в индексе.

HTTP_USER_AGENT ботов

7 декабря 2003, 13:37

Ссылка

Тематическая кластеризация документов

6 декабря 2003, 23:49

Странное утверждение. Я не понял его смысла.

Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?

Я всего лишь имел в виду, что у Вас исходные данные представляют собой массивы данных, уже отсортированные по темам.

Однако, если Gray говорит, что тематика новостей в XML-экспорте не указывается, то сразу возникает вопрос - какими алгоритмами можно определить тему новости, если зачастую однозначно это не может сделать даже сам редактор? :) Именно новости, средний объем которой в лучшем случае всего несколько килобайт - частотные методы здесь вообще, как я понимаю, не работают, а лексические цепочки должны быть разложены по темам, что вообще непосильная задача для постоянно меняющегося новостного потока.

Но вот если массивы заранее рубрицированы, то задача существенно упрощается тем, что в кластер не будут включены "левые" документы из других тем, то есть задача вполне может быть решена даже в лоб, как я и показал - для этого нужно только составить правильный topic query.

Тематическая кластеризация документов

5 декабря 2003, 09:15

Однако TDT-шники, видимо, не склонны решать эту задачу столь "лобовым" методом.

Так-так, похоже появился один из авторов сего замечательного сервиса :) И, если не секрет, каким же образом задача кластеризации решена в Яндекс-Новости?

У меня, если можно так сказать, почти научный интерес :)

Тематическая кластеризация документов

4 декабря 2003, 15:13

Но попробуйте применить его для одной из больших тем с несколькими десятками новостей и вы получите плохой результат.

Спорить не буду, но описанный мной алгоритм является стандартным для TDT - Topic Detection and Tracking и вряд ли яндекс пошел по пути наибольшего сопротивления.

Я пошел по другому пути: я иследую частотные характеристики документов в рамках общего набора и пытаюсь применить алгоритмы кластеризации.
На мой взгляд так поступили и ребята из яндекса.

Частотные методы для новостей не очень годятся - дело в том, что есть такое понятие, как фокус новости (event focus) - он никак не зависит от частотных характеристик документа. Для коллекций документов - возможно, хотя результаты получше дают лексические цепочки.

В общем-то, мы уже отвлеклись...

Технологии сжатия

4 декабря 2003, 15:00

По этому поводу сразу можно посмотреть:

Compression and Fast Indexing for Multi-Gigabyte Text Databases

Justin Zobel, Alistair Moffat, Ron Sacks-Davis: An Efficient Indexing Technique for Full Text Databases

ну или ссылку.

Тематическая кластеризация документов

4 декабря 2003, 14:30

Поэтому я исключаю возможность ручного формирования тем
Это был бы просто непосильный труд

Вроде никто и не говорил, что это делается вручную. В XML, который они получают, уже указана рубрика новости, причем указана сайтом-источником, то есть никакой рубрикации новостей Яндекс сам не проводит. А темы, как я уже сказал, собираются в кластер элементарно.

Пример - берем новость

Шеварднадзе получил письмо от Буша .

Подобрать все новости по этой же теме несложно - извлекаем ключевые слова, например, существительные - Шеварнадзе, письмо, Буш.

Теперь автоматически формируем запрос.

Документы в выдаче слишком отличаются от кластера , который показывает по этой теме Яндекс? :)

Тематическая кластеризация документов

4 декабря 2003, 13:39

ПО моей субьективной оценке мой модуль лучше справляется с работой чем яндекс ньюз

Для справки - Яндекс Ньюз ничего особо не кластеризует - там идет обычный экспорт в XML заранее рубрицированных источником новостей. Так что задача сводится к тому, чтобы выбрать из заголовка (и возможно резюме) новости наиболее важные ключевые слова и создать специальный запрос, который будет выдавать все "похожие" новости.

Ничего особо героического в этом нет и не совсем понятно, зачем так надувать щеки от осознания собственной крутизны :)

После этого ввел массу мелких изменений которые влияли как на качество так и на требования к вычислительным ресурсам и в принципе сейчас имею достаточно неплохие результаты

А можно ли где-то глянуть на полученные результаты?

Что такое Power BI и зачем это нужно бизнесу

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Vyacheslav Tikhonov