Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Рекомендую Вам провести тестирование с вопросом "что вы ожидаете получить, когда принимаете решение нажать на ссылку" и "оправдались ли ваши ожидания" - только не среди разработчиков, а людей с улицы

Спрашивал - среди обычных людей реакция вполне нормальная. А вот смотрю среди разработчиков, работающих в смежной области - не очень. ;)

Разве это мои проблемы как пользователя? Это - Ваши проблемы.
В частности, некоторые люди говорят, что надо выстраивать специальные подкластеры и т.п.

Будет. Уж будьте уверены, много чего там еще будет. Кстати, а кто говорит?

Кроме того, что-то я совсем не понимаю - это ведь Вы употребили термин "очень хорошая точность".

Именно - точность самого алгоритма хорошая. Но сейчас идет приходится выбирать нечто среднее между точностью и полнотой.

а откуда у Вас такая уверенность, что Вы будете знать это исходное событие.
Да и когда оно начинается - почему это вдруг "теракт в Беслане", а не тот момент когда они только подъезжали?

Кластера перестраиваются раз в 5 минут. За это время определенные ключевые слова (назовем их опорными) повышают свой рейтинг.

Кстати, сейчас потратил несколько минут на то, чтобы найти и покритиковать за второй пример (рядом был с первым) - вчера это называлось "Клинтон -> в генсеки ООН" - и там был явный мусор о выборах, так как мне казалось, что тема - о Клинтоне.

А здесь все вообще просто - в течение дня в пределах кластера собираются преимущественно "простые" события. В конце дня система пытается объединить связанные события. В данном случае кластера были о президентах США - нынешних претендентах и бывшем президенте.

И как здесь считать "точность"?

А теперь, господин критик, не соблагоизволите ли дать Ваше определение точности применительно к потоку новостей? У меня такое подозрение, что у нас оно несколько разное.

Давайте рассмотрим 22 октября, тема (по итогам дня) называется "Из Беслана выдворили сайентологов" (34 сообщения).

Судя по всему разработчики, конечно, считают, что тема о Беслане.

Борис, на самом деле тема не просто о Беслане, а о событиях, связанных с терактом в Беслане. Ниже я объясню, почему.

Авторы ресурса перекладывают на пользователя обязанность делать выводы какая же на самом деле была основная тема.

А разве в приведенном примере непонятно, какова основная тема? Конечно, мы могли бы просто вывалить список повторяющихся новостей по теме, часто представляющих собой обычную перепечатку из одного источника, но мы же этого не делаем, пытаясь давать в каждом топике новую информацию о конкретной теме. Разве это плохо?

То есть, что же такое ТОЧНОСТЬ в Novoteka.

Видите ли, вопрос нельзя ставить таким образом. Понятие точности здесь нужно рассматривать не просто в Новотеке, а в непрерывно изменяющемся новостном потоке.

Отличительная особенность новостей заключается в том, что среди других источников информации они имеют максимальную энтропию, так как события с равной вероятностью могут развиваться по любому сюжету.

Кроме того, события всегда зависят друг от друга, поэтому зародившееся с утра событие к вечеру может либо затухнуть, либо быть разбито на серию более мелких, связанных с ним. Это вызывает определенные трудности, так как события в начале дня могут быть абсолютно "не похожи" на события в конце дня.

На данный момент ведутся работы, чтобы определить степень связи простых событых с целью показать не просто некое плоское событие, а попытаться сделать этот показ всесторонним. Поэтому точность в Новотеке будет определяться исходным событием, породившим все остальные - в приведенном примере это теракт в Беслане.

для РАБОТЫ с контентом

Что с ним нужно делать?

огромной БАЗЕ ЗНАНИЙ

Что, по-вашему, БАЗА ЗНАНИЙ, и как интернет может ею быть?

PS. "Нормальная форма" - это именительный падеж единственого числа, я правильно понимаю? И какая же доля (%) "употреблений существительных" приходится на нормальную форму?

Ответ на этот вопрос вам вряд ли скажет даже Яндекс. Но процент высокий.

Не говоря уже о том, что СЛОВОИЗМЕНЕНИЕ создает не только затруднения для несчастных "индексаторов", но еще и служит для ВЫРАЖЕНИЯ СМЫСЛА (в частности, - создает СВЯЗАННОСТЬ текста).

Что такое СМЫСЛ и каким образом СЛОВОИЗМЕНЕНИЕ может его передавать?

А всякими "интеллектуальными технологиями" я интересуюсь факультативно, в порядке личного развития. Гордо ношу, так сказать, звание Advaced User.

Одна из основных проблем, господин Advanced User, в том, что Вы говорите на языке, совершенно непонятном разработчикам. Попробуйте выражаться по-человечески. :)

Одна из моих задумок - сделать ИНДИВИДУАЛЬНЫЙ ИНСТРУМЕНТАРИЙ для работы с интернетом - в виде MS Access и IE под ним (то есть - SHDocVw.InternetExplorer) ... Ну и - в морфологический разбор я очень быстро в этой задачке упираюсь.

Морфологический разбор в основном ничего не определяет. Существительные имеют свойство наиболее часто употребляться в нормальной форме.

Попробуйте логично, четко и кратко изложить, для чего нужен "ИНДИВИДУАЛЬНЫЙ ИНСТРУМЕНТАРИЙ " и почему он должен работать под MS Access и IE. Mobilis in Mobile.

!Иван FXS, а может Вы полностью изложите всю задачу, которую хотите решить, а мы подумаем, чем сможем помочь?

Многие из технологий, о которых вы спрашивали на этом форуме, в том или ином виде, но есть.

Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.

То есть составляют поисковый образ документа.

Некоторые детали об этом образе и описаны в тех статьях, которые я привел. Первая статья о том, как отсеть "почти" дубли - они разве не входят в список "похожих документов"? Вторая, относящаяся к классификации документов, тоже имеет интересные моменты.

Хотя, конечно, Яндексу виднее. :)

Смотрите здесь и здесь.

Там, конечно, не все, но можно догадаться, как они это делают.

Точность на сегодня неплохая, мусора в 5 темах (Лукашенко, Тебуев, Шеремет, ЦАС, венесуэл.пожар) не обнаружил. Полноту не проверил, как это сделать без серьезных затрат и не представляю.

Да, точность в последней версии очень хорошая, вот над полнотой еще приходится работать - очень тяжело собирать полные кластера для быстро развивающихся событий, к примеру, о Беслане или ЮКОСе.

Вопрос: как вы оцениваете важность новости, по количеству публикаций за фиксированный период?

Пока да - это самая простая и надежная мера. Я думаю, что в дальнейшем важность конкретного события будет зависеть как от времени, так и от авторитетности источников, которые напечатали что-то об этом событии.

Запустилась бета-версия еще одного новостного поисковика - Новотека.

Если интересно, посмотрите на качество кластеризации.

Всего: 847