Спрашивал - среди обычных людей реакция вполне нормальная. А вот смотрю среди разработчиков, работающих в смежной области - не очень. ;)
Будет. Уж будьте уверены, много чего там еще будет. Кстати, а кто говорит?
Именно - точность самого алгоритма хорошая. Но сейчас идет приходится выбирать нечто среднее между точностью и полнотой.
Кластера перестраиваются раз в 5 минут. За это время определенные ключевые слова (назовем их опорными) повышают свой рейтинг.
А здесь все вообще просто - в течение дня в пределах кластера собираются преимущественно "простые" события. В конце дня система пытается объединить связанные события. В данном случае кластера были о президентах США - нынешних претендентах и бывшем президенте.
А теперь, господин критик, не соблагоизволите ли дать Ваше определение точности применительно к потоку новостей? У меня такое подозрение, что у нас оно несколько разное.
Борис, на самом деле тема не просто о Беслане, а о событиях, связанных с терактом в Беслане. Ниже я объясню, почему.
А разве в приведенном примере непонятно, какова основная тема? Конечно, мы могли бы просто вывалить список повторяющихся новостей по теме, часто представляющих собой обычную перепечатку из одного источника, но мы же этого не делаем, пытаясь давать в каждом топике новую информацию о конкретной теме. Разве это плохо?
Видите ли, вопрос нельзя ставить таким образом. Понятие точности здесь нужно рассматривать не просто в Новотеке, а в непрерывно изменяющемся новостном потоке.
Отличительная особенность новостей заключается в том, что среди других источников информации они имеют максимальную энтропию, так как события с равной вероятностью могут развиваться по любому сюжету.
Кроме того, события всегда зависят друг от друга, поэтому зародившееся с утра событие к вечеру может либо затухнуть, либо быть разбито на серию более мелких, связанных с ним. Это вызывает определенные трудности, так как события в начале дня могут быть абсолютно "не похожи" на события в конце дня.
На данный момент ведутся работы, чтобы определить степень связи простых событых с целью показать не просто некое плоское событие, а попытаться сделать этот показ всесторонним. Поэтому точность в Новотеке будет определяться исходным событием, породившим все остальные - в приведенном примере это теракт в Беслане.
Что с ним нужно делать?
Что, по-вашему, БАЗА ЗНАНИЙ, и как интернет может ею быть?
Ответ на этот вопрос вам вряд ли скажет даже Яндекс. Но процент высокий.
Что такое СМЫСЛ и каким образом СЛОВОИЗМЕНЕНИЕ может его передавать?
Aspseek или Mnogosearch.
Одна из основных проблем, господин Advanced User, в том, что Вы говорите на языке, совершенно непонятном разработчикам. Попробуйте выражаться по-человечески. :)
Морфологический разбор в основном ничего не определяет. Существительные имеют свойство наиболее часто употребляться в нормальной форме.
Попробуйте логично, четко и кратко изложить, для чего нужен "ИНДИВИДУАЛЬНЫЙ ИНСТРУМЕНТАРИЙ " и почему он должен работать под MS Access и IE. Mobilis in Mobile.
!Иван FXS, а может Вы полностью изложите всю задачу, которую хотите решить, а мы подумаем, чем сможем помочь?
Многие из технологий, о которых вы спрашивали на этом форуме, в том или ином виде, но есть.
То есть составляют поисковый образ документа.
Некоторые детали об этом образе и описаны в тех статьях, которые я привел. Первая статья о том, как отсеть "почти" дубли - они разве не входят в список "похожих документов"? Вторая, относящаяся к классификации документов, тоже имеет интересные моменты.
Хотя, конечно, Яндексу виднее. :)
Смотрите здесь и здесь.
Там, конечно, не все, но можно догадаться, как они это делают.
Да, точность в последней версии очень хорошая, вот над полнотой еще приходится работать - очень тяжело собирать полные кластера для быстро развивающихся событий, к примеру, о Беслане или ЮКОСе.
Пока да - это самая простая и надежная мера. Я думаю, что в дальнейшем важность конкретного события будет зависеть как от времени, так и от авторитетности источников, которые напечатали что-то об этом событии.
Запустилась бета-версия еще одного новостного поисковика - Новотека.
Если интересно, посмотрите на качество кластеризации.