bvd

Рейтинг
42
Регистрация
02.09.2002
Как писал chelo-vek
Революционная технология поиска в Интернете http://www.pereplet.ru/nauka/9450.html#9450
Как писал SEKT
структура SEKT

Проекты по разработке "онтологий" очень модны сейчас на Западе,

да и у нас. Люди из одного заканчивающегося проекта "должны"

перетекать в другой.

Кроме того, сейчас в Европе денег на "просто науку" не дают,

обязательно должно быть "Explotation" & "Dissemination".

Деньги, собственно, дают на интеграцию ученых из разных

стран - с этим делом в данном проекте все хорошо.

Люди, организации известные, беда только в том, что

никто из них не умеет делать БОЛЬШИХ онтологий

(в маленьких же хорошие специалисты), которые нужны

для решения задачи "Революционная технология поиска в Интернете".

Имеющиеся сейчас у них ресурсы (Wordnet, SUMO) недостаточны/некачественны. На создание хорошего нового

им не хватит ни времени ни средств.

Поэтому отчитываться будут либо маленькими онтологиями,

зато вылизанными - что тоже полезно -

при поиске можно будет сразу получать интересные ответы

(на небольшое множество вопросов)- кто где работает,

кто соавтор, где учился и т.п.

Либо каким-нибудь "полезным" стандартом.

А в понятие "Dissemination" входит продвижение (с прицелом на коммерческий выход) своего проекта.

В общем, вот так достаются деньги для науки на Западе.

Причем это, скорее всего, деньги не "full position" - для этих только поездки, а деньги на "контрактников", в том числе аспирантов.

Как писал icreator
инфо по Системе о-поиска на моем сайте представлена:
www.icreator.ru\isearch

Когда говорят о системе, основанной на

синтаксическом анализе, мне лично хочется получить ЧЕСТНЫЕ ответы на следующие два вопроса:

1) проводили лы Вы проверку синтаксического разбора на корпусе

текстов величиной в 1 Мбайт?

(а лучше для текстов разных жанров)

2) какой процент предложений разобран правильно, какой частично

правильно (с незначащими ошибками), какой процент ошибочных из

разобранных, сколько не разобрано.

Если эти цифры для хороших не превосходят 50% (что обычно), то, к сожалению, надо сильно постараться, чтобы найти приложение, где это может работать (а тем более поискать, где это будет лучше работать, чем более простые методы).

Кроме того, у Вас упоминается Prolog - для синтаксического анализа требуются базы правил большого размера - а у реализаций Prolog'a с этим ранее были проблемы.

То есть вопрос - какой размер Вашей базы правил?

Как писал trink

А можно поподробнее на счет нейрока?
Почему вы считаете его лучшим представителем?
Можно где то познакомится с демо версией кластеризации???

Я сказал "... среди лучших ..." - потому что они участвовали

в TREC то ли 1998, то ли 1999 года и показали приличные результаты

(статью не направляли, но есть графики результатов).

И видел лично их результаты - кластеры верхнего уровня неплохие -

дальше все разваливается.

Для многих задач и этого будет достаточно, для многих - плохо.

Кроме того они довольно много написали научных работ.

Как писал Maxim Golubev

Не вижу смысла дальше разводить демагогию типа ново не ново.

Ну в общем так.

Текущая реализация ни в чем не убеждает + стандартную процедуру

проверки проходить не желаете.

Уверен, что это не ново.

Поэтому предлагается доказывать свою правоту рекламирующему свой ресурс.

Как писал Maxim Golubev

Если есть вопросы конкретные по технологии - спрашивайте.

Если все знаете - зачем чье-то мнение?

А я лучше почитаю

здесь

Как писал Maxim Golubev

Я не говорил, что она "супер-пупер", я говорил, что это нечто новое.

Тут уже сомневались насчет "нечто новое".

Сомнения будут и далее при таком уровне объяснения

- "информационное поле", "информационная вселенная",

"предсказание будущего" - а почему, например, не "семантический анализ", "искусственный разум", "чудо в перьях",

"фокус-покус"?

Попробуйте найти аналоги - просто НЕ ВЕРЮ, что их нет.

Это не умалит достижений, наоборот, УСИЛИТ, если сделано

днйствительно что-то хорошее.

Как писал Maxim Golubev
BVD, хороший ты пример привел. Если ты заметил, то в результатах поиска выдаётся некое КК, так вот оно прямо пропорционально расстоянию от истинного ответа на вопрос пользователя. КК=[1;0]. Т.е. если КК=1, то это на 100% ответ на вопрос. В природе КК=1 - не существует. В твоём примере, система выдала самый релевантный ответ с КК=4.4*10-5, что говорит о том, что по запрашиваемой тематике у неё просто нет ответа. Дала что смогла.

Ну и что?

Обычная в этой системе ситуация, что коэффициент быстро падает,

и невозможно по нему определить - релевантен элемент хвоста запросу или нет.

Запрос "черная дыра" - 2 и 3 документы нерелевантны -

следующий релевантен, при том что "расстояние" на три порядка меньше/больше - какая же вера в эти коэффициенты?

В общем - прежде чем говорить о супер-пупер технологии - попробуйте

превзойти (аккуратно посчитав полноту-точность) обычный tf*idf.

Как писал Maxim Golubev

-------
Как писал Vyacheslav Tikhonov
Сложность задачи я прекрасно представляю. Рассчитать близости каждого объекта каждому задача, конечно, фантастическая, но кому сейчас легко.
-------

Грубо говоря, это уже реализовано.

Ну в лучшем случае - какой-то кластерный алгоритм -

среди лучших представителей, например, NeuroK.

Такие методы неплохо дают кластеры верхних уровней (в лучшем случае несколько десятков),

однако, чем больше коллекция, и чем более "переферичен" запрос

- тем больше шума - кластеры следующих уровней обычно выглядят

ужасно.

Все разваливается, если в запросе соединяются элементы, входящие

во многие кластеры.

Например, попробуйте "белый человек", "белый билет",...

На запрос "черный человек" возвращаются документы про "черные метки", "черные дыры", "черное пятно" - потому что какие-то люди там тоже есть.

Поэтому вопрос об универсальности, оптимальности сей "чудо-машины" как минимум открыт.

Как писал Ken
В первую очередь интересны тесты для русскоязычных текстов.

В настоящее время это только CLEF (40 Мбайт Известий-1995) и РОМИП.

Как писал Ken
Конечно, я видел этот интересный семинар, он к сожалению платный, с другой стороны он, видимо, будет напоминать соревнования "черепахи со страусом".

Участие в семинаре в этом году, думаю, будет БЕСПЛАТНЫМ

(вроде бы получен грант РФФИ на оплату проверяющих).

РОМИП - не пузомерка - никто не собирается всерьез сравнивать

разные системы, поставленные в разные условия.

Речь идет об исследовании на практике неясных вопросов.

Как писал Ken
Надеюсь, что результатом таких семинаров будет появление программы стандартных тестов любой псевдопоисковой машины на хорошем корпусе текстов с разнообразнейшими запросами и оценками.

Я думаю, что ккасается РОМИП этот вопрос будет решен в ближайшее время.

Как писал Ken
Раз уж разговор зашел о проверке работы поисковых алгоритмов - то где можно взять более-менее универсальный тест для оценки работы поисковой системы?

См.

соседний топик

либо TREC

либо CLEF

Как писал Professor
посмотрите еще вот тут http://linguist.nm.ru/

а морфология здесь причем?

Всего: 133