осмысленный поиск - новые вести

I
На сайте с 22.09.2003
Offline
36
8828

Ранее я писал что осмысленный поиск (www.icreator.ru/isearch)

работает очень медленно при вводе ЕЯ во внутреннюю базу знаний - всего лишь на порядок быстрее чем читает ЕЯ текст человек. Теперь я переделал синтаксический анализатор, ускорив разбор ЕЯ но при этом ухудшилось качество: в ЕЯ тексте уменьшилось число распознанных смыслов. Привожу статистику для нового анализатора на моем железе (800дюрон, винт 66АТА, язык программы: Visual Polog 5 executable):

-размер ЕЯ файла: 54115слов

-из низ неизветных ( которые Система не знает и соответсвенно не смогла использовать их в построении смысла предложения): 5236

-несвязанных слов (слова не учавствующие в каком-либо смысле): 24292

-итого "осмысливаемость": 50%

-время разбора ЕЯ:53сек

-итого скорость "осмысливания": 1000слов/сек

Здесь все словоформы были загружены в оперативку предварительно. Замечу что на самом деле процент связываемости выше, так как некоторые слова и не должны быть связаны в "смысле". по моим расчетам реально "осмыслено" 70%.

В предыдущей версии Системы анализатор примерно 10слов в секунду "осмысливал", но % связывания был выше.

Если отключить связывание деепричастий, то скорость возрастает на 30% а "осмысливаемость" упадет на 10%.

В анализаторе пока не работает обработка списков.

Как Вы считаете - такая скорость уже больше подходит для сбора инфо в инете для базы поисковика? Или еще нет?

Скорость поиска "смысл"а в "смыслах" пока не привожу.

С уважением Ермолаев Дмитрий
VT
На сайте с 27.01.2001
Offline
130
#1

icreator, здесь собрались одни материалисты ;)

Вы что-то реально работающее можете показать?

I
На сайте с 22.09.2003
Offline
36
#2

что есть в Вашем понимании "реальное"? программа работающая (анализатор+поиск) - это реальное? или нужен поисковик коммерческий?

VT
На сайте с 27.01.2001
Offline
130
#3
программа работающая (анализатор+поиск) - это реальное

Вполне. Вот и любопытно было бы на такую программу глянуть, только не с "подкрученными" исходными данными (которые даются в качестве примера и под которые можно подстроить результат), а с собственными.

I
На сайте с 22.09.2003
Offline
36
#4

ну так укажите в инете файл на котором вам интересно статсы посмотреть на мой анализатор (без поиска)

I
На сайте с 22.09.2003
Offline
36
#5

кстатит тест проводил на файле:

"РОССИЙСКАЯ ФЕДЕРАЦИЯ

ТРУДОВОЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ"

взятом с библиотеки Мошкова кажись

VT
На сайте с 27.01.2001
Offline
130
#6
ну так укажите в инете файл на котором вам интересно статсы посмотреть на мой анализатор (без поиска)

Да хотя бы на моем кратком пособии по поиску информации. Ссылка в подписи.

K
На сайте с 22.04.2003
Offline
31
Ken
#7

Раз уж разговор зашел о проверке работы поисковых алгоритмов - то где можно взять более-менее универсальный тест для оценки работы поисковой системы?

B
На сайте с 02.09.2002
Offline
42
bvd
#8
Как писал Ken
Раз уж разговор зашел о проверке работы поисковых алгоритмов - то где можно взять более-менее универсальный тест для оценки работы поисковой системы?

См.

соседний топик

либо TREC

либо CLEF

K
На сайте с 22.04.2003
Offline
31
Ken
#9

В первую очередь интересны тесты для русскоязычных текстов.

Конечно, я видел этот интересный семинар, он к сожалению платный, с другой стороны он, видимо, будет напоминать соревнования "черепахи со страусом".

Надеюсь, что результатом таких семинаров будет появление программы стандартных тестов любой псевдопоисковой машины на хорошем корпусе текстов с разнообразнейшими запросами и оценками.

B
На сайте с 02.09.2002
Offline
42
bvd
#10
Как писал Ken
В первую очередь интересны тесты для русскоязычных текстов.

В настоящее время это только CLEF (40 Мбайт Известий-1995) и РОМИП.

Как писал Ken
Конечно, я видел этот интересный семинар, он к сожалению платный, с другой стороны он, видимо, будет напоминать соревнования "черепахи со страусом".

Участие в семинаре в этом году, думаю, будет БЕСПЛАТНЫМ

(вроде бы получен грант РФФИ на оплату проверяющих).

РОМИП - не пузомерка - никто не собирается всерьез сравнивать

разные системы, поставленные в разные условия.

Речь идет об исследовании на практике неясных вопросов.

Как писал Ken
Надеюсь, что результатом таких семинаров будет появление программы стандартных тестов любой псевдопоисковой машины на хорошем корпусе текстов с разнообразнейшими запросами и оценками.

Я думаю, что ккасается РОМИП этот вопрос будет решен в ближайшее время.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий