осмысленный поиск - новые вести

I
На сайте с 22.09.2003
Offline
36
#11

взял Ваш (Vyacheslav Tikhonov) текст: "Ни для кого не секрет, что современный интернет представляет..."

статсы анализатора:

всего слов 1857,

неизвестных: 256 ! о как ровно :)

время разбора: 1.6сек

несвязанных: 1002 (без учета неизвестных)

осмысливаемость: чуть более 50%

скорость: чуть более 1000слов в сек

Список неизвестных слов могу приложить.

С уважением Ермолаев Дмитрий
I
На сайте с 22.09.2003
Offline
36
#12

к Vyacheslav Tikhonov:

в статье Вы пишете:

====ищем фразу "расписание всех поездов, проходящих через Самару", то при отсутствии такой же фразы расписание всех поездов, проходящих через Киев система определит, что они имеют 5 общих слов, то есть с большой вероятностью страница, содержащая эту фразу вам подойдет, хотя это и не так. Поэтому нужно такой запрос скорректировать, убрав все слова-паразиты и оставив только слова, которые точно характеризуют вашу потребность. В нашем случае словами-паразитами являются слова: всех, проходящих, через. ======

Как раз для осмысленного поиска это не слова-паразиты, а даже наоборот - слова-помошники, ибо благодаря им будет найдена только нужная пользователю инфо.

VT
На сайте с 27.01.2001
Offline
130
#13
взял Ваш (Vyacheslav Tikhonov) текст: "Ни для кого не секрет, что современный интернет представляет..."
статсы анализатора:

Статистика меня вообще-то не очень интересует. И в чем же "осмысленность"?

T
На сайте с 15.04.2003
Offline
36
#14

2icreator

А можно более подробно, что собой представляет ваша база знаний.

Какие типы обьектов в ней хранятся, какие типы связей?

K
На сайте с 22.04.2003
Offline
31
Ken
#15

2icecreator

Бывают моменты, что пользователь сам не знает точно или не может сформулировать - ЧТО ОН ИЩЕТ.

Присоединяюс к вопросу "что такое осмысленность" в ващем понимании? Можно ли поподробнее?

Спасибо

euhenio
На сайте с 21.09.2001
Offline
357
#16
осмысливаемость: чуть более 50%

-это характеристика текста или "осмысливающей" программы? :)

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
I
На сайте с 22.09.2003
Offline
36
#17

инфо по Системе о-поиска на моем сайте представлена:

www.icreator.ru\isearch

VT
На сайте с 27.01.2001
Offline
130
#18
инфо по Системе о-поиска на моем сайте представлена:

Это все, безусловно, здорово, на что реально удалось вытащить из моего документа?

B
На сайте с 02.09.2002
Offline
42
bvd
#19
Как писал icreator
инфо по Системе о-поиска на моем сайте представлена:
www.icreator.ru\isearch

Когда говорят о системе, основанной на

синтаксическом анализе, мне лично хочется получить ЧЕСТНЫЕ ответы на следующие два вопроса:

1) проводили лы Вы проверку синтаксического разбора на корпусе

текстов величиной в 1 Мбайт?

(а лучше для текстов разных жанров)

2) какой процент предложений разобран правильно, какой частично

правильно (с незначащими ошибками), какой процент ошибочных из

разобранных, сколько не разобрано.

Если эти цифры для хороших не превосходят 50% (что обычно), то, к сожалению, надо сильно постараться, чтобы найти приложение, где это может работать (а тем более поискать, где это будет лучше работать, чем более простые методы).

Кроме того, у Вас упоминается Prolog - для синтаксического анализа требуются базы правил большого размера - а у реализаций Prolog'a с этим ранее были проблемы.

То есть вопрос - какой размер Вашей базы правил?

I
На сайте с 22.09.2003
Offline
36
#20
Как писал bvd

1) проводили лы Вы проверку синтаксического разбора на корпусе
текстов величиной в 1 Мбайт?
(а лучше для текстов разных жанров)

на размере 437кБ формата .txt



2) какой процент предложений разобран а)правильно, какой б)частично
правильно (с незначащими ошибками), какой процент в)ошибочных из
разобранных, сколько не разобрано с).

я сейчас посмотрел на реальном тексте, результаты не ахти:

а) -0%, б) частично правильно имеется ввиду связи некоторые установлены, но среди них нет неправильных - 80%, в) 20%, с) - в каждом что-то да связано. Но процент связывания не по предложениям, а по словам: около 35% - количество слов учавствующих в связях к общему числу слов. Тут нужно заметить что:

- оключена обработка наречий

- отключен поиск подчинения прелогов

- отключен поиск починения существительных глаголу

- отключена обработка причастий

- не работает обработка списков

- не работает обработка частиц (а, но, и, или, не...)

- не работает связывание местоимений


Если эти цифры для хороших не превосходят 50% (что обычно), то, к сожалению, надо сильно постараться, чтобы найти приложение, где это может работать (а тем более поискать, где это будет лучше работать, чем более простые методы).

думаю что в интерент-поиске очень даже должно пригодиться.


Кроме того, у Вас упоминается Prolog - для синтаксического анализа требуются базы правил большого размера - а у реализаций Prolog'a с этим ранее были проблемы.
То есть вопрос - какой размер Вашей базы правил?

ПроЛог я использую ViP 5.0 - у него таких проблем нет. Есть проблема со скоростью работы с фактами - то есть тормоза по сравнению с использованием обычных переменных в обычных алгоритмических языках программирования налицо, хотя относительно других ПроЛогов факты у ViP очень быстрые.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий