Что собой представляет ваша база знаний? - Поисковые технологии

осмысленный поиск - новые вести

icreator · 2026-07-01T11:07:43.0000000Z

Ранее я писал что осмысленный поиск ( www.icreator.ru/isearch ) работает очень медленно при вводе ЕЯ во внутреннюю базу знаний - всего лишь на порядок быстрее чем читает ЕЯ текст человек. Теперь я переделал синтаксический анализатор, ускорив разбор ЕЯ но при этом ухудшилось качество: в ЕЯ тексте уменьшилось число распознанных смыслов. Привожу статистику для нового анализатора на моем железе (800дюрон, винт 66АТА, язык программы: Visual Polog 5 executable): -размер ЕЯ файла: 54115слов -из низ неизветных ( которые Система не знает и соответсвенно не смогла использовать их в построении смысла предложения): 5236 -несвязанных слов (слова не учавствующие в каком-либо смысле): 24292 -итого "осмысливаемость": 50% -время разбора ЕЯ:53сек -итого скорость "осмысливания": 1000слов/сек Здесь все словоформы были загружены в оперативку предварительно. Замечу что на самом деле процент связываемости выше, так как некоторые слова и не должны быть связаны в "смысле". по моим расчетам реально "осмыслено" 70%. В предыдущей версии Системы анализатор примерно 10слов в секунду "осмысливал", но % связывания был выше. Если отключить связывание деепричастий, то скорость возрастает на 30% а "осмысливаемость" упадет на 10%. В анализаторе пока не работает обработка списков. Как Вы считаете - такая скорость уже больше подходит для сбора инфо в инете для базы поисковика? Или еще нет? Скорость поиска "смысл"а в "смыслах" пока не привожу.

I

36

icreator

9 марта 2004, 20:46

#11

взял Ваш (Vyacheslav Tikhonov) текст: "Ни для кого не секрет, что современный интернет представляет..."

статсы анализатора:

всего слов 1857,

неизвестных: 256 ! о как ровно :)

время разбора: 1.6сек

несвязанных: 1002 (без учета неизвестных)

осмысливаемость: чуть более 50%

скорость: чуть более 1000слов в сек

Список неизвестных слов могу приложить.

С уважением Ермолаев Дмитрий

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

36

icreator

9 марта 2004, 20:51

#12

к Vyacheslav Tikhonov:

в статье Вы пишете:

====ищем фразу "расписание всех поездов, проходящих через Самару", то при отсутствии такой же фразы расписание всех поездов, проходящих через Киев система определит, что они имеют 5 общих слов, то есть с большой вероятностью страница, содержащая эту фразу вам подойдет, хотя это и не так. Поэтому нужно такой запрос скорректировать, убрав все слова-паразиты и оставив только слова, которые точно характеризуют вашу потребность. В нашем случае словами-паразитами являются слова: всех, проходящих, через. ======

Как раз для осмысленного поиска это не слова-паразиты, а даже наоборот - слова-помошники, ибо благодаря им будет найдена только нужная пользователю инфо.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

10 марта 2004, 09:22

#13

взял Ваш (Vyacheslav Tikhonov) текст: "Ни для кого не секрет, что современный интернет представляет..."
статсы анализатора:

Статистика меня вообще-то не очень интересует. И в чем же "осмысленность"?

T

36

trink

10 марта 2004, 10:30

#14

2icreator

А можно более подробно, что собой представляет ваша база знаний.

Какие типы обьектов в ней хранятся, какие типы связей?

K

31

Ken

10 марта 2004, 11:48

#15

2icecreator

Бывают моменты, что пользователь сам не знает точно или не может сформулировать - ЧТО ОН ИЩЕТ.

Присоединяюс к вопросу "что такое осмысленность" в ващем понимании? Можно ли поподробнее?

Спасибо

357

euhenio

10 марта 2004, 12:25

#16

осмысливаемость: чуть более 50%

-это характеристика текста или "осмысливающей" программы? :)

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

I

36

icreator

10 марта 2004, 15:01

#17

инфо по Системе о-поиска на моем сайте представлена:

www.icreator.ru\isearch

VT

130

Vyacheslav Tikhonov

10 марта 2004, 15:07

#18

инфо по Системе о-поиска на моем сайте представлена:

Это все, безусловно, здорово, на что реально удалось вытащить из моего документа?

B

42

bvd

10 марта 2004, 16:31

#19

Как писал icreator
инфо по Системе о-поиска на моем сайте представлена:
www.icreator.ru\isearch

Когда говорят о системе, основанной на

синтаксическом анализе, мне лично хочется получить ЧЕСТНЫЕ ответы на следующие два вопроса:

1) проводили лы Вы проверку синтаксического разбора на корпусе

текстов величиной в 1 Мбайт?

(а лучше для текстов разных жанров)

2) какой процент предложений разобран правильно, какой частично

правильно (с незначащими ошибками), какой процент ошибочных из

разобранных, сколько не разобрано.

Если эти цифры для хороших не превосходят 50% (что обычно), то, к сожалению, надо сильно постараться, чтобы найти приложение, где это может работать (а тем более поискать, где это будет лучше работать, чем более простые методы).

Кроме того, у Вас упоминается Prolog - для синтаксического анализа требуются базы правил большого размера - а у реализаций Prolog'a с этим ранее были проблемы.

То есть вопрос - какой размер Вашей базы правил?

I

36

icreator

10 марта 2004, 18:32

#20

Как писал bvd

1) проводили лы Вы проверку синтаксического разбора на корпусе
текстов величиной в 1 Мбайт?
(а лучше для текстов разных жанров)

на размере 437кБ формата .txt

2) какой процент предложений разобран а)правильно, какой б)частично
правильно (с незначащими ошибками), какой процент в)ошибочных из
разобранных, сколько не разобрано с).

я сейчас посмотрел на реальном тексте, результаты не ахти:

а) -0%, б) частично правильно имеется ввиду связи некоторые установлены, но среди них нет неправильных - 80%, в) 20%, с) - в каждом что-то да связано. Но процент связывания не по предложениям, а по словам: около 35% - количество слов учавствующих в связях к общему числу слов. Тут нужно заметить что:

- оключена обработка наречий

- отключен поиск подчинения прелогов

- отключен поиск починения существительных глаголу

- отключена обработка причастий

- не работает обработка списков

- не работает обработка частиц (а, но, и, или, не...)

- не работает связывание местоимений

Если эти цифры для хороших не превосходят 50% (что обычно), то, к сожалению, надо сильно постараться, чтобы найти приложение, где это может работать (а тем более поискать, где это будет лучше работать, чем более простые методы).

думаю что в интерент-поиске очень даже должно пригодиться.

Кроме того, у Вас упоминается Prolog - для синтаксического анализа требуются базы правил большого размера - а у реализаций Prolog'a с этим ранее были проблемы.
То есть вопрос - какой размер Вашей базы правил?

ПроЛог я использую ViP 5.0 - у него таких проблем нет. Есть проблема со скоростью работы с фактами - то есть тормоза по сравнению с использованием обычных переменных в обычных алгоритмических языках программирования налицо, хотя относительно других ПроЛогов факты у ViP очень быстрые.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что делать, чтобы попасть в ответы Google Bard

осмысленный поиск - новые вести