icreator

Рейтинг
36
Регистрация
22.09.2003

к Vyacheslav Tikhonov:

в статье Вы пишете:

====ищем фразу "расписание всех поездов, проходящих через Самару", то при отсутствии такой же фразы расписание всех поездов, проходящих через Киев система определит, что они имеют 5 общих слов, то есть с большой вероятностью страница, содержащая эту фразу вам подойдет, хотя это и не так. Поэтому нужно такой запрос скорректировать, убрав все слова-паразиты и оставив только слова, которые точно характеризуют вашу потребность. В нашем случае словами-паразитами являются слова: всех, проходящих, через. ======

Как раз для осмысленного поиска это не слова-паразиты, а даже наоборот - слова-помошники, ибо благодаря им будет найдена только нужная пользователю инфо.

взял Ваш (Vyacheslav Tikhonov) текст: "Ни для кого не секрет, что современный интернет представляет..."

статсы анализатора:

всего слов 1857,

неизвестных: 256 ! о как ровно :)

время разбора: 1.6сек

несвязанных: 1002 (без учета неизвестных)

осмысливаемость: чуть более 50%

скорость: чуть более 1000слов в сек

Список неизвестных слов могу приложить.

кстатит тест проводил на файле:

"РОССИЙСКАЯ ФЕДЕРАЦИЯ

ТРУДОВОЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ"

взятом с библиотеки Мошкова кажись

ну так укажите в инете файл на котором вам интересно статсы посмотреть на мой анализатор (без поиска)

что есть в Вашем понимании "реальное"? программа работающая (анализатор+поиск) - это реальное? или нужен поисковик коммерческий?

да уж, а зачем он тебе этот тезаурус? с тезаурусом любой ... сможет, а вот ты без него попробуй поиск человеческий сделай :)

А если честно то этот форум похоже обсуждает только обычные тупые поисковики, которые со смыслом и тезаурусом никак не связаны. Кстати я все бьюсь, делаю осмысленный поиск. Тезаурус - это просто знания о мире, ведь так? Что-то вроде толкового словаря но расширенный. Вообще-то проблема с зацикливанием есть! Если всзять смысл слова "смысл", то в толковом словаре уже на второй итерации получаем зацикливание: "смысл - это типа знание", смотрим "знание это смысл". Вот и ая-улю. Значит вообще говоря человеческий язык не имеет смысла?

Как писал al1734
Сколько людей столько и требований к поисковым системам.
Начну с себя. Меня например в Яндексе не устраивает сам поиск инфомации. Иногда (чего кривить душой, не всегда) по запросу получаеш информацию не того уровня, что необходимо. Остается впечатление что те ресурсы которые продвигаются в сети тебе навязываются при том что сама ценность информации в них минимальна.
Как такового фильтра на ценность информации не существует.
Я понимаю что оценка ценности информации достаточно сложная задача, но создание машины состоящей из нескольких выполняющих узкую специализацию это возможно.

Мы пишем систему осмысленного поиска, давай к нам!


www.icreator.ru/isearch

1 234
Всего: 37