к Vyacheslav Tikhonov:
в статье Вы пишете:
====ищем фразу "расписание всех поездов, проходящих через Самару", то при отсутствии такой же фразы расписание всех поездов, проходящих через Киев система определит, что они имеют 5 общих слов, то есть с большой вероятностью страница, содержащая эту фразу вам подойдет, хотя это и не так. Поэтому нужно такой запрос скорректировать, убрав все слова-паразиты и оставив только слова, которые точно характеризуют вашу потребность. В нашем случае словами-паразитами являются слова: всех, проходящих, через. ======
Как раз для осмысленного поиска это не слова-паразиты, а даже наоборот - слова-помошники, ибо благодаря им будет найдена только нужная пользователю инфо.
взял Ваш (Vyacheslav Tikhonov) текст: "Ни для кого не секрет, что современный интернет представляет..."
статсы анализатора:
всего слов 1857,
неизвестных: 256 ! о как ровно :)
время разбора: 1.6сек
несвязанных: 1002 (без учета неизвестных)
осмысливаемость: чуть более 50%
скорость: чуть более 1000слов в сек
Список неизвестных слов могу приложить.
кстатит тест проводил на файле:
"РОССИЙСКАЯ ФЕДЕРАЦИЯ
ТРУДОВОЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ"
взятом с библиотеки Мошкова кажись
ну так укажите в инете файл на котором вам интересно статсы посмотреть на мой анализатор (без поиска)
что есть в Вашем понимании "реальное"? программа работающая (анализатор+поиск) - это реальное? или нужен поисковик коммерческий?
да уж, а зачем он тебе этот тезаурус? с тезаурусом любой ... сможет, а вот ты без него попробуй поиск человеческий сделай :)
А если честно то этот форум похоже обсуждает только обычные тупые поисковики, которые со смыслом и тезаурусом никак не связаны. Кстати я все бьюсь, делаю осмысленный поиск. Тезаурус - это просто знания о мире, ведь так? Что-то вроде толкового словаря но расширенный. Вообще-то проблема с зацикливанием есть! Если всзять смысл слова "смысл", то в толковом словаре уже на второй итерации получаем зацикливание: "смысл - это типа знание", смотрим "знание это смысл". Вот и ая-улю. Значит вообще говоря человеческий язык не имеет смысла?
Мы пишем систему осмысленного поиска, давай к нам!
www.icreator.ru/isearch