zurzmancer

Рейтинг
0
Регистрация
23.03.2004
Как писал Ken


В результате возникает вопрос: возможен ли такой сценарий (набор сценариев), который бы "точно" передавал смысл искомого документа, обеспечивающий максимальные точность и полноту поиска?

Вопрос этот слишком общий. Ну и ответ: возможен, но при определенных условиях :)

Приведу пример - помню был у меня набор информации из области радио - бюллетени, в которых упоминались страны, частоты, станции. Так там оптимальным был таков сценарий, при котором на заданную мной страну выводился тут же без всяких ссылок список абзацев, которые относились к этой стране. То есть точно отражался смысл того, что я искал :)

Так что помните что вам нужно и делайте именно то, что поможет этого достичь.

Как писал Ken

Когда система четко находит слова - это прошлый век.
С какими задачами сталкиваются разработчики на следующем шаге?

ну так все правильно - прошлый век человеку как раз и нужен. К тому же если четко сделать этот прошлый век, то он будет оч. быстро работать на домашней машине. Впрочем все зависит от целей.

Ну а дальше начинается всякая муторная фигня - плагины для различных форматов, нахождение оптимального сценария работы с системой поиска (включая удобство вывода и последующей работы с найденной информацией)

что естественно влечет разработку интерфейса пользователя, который, в случае, если системе предполагается обеспечивать специфические функции, будет тоже весьма сложен.

Ну и в зависимости от квалификации разработчика будут или баги или куча багов и дустом от них не избавишься...

Как писал Pavelkq
Какие же есть варианты ускорения данной технологии? Задача проста: поиск одного слова с учетом морфологии и переход в контекст.
Более того, хотелось бы получить адекватный лематизатор, т.е. нужен хороший словарь (где бы его скачать?).
Далее интересует, что делать с хещ таблицей. Какой в ней вообще прок? Если я верно понял, с ее помощью можно значительно ускорить поиск?

С уважением, Павел.

С января так никто и не ответил...

Делфи для такой задачи вообще-то весьма неудобен, лучше с++

А вообще для индекса поисковой системы домашнего изготовления можно посоветовать бинарные Б-деревья. А вот хэш таблицы нужны для морфологического словаря и для доступа к корням Б-дерева. То есть быстрый доступ по сочетаниям словоформа-индекс индекс-словоформа и индекс-Б-дерево.