Поисковая машина старого поколения

3

Pavelkq

7 января 2004, 09:48

2464

Уважаемые, Гуру, мой вопрос скорее из раздела "для чайников", но в соответствующем разделе обсужлается все что угодно кроме самих поисковых технологий.

Я действительно собираюсь написать поисковую машину (на Дельфи) локальных файлов. Прочитав множество информации о технологии я получил некоторую кашу в голове. До сих пор я осуществлял поиск очень просто:

1. Составление индекса текста типа

слово - его точная координата в тексте №1, координата №2 и т.д.

2. Поиск осуществляется по индексу.

3. Переход в контекст по координатам по очереди.

С появлением простейших лематизаторов я стал индексировать только лемы (при этом в пункт 2 я тоже применял лематизатор). Это значительно сократило индекс. Но скорость построения и обработки индекса оставляет желать лучшего.

Какие же есть варианты ускорения данной технологии? Задача проста: поиск одного слова с учетом морфологии и переход в контекст.

Более того, хотелось бы получить адекватный лематизатор, т.е. нужен хороший словарь (где бы его скачать?).

Далее интересует, что делать с хещ таблицей. Какой в ней вообще прок? Если я верно понял, с ее помощью можно значительно ускорить поиск?

С уважением, Павел.

Z

0

zurzmancer

23 марта 2004, 10:25

#1

Как писал Pavelkq
Какие же есть варианты ускорения данной технологии? Задача проста: поиск одного слова с учетом морфологии и переход в контекст.
Более того, хотелось бы получить адекватный лематизатор, т.е. нужен хороший словарь (где бы его скачать?).
Далее интересует, что делать с хещ таблицей. Какой в ней вообще прок? Если я верно понял, с ее помощью можно значительно ускорить поиск?

С уважением, Павел.

С января так никто и не ответил...

Делфи для такой задачи вообще-то весьма неудобен, лучше с++

А вообще для индекса поисковой системы домашнего изготовления можно посоветовать бинарные Б-деревья. А вот хэш таблицы нужны для морфологического словаря и для доступа к корням Б-дерева. То есть быстрый доступ по сочетаниям словоформа-индекс индекс-словоформа и индекс-Б-дерево.

122

Deoden

31 марта 2004, 22:01

#2

Не ответил не кто, потому что не верит что в одиночку (или даже 2-3 чел) можно создать поисковик то что он его напишет не факт что найдет достаточно мощный сервер (хостин который согласится его обслуживать) а ведь для только старта более мание ходового движка на как минимум 3 хорошо оборудованных сервера надо. Обслуживание их хостинг -службой мне кажется не реальное, то есть они физически должны находится там где и разработчики...

Да если поискать, то в нете есть много (хоть и сырых) движков и над ними работали группы людей. Для такого дела нужны большие капиталовложения...

P.S. Это мое лично мнение не кому не навязываю...

Альтернатива ISPManager 6 Яндекс кобласит Google Updates - апдейты

B

42

bvd

1 апреля 2004, 05:00

#3

Как писал Deoden
Не ответил не кто, потому что не верит ...

Я думаю, что никто не ответил потому, что если

человек употребляет слова типа "лема" или "хещ",

или интересуется где взять словарь для лемматизации,

то ему сначала стоит еще немного "прочитать множество информации",

в том числе и на данном форуме.

"истина где-то в деталях..."

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

1 апреля 2004, 07:02

#4

Ну что же - затраты действитлельно велики. Но ведь можно и ограничиться.

Допустим - это будет локальный поисковик в текстовых документах.

2 - шага пройдены. Подключен некий морфологический словарь и стэммер. Создана система индексации слов, для словоформы можно найти список документов где-она встречается. Что следует делать дальше?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

1 апреля 2004, 08:08

#5

Как писал Ken
Что следует делать дальше?

Может в самом начале озадачиться вопросом - зачем делать

новый поисковик локальный/корпоративный/глобальный?

Если есть ответ на этот вопрос - что-то новое, нужное,

чего не было у других - тогда вопроса "Что следует делать дальше?"

не возникает.

При этом, по большому счету и программирование в названном комплекте вторично - все можно собрать из имеющихся и легко доступных компонентов.

Если же хочется просто попрактиковаться в программировании - опять же нет такого вопроса...

Люди не меняются, несмотря РСЯ и AdFox. Вопросы Юникредит запрашивает дополнительные документы.

K

31

Ken

1 апреля 2004, 09:00

#6

Да конечно! (Я следую теме система старого поколения)

В первую очередь, интересены задачи которые ставятся после этих 2-х шагов. Как я понимаю - дальнейшие разработки идут в области ранжирования результатов (ссылок на документы в простейшем случае). Не так ли?

Когда система четко находит слова - это прошлый век.

С какими задачами сталкиваются разработчики на следующем шаге?

Google: изменение анкорного текста Контекстные ссылки из товара Есть ли какие особенности

Z

0

zurzmancer

1 апреля 2004, 09:27

#7

Как писал Ken

Когда система четко находит слова - это прошлый век.
С какими задачами сталкиваются разработчики на следующем шаге?

ну так все правильно - прошлый век человеку как раз и нужен. К тому же если четко сделать этот прошлый век, то он будет оч. быстро работать на домашней машине. Впрочем все зависит от целей.

Ну а дальше начинается всякая муторная фигня - плагины для различных форматов, нахождение оптимального сценария работы с системой поиска (включая удобство вывода и последующей работы с найденной информацией)

что естественно влечет разработку интерфейса пользователя, который, в случае, если системе предполагается обеспечивать специфические функции, будет тоже весьма сложен.

Ну и в зависимости от квалификации разработчика будут или баги или куча багов и дустом от них не избавишься...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

5 апреля 2004, 18:26

#8

Как писал zurzmancer

нахождение оптимального сценария работы с системой поиска (включая удобство вывода и последующей работы с найденной информацией)

В результате возникает вопрос: возможен ли такой сценарий (набор сценариев), который бы "точно" передавал смысл искомого документа, обеспечивающий максимальные релевантность и полноту поиска?

Z

0

zurzmancer

6 апреля 2004, 09:32

#9

Как писал Ken

В результате возникает вопрос: возможен ли такой сценарий (набор сценариев), который бы "точно" передавал смысл искомого документа, обеспечивающий максимальные точность и полноту поиска?

Вопрос этот слишком общий. Ну и ответ: возможен, но при определенных условиях :)

Приведу пример - помню был у меня набор информации из области радио - бюллетени, в которых упоминались страны, частоты, станции. Так там оптимальным был таков сценарий, при котором на заданную мной страну выводился тут же без всяких ссылок список абзацев, которые относились к этой стране. То есть точно отражался смысл того, что я искал :)

Так что помните что вам нужно и делайте именно то, что поможет этого достичь.

K

31

Ken

6 апреля 2004, 10:33

#10

Спасибо за ответ:)

Наверное, этого достаточно для ПМ старого поколения.

Дальнейшее... за эвристиками сопоставления запросов пользователя с образами документов.

Будут ли они понимать язык используя несколько унарных и бинарных операций и быстрый-быстрый перебор?

Сможет ли определенно большой набор онтологических, семантических связей привести к проблескам в ИИ? Время покажет...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что такое Power BI и зачем это нужно бизнесу

Курс биткоина превысил $50 тысяч