Локальный поисковик для своего сайта

12
E
На сайте с 14.11.2001
Offline
1
E
5022

Предлагаю обсудить тему организации локального полнотекстового поиска на собственном динамическом сайте.

Я пока вижу такие варианты: mnogoSearch, yandex.site, встроенный полнотекстовый поиск СУБД (например, MySQL 3.23 и выше).

Пообщавшись со всеми тремя, остановился пока на последнем варианте из соображений производительности (у меня в БД 30Mb текстов) и еще кое-каких.

mnogoSearch не ищет по фразам и не понимает словоформ и усечения окончаний. Yandex.site ограничен 5Мб текстов.

Может быть, есть еще какие-то альтернативы?

D
На сайте с 16.11.2000
Offline
14
#1

htdig и aspseek

VT
На сайте с 27.01.2001
Offline
130
#2

Originally posted by E:
Предлагаю обсудить тему организации локального полнотекстового поиска на собственном динамическом сайте.

Я пока вижу такие варианты: mnogoSearch, yandex.site, встроенный полнотекстовый поиск СУБД (например, MySQL 3.23 и выше).

Пообщавшись со всеми тремя, остановился пока на последнем варианте из соображений производительности (у меня в БД 30Mb текстов) и еще кое-каких.

mnogoSearch не ищет по фразам и не понимает словоформ и усечения окончаний. Yandex.site ограничен 5Мб текстов.

Может быть, есть еще какие-то альтернативы?

mnogosearch, насколько я помню, берет начало от UDMsearch, который также распространяется под GNU-шной лицензией в образовательных целях, так что поиск по фразам можно добавить самому. Зато можно легко настроить приоритеты при определении весов слов. Окончания он понимает, если подключить русский ispell. Аналогично ispell можно подключить и для ASPSeek: http://aspseek.org/readmsg.html?id=581 . Основное его преимущество - возможность использования булевого поиска, а так это почти то же самое, что и mnogosearch.

Ну а htdig сейчас даже входит в стандартную поставку, например, linux, что, согласитесь, очень удобно.

С исходниками есть еще SWISH, Isearch, Ksearch и т.д., но русский в них нужно встраивать самому.

Вообще для 30-500 Мб найти в инете готовый поисковик не такая уж и сложная проблема, а вот для, скажем, нескольких Гб уже проблематично, так как нужны соответствующие структуры данных для хранения больших и сложных индексов.

ES
На сайте с 16.11.2001
Offline
1
EDS
#3

А может лучше сделать нормальный осмысленный поиск? Описание такого поиска у меня на сайте http://www.icreator.ru/isearch/

правда скорость обработки будет намного ниже. Но можно в него только краткую информацию запихивать.

Я планирую скоро сделать тестовую демо версию

------------------

Дмитрий Ермолаев

Дмитрий Ермолаев
VT
На сайте с 27.01.2001
Offline
130
#4

Originally posted by EDS:
А может лучше сделать нормальный осмысленный поиск? Описание такого поиска у меня на сайте http://www.icreator.ru/isearch/
правда скорость обработки будет намного ниже. Но можно в него только краткую информацию запихивать.
Я планирую скоро сделать тестовую демо версию

Осмысленный поиск, конечно, штука хорошая, но я не совсем понял - Вы что, хотите заменить традиционные алгоритмы хранения и обработки данных какими-то новыми и доселе неизвестными?

Да и что-то не было слышно о потрясающих успехах Data Mining в последнее время, так, отдельные, очень узкоспециализированные системы, к тому же, дорогие.

А как планируется создание баз знаний - пригласите кучу экспертов в КАЖДОЙ предметной области?

ES
На сайте с 16.11.2001
Offline
1
EDS
#5

Осмысленный поиск, конечно, штука хорошая, но я не совсем понял - Вы что, хотите заменить традиционные алгоритмы хранения и обработки данных какими-то новыми и доселе неизвестными?

Да и что-то не было слышно о потрясающих успехах Data Mining в последнее время, так, отдельные, очень узкоспециализированные системы, к тому же, дорогие.

А как планируется создание баз знаний - пригласите кучу экспертов в КАЖДОЙ предметной области?

1. алгоритмы хранния те же: 1байт=1байт

2. поиск такой же - по индексам

3. а вот обработка самой информации подобна работе человеческого ума.

4.Data Mining - то просто case-технология,но не для создания программ, а для создания запросов. Обработка и поиск в Data Mining стандартная и ни как не связана с "умными" дейсвиями.

5. база знаний создается самим пользователем - так же как вы индексируете свой сайт. Просто даете "почитать" Системе тексты с сайта. Потом можете искать с помощью "умного, осмысленного" поиска.

VT
На сайте с 27.01.2001
Offline
130
#6

Originally posted by EDS:
1. алгоритмы хранния те же: 1байт=1байт
2. поиск такой же - по индексам
3. а вот обработка самой информации подобна работе человеческого ума.
4.Data Mining - то просто case-технология,но не для создания программ, а для создания запросов. Обработка и поиск в Data Mining стандартная и ни как не связана с "умными" дейсвиями.
5. база знаний создается самим пользователем - так же как вы индексируете свой сайт. Просто даете "почитать" Системе тексты с сайта. Потом можете искать с помощью "умного, осмысленного" поиска.

Ну так я об этом и говорю. Ваш "осмысленный поиск" всего лишь надстройка к фунуционирующей традиционной поисковой системе. А так как полнофунциональной локальной поисковой машинки еще нет, то и прицепить его пока некуда. Ну а крупным системам типа Яндекса это вообще не нужно, так как у них сейчас основная цель - отрабатывание вложенных в них денег.

Тем не менее, Весьма любопытно посмотреть тестовую версию Вашего "умного поиска".

ES
На сайте с 16.11.2001
Offline
1
EDS
#7

Вы меня не поняли, хранение информации и ее поиск (1байт=1байт) - для любых программ одинаковое - это же не бумага с ручкой и не видеокассета. Хранение всегда на винчестере(+КЭШ), а поиск всегда по совпадению индекса.

Поэтому никакая это не надстройка, а самостоятельный продукт.

На этой неделе постараюсь сделать начальный вариант своей Системы. Тогда будет проще объяснять что к чему

DE
На сайте с 05.04.2002
Offline
5
#8

Да, еще для того чтобы моя Система "поняля" текст - нужно все слова в нее вбить с информацией морфологии. Может кто знает где взять подобную инфо в текстовом виде?

вид информации об одном слове желательно такой:

"слово": часть речи ЧР, род РОД,....

файл должен быть текстовый

[Удален]
#9

Originally posted by E:
Может быть, есть еще какие-то альтернативы?

Можно найти провайдера, у которого поиск по сайту включен в пакет услуг.

DE
На сайте с 05.04.2002
Offline
5
#10

кстати я уже выложил демку по своей Системе осмысленного поискка на

http://www.icreator.ru/isearch/tparsing.htm

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий