Вам не нужно иметь базу данных сравнимую по возможностям с тем, над чем народ отдельно трудится достаточно долго - Поисковые технологии

Search engines with key/value db

xlex · 2005-03-02T08:00:51.0000000Z

Добрый день. Скажите, пожалуйста, кто-нибудь пользовался посковой системой Estraier ( http://estraier.sourceforge.net/ )? Какое впечатление от системы? Второй вопрос: какие существуют (какие Вы знаете) хорошие поисковые системы с открытыми исходными кодами использующими базу данных key/value (почитав эту ветку форума соглашусь с людьми, которые утверждают что SQL база данных для хранения индекса вообще и большого индекса в частности не должна использоваться)? В частности Estraier нравится тем, что использует свою, и вроде как достаточно быструю базу данных и вроде (по быстрому просмотру) не самый плохой исходный код.

VT

130

Vyacheslav Tikhonov

3 марта 2005, 14:10

#11

Значительно - это сколько ? И как проводилась проверка, входило ли в сравниваемое время время расчёта релеватности для проиндексированых документов ?

Прошу прощения за оффтопик. Zute, судя по всем вашим постам с обязательным упоминанием DataparkSearch, вы его разработчик?

A

196

absolut

3 марта 2005, 15:49

#12

Как писал xlex
Evg, да и ещё, чем не очень нравится подход ASPSeek - для её использования нужно две базы данных (SQL и их иплементация, в которой они хранят индекс) - что, с моей точки зрения, не правильно (в том числе с точки зрения использования ресурсов)...

Очень даже правильно в рамках open-source поисковика.

Что Вам мешает вынести индексные файлы на RAID-10 массив? Да и mysql базу можно вынести тоже. Замечательная получится производительность.

андроид ТВ (http://qway.com.ua/android_tv) и экшн камеры (qway.com.ua/action-cameras) в Украине.

X

16

xlex

3 марта 2005, 16:12

#13

absolut, аргументы принимаю.

Но вот мои:

- если делать поисковый сервер (отдельно), то я не хочу иметь на нём лишнюю базу данных, обращение к которой, кстати, достаточно "дорого" (время, загрузка);

- получается, что создатели поисковой системы "походя" (слишком сильное слово, но всё же) написали базу сравнимую по возможностям с тем, над чем народ отдельно трудится достаточно долго?

Hetzner начал выгонять хостеров Джон Мюллер рассказал о SEO: почему мы делаем

128

Evg

3 марта 2005, 17:02

#14

Как писал Zute
Значительно - это сколько ? И как проводилась проверка, входило ли в сравниваемое время время расчёта релеватности для проиндексированых документов ?

У меня нет под рукой цифровых данных сравнения этих 3 систем.

Скажу лишь следующее..

В 1 случае использовалось 5 т. сайтов. Во втором случае порядка 50 т. сайтов.

Тот и другой индекс останавливался по постижение приблизительно 300 т. документов и 5 миллионов документов.

Если брать 300 т. документов, то по скорости индексации DataparkSearch и ASPseek приблизительно одинаковы с незначительным опережением ASPseek.

При больших объемах разница достаточно заметна даже на глаз, тут я говорю не о секундах (еще раз повторяюсь, к сожалению, под рукой нет точных данных).

Что же касается времени поиска, то чем больше объем «индекса» тем вперед быстрее вырывается ASPseek далее идет DataparkSearch…

Время расчёта релеватности документов входило в сравнение.

У DataparkSearch были убраны те секции, которых нет у ASPseek (кстати, это на мой взгляд один из недостатков данной системы)

>да и ещё, чем не очень нравится подход ASPSeek

Для личного использования вряд ли можно найти идеальный вариант. Если только писать самому или дорабатывать готовые исходники.

libarea.ru ( https://libarea.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

X

16

xlex

3 марта 2005, 17:18

#15

Получается, что кроме большой четвёрки (ht:/Dig, mnogosearch, APSSeek, Datapark) ничего стоящего нет?

128

Evg

3 марта 2005, 17:20

#16

Есть, посмотрите

h**p://wiki.nebel.de/snipsnap/space/Nutch

X

16

xlex

3 марта 2005, 17:55

#17

Nutch на джаве же написан... Ничего не имею против этого языка, но, по-моему, в данной "отрасли" (поиск), это не лучший выбор (из-за значительного числа вычислений)...

128

Evg

3 марта 2005, 18:38

#18

Говорят тестировался до 1000 запросов в секунду. Не ставил не пробовал :(

Z

32

Zute

3 марта 2005, 19:02

#19

Как писал Vyacheslav Tikhonov

Прошу прощения за оффтопик. Zute, судя по всем вашим постам с обязательным упоминанием DataparkSearch, вы его разработчик?

Судя по вашим заявлениям об этих системах (ASPSeek, mnogosearch, dataparksearch), несколько далёких от действительности (ну или от того, что я видел и тестил лично)... :)

Может не будем гадать ? :)

X

16

xlex

3 марта 2005, 19:39

#20

Как писал Evg
Говорят тестировался до 1000 запросов в секунду. Не ставил не пробовал :(

А про железо ничего при этом не говорят? =)

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Search engines with key/value db