Search engines with key/value db

xlex · 2026-07-01T11:07:42.0000000Z

Добрый день. Скажите, пожалуйста, кто-нибудь пользовался посковой системой Estraier ( http://estraier.sourceforge.net/ )? Какое впечатление от системы? Второй вопрос: какие существуют (какие Вы знаете) хорошие поисковые системы с открытыми исходными кодами использующими базу данных key/value (почитав эту ветку форума соглашусь с людьми, которые утверждают что SQL база данных для хранения индекса вообще и большого индекса в частности не должна использоваться)? В частности Estraier нравится тем, что использует свою, и вроде как достаточно быструю базу данных и вроде (по быстрому просмотру) не самый плохой исходный код.

VT

130

Vyacheslav Tikhonov

3 марта 2005, 19:51

#21

Судя по вашим заявлениям об этих системах (ASPSeek, mnogosearch, dataparksearch), несколько далёких от действительности (ну или от того, что я видел и тестил лично)...

Либо предоставьте ссылки, где мои "заявления" не соответствуют действительности, либо извинитесь. То, что я не люблю поисковиков на СУБД - это факт, однако чтобы говорить об этом подобным образом, нужны убедительные аргументы, которые меня опровергают.

Итак?

X

16

xlex

3 марта 2005, 20:05

#22

Вячеслав, Вы, наверное, хотели сказать "поисковиков на СУБД общего назначения, в частности SQL БД"? Или имелся ввиду поисковик на любой базе данных??

VT

130

Vyacheslav Tikhonov

3 марта 2005, 20:07

#23

Вячеслав, Вы, наверное, хотели сказать "поисковиков на СУБД общего назначения, в частности SQL БД"?

Я имел в виду поисковик на SQL базе, конечно.

Z

32

Zute

3 марта 2005, 20:19

#24

Как писал Evg

Если брать 300 т. документов, то по скорости индексации DataparkSearch и ASPseek приблизительно одинаковы с незначительным опережением ASPseek.
При больших объемах разница достаточно заметна даже на глаз, тут я говорю не о секундах (еще раз повторяюсь, к сожалению, под рукой нет точных данных).
Что же касается времени поиска, то чем больше объем «индекса» тем вперед быстрее вырывается ASPseek далее идет DataparkSearch…
Время расчёта релеватности документов входило в сравнение.
У DataparkSearch были убраны те секции, которых нет у ASPseek (кстати, это на мой взгляд один из недостатков данной системы)

Я тестировал DataparkSearch и ASPSeek примерно на одинаковых базах в 300-350 тыс. документов. Скорость индексации действительно была примерно одинаковой с незначительным преимуществом ASPSeek. Но DataparkSearch при это ещё строит матрицу ссылок между документами, чего не делает ASPSeek. Похоже именно из-за это матрицы и начинаются тормоза при большом количестве документов.

По скорости поиска: а как вы её измеряли ? Дело в том, что эти поисковики по-разному считают цифру, которую выводят в качестве времени поиска. ASPSeek выводит время нахождения собственно документов, DataparkSearch плюс к этому еще учитывает время построения цитат по словам из запроса.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

128

Evg

3 марта 2005, 20:26

#25

Дело не только в цифре, которая показывается в результатах поиска. Но и во времени обычного отображения страницы.

Если бы при 5 миллионах документов разница была бы 1-2 секунды, то возможно об этом я и не заговорил.

Однако разница была в разы.

libarea.ru ( https://libarea.ru/ )

Z

32

Zute

3 марта 2005, 20:33

#26

Как писал Vyacheslav Tikhonov

Либо предоставьте ссылки, где мои "заявления" не соответствуют действительности, либо извинитесь. То, что я не люблю поисковиков на СУБД - это факт, однако чтобы говорить об этом подобным образом, нужны убедительные аргументы, которые меня опровергают.
Итак?

Я не хочу вступать с вами в никакие разборки, если вас действительно интересует именно этот вопрос - воспользуйтесь поиском по форуму, - в тех местах, где я счёл нужным сделать, а вас поправил. Могу вам напомнить, что в одном из топиков, вы сами признались, что последний раз смотрели на mnogosearch пару-тройку лет назад, - это уже значительно устаревшая информация, именно не соответсвующая действительности...

PBN ссылки Google Forum https://support.google.com/webmasters Упрощение навигации для сайта

Z

32

Zute

3 марта 2005, 20:41

#27

Как писал Evg
Дело не только в цифре, которая показывается в результатах поиска. Но и во времени обычного отображения страницы.
Если бы при 5 миллионах документов разница была бы 1-2 секунды, то возможно об этом я и не заговорил.
Однако разница была в разы.

На моей базе время, затрачиваемое на построение цитат, обычно больше времени, затрачиваеемого на собственно поиск документов.

А эффект получается таким: dataparksearch сначала строит цитаты для всех выводимых документов, а потом собвенно начинает выводить результаты, aspseek же строит цитату для первого документа, потом выводит кусок страницы с эти результатом, потом начинает строить цитату для второго и т.д. В результате веб-сервер у aspseek начинает раньше отдавать страницу клиенту...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

3 марта 2005, 20:46

#28

Я не хочу вступать с вами в никакие разборки, если вас действительно интересует именно этот вопрос - воспользуйтесь поиском по форуму, - в тех местах, где я счёл нужным сделать, а вас поправил.

Я прекрасно помню (и без моего поиска, который установлен на этом сайте) все, о чем я здесь говорил, и что-то не припомню, чтобы кто-то аргументированно доказал обратное.

вы сами признались, что последний раз смотрели на mnogosearch пару-тройку лет назад, - это уже значительно устаревшая информация, именно не соответсвующая действительности...

В исходный код - да, однако неоднократно имел возможность оценивать результаты и качество их работы.

И если вы полагаете, что СУБД в этих поисковиках за это время стали работать быстрее, или же разработчики изобрели какие-то невероятные алгоритмы, то вы глубоко заблуждаетесь.

Или же докажите обратное.

Прямые заходы ботов на Упал доход Упал сайт на 90%

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что такое Power BI и зачем это нужно бизнесу