Zute

Рейтинг
32
Регистрация
03.01.2004

Можно ещё посмотреть DataparkSearch, http://www.dataparksearch.org/

Правда со стабильностью у него: кто жалуется, а у кого и нормально работает, как повезёт :)

Leom:
Ну и что там про качество? А какое качество у
- dtsearch
- google
- isys
- verity
и т.д.

Если знаете гле почитать скажите.

Google и Verity участвоали в TREC-5 и TREC-6 соответвенно. См. http://trec.nist.gov

Исследовательские проекты на базе dtsearch - в TREC-12, может еще когда. Смотрите подробне на выше указаном сайте.

Leom:

А если под качеством поиска в корпоративной сети понимать релевантность то с ней у нас все с порядке

Да я не против, только как докажите ? :)

Leom:

И будут в том числе и графики падения скорости поиска и расчет до чего упадет на террабайте. Кому будет интересно -- милости просим если чего то наш саппорт поможет разобраться с утилитами для генгерации тестов.

так тесты нужны в сравнении с другими системами, а не сами по себе ☝

itman:
Так, например, датапарк не работает с mysql v 4. А потому што в mysql 4 нет еще пока ключевого слова OFFSET. Фигня, конечно, компйлер и исходник всегда под рукой :-)

OFFSET есть начиная с версии 4.0.6

http://dev.mysql.com/doc/refman/4.1/en/news-4-0-6.html

itman:
Кстати, по поводу dataparksearch. Сейчас его юзаю. В мягких выражениях: вещь довольно глючная (по мелочи, к счастью). Потом как-нибудь список глюков создателю отправлю, но если Вы не умеете держать в руках дебагер с компилятором и сорснавигатором, то можно и не справиться с установкой :-) Возможно, что максимум глюков приходится как раз на кешемоду и группировкой по сайтам.

Хм, а вы его на какой операционке юзаете ? У меня на FreeBSD, работает стабильно. Хотя может к чему уже и привык, как к тому же слэшу в конце урла :) Ну а список глюков отправить разработчику - чуть ли не единственный способ от них избавиться в следующих версиях :d

Leom:
А что есть качество -- имеется ввиду релевантность или что? Ну в релевантности то у всех практически одинаковые алгоритмы тут как раз ничего революционного нет

Если скорость то я выше описывал как

Странный вопрос, это вы писали о качественном поиске, вам и расшифровывать, что вы в это понятие вкладываете, именно об этом я вас и спросил, заодно в сравнение с такими же метриками для других поисковиков.

Стандартные метрики:

http://en.wikipedia.org/wiki/Information_retrieval#Performance_measures

Одной скорости тут мало :)

Leom:

Если кто то заинтересован во встраивании качественно поиска в прикладные системы велкам на www.searchinform.com :)

А качество поиска как мерили ? :d

http://www.mnogosearch.org/

http://www.dataparksearch.org/

Оба умею индексировать прямо из БД, оба GPL. dataparksearch есть в портах FreeBSD www/dpsearch

Если действительно хотите впоследствии юзать Оракл, то тогда пробуйте mnogosearch.

Боюсь, что этот поисковик работает далеко не на всех броузерах, в том числе и от MS. С релевантностью у него не очень, во всяком случае, хоть и видно отличие от гугла (просто оличие, во всяком случае не скажу, что в лучшую сторону), - не впечатляет...

Leom:
В виде название документа, размер, число наденный нужных вхождений.
Цитаты в принципе можно выводить и из рез-тов поиска известны их позиции но для этого естественно надо грузить документ, а это уже не задача поискаю

Понятно, спасибо.

А "Phrase search" и "All words must present in result" в резульатах тестирования что означают ? Если поиск ведётся как точное вхождение фраз из запроса, то второе как бы само собой подразумевается.

И ещё один момент: при поиске английская морфология учитывалась ?

Всего: 218