Следующие системы тестировались и у них скорость в 4-10 раз хуже
- Dtsearch (самая быстрая всего в 4 -- 4,5 раза медленней нас :)
- Isys
- Yandex desktop
- Google desktop 3
- Ищейка
- Архивариус
Эти системы имеют триальную или фре версию поэтому без проблем их протестить. А вот Verity например триалки не имеет и хоть мы тестили эту систему, но так как не являемся клиентами verity то публиковать не имеем права.
http://www.searchinform.com/site/ru/index.htm
Это в смысле то что google mini или что? Ну так там вообще ну очень дорого. У нас же нет никаких лограничений
Ну и что там про качество? А какое качество у
- dtsearch
- google
- isys
- verity
и т.д.
Если знаете гле почитать скажите.
Качество вообще говоря для конкретного прикладного применеия зависит от многих факторов и больщей частью прикладных а не системных, как например тот же pagerank гугля это уже фактор прикладной.
А если под качеством поиска в корпоративной сети понимать релевантность то с ней у нас все с порядке
Оно то конечно мало но скорость далеко не последняя характеристика. Если я могу на одном компе индексить и искать по терабайту инфы а тот же dtsearch умирает после 2 млн файлов и 100 гиг инфы, то говорит это о чем?
Да о том что в одном случае если надо индексить 5 тер то надо 50 компов, а во втором ( в нашем случае) нужно всего 5 компов. А если учесть что это компы стоящие в инет и даже с учетом опта вместе с трафиком один комп всеже в $100 в месяц будет обходиться, то вопрос сколько платить за оборудование
100 *50 = $5000 в месяц
Или $100*5 = $500
Играет ну очент существенную роль. Особенно в сервисах ориентированных на интернет -- у нас к концу апреля запустится ряд инет сервисов по поиску и мы сможем предложить очень дешеевые цены именно из за наши скоростей и минимизации затрат на железо.
Еще пример -- к словам что скорости мало. У одного из наших клиентов стояла задача индексации 10 тер инфы причем раз в месяц -- по лпкальной сети и индексации с нуля ( в разных офисах). Так вот хотя они купили всего 3 месяца назад конкурентов и нормально заплатили в итоге перешли на нас, так как с учетом масштабирования всего 5 компов потянули эту задачу -- по 2 терра на комп было.
Так что в том что скорость не критична я позволю себе не согласиться
P.S Сейчас наша тестовая лаборатория завершиоа уже комплексные тесты и на следующей неделе на сайт будут выложены не только тесты но и инструменты с помощью которых любой жедлающий сам сможет протестить скорость и не только инлдексирования но и
-- поиска по словам
-- фразового поиска с расстоянием
Поиск идет пакетно -- мы тестили на 1000 запросах на базах
10 гиг
20 гиг
40 гиг
80 гиг
132 гига
И будут в том числе и графики падения скорости поиска и расчет до чего упадет на террабайте. Кому будет интересно -- милости просим если чего то наш саппорт поможет разобраться с утилитами для генгерации тестов.
А что есть качество -- имеется ввиду релевантность или что? Ну в релевантности то у всех практически одинаковые алгоритмы тут как раз ничего революционного нет
Если скорость то я выше описывал как
Leo
www.searchinform.com
Полным ходом идет встраивание и лицензирование наших посковых технологий в различные продукты.
Пока вторая ласточка (первая hummingbird) --
http://www.searchinform.com/site/ru/main/search-inform-projects-lotsia.htm
А в течении следующих 2 месяцев будет порядка 5 таких вот новостей.
Если кто то заинтересован во встраивании качественно поиска в прикладные системы велкам на www.searchinform.com :)
Engine на 1 сервер вписывается в допустимые пределы. Единственно нужна винда. А по кол-ву документов без проблем держит и 100 млн
Yandex desktop и google desktop 3
Результаты ну намного хуже чем даже у dtsearch
yandex desktop не смог проиндексить даже 80 гиг которые смог dtsearch
Правда на 132 гигах dtsearch тоже завис...
А системная часть если не брать ранжирование то по идее должна быть одинаковой и у desktop версии и у корпоративной. Единственное отличии desktop версии (у нас по крайней мере) что на Desktop боиндексировать лее террабайта нежедательно а в корпоративной версии с применением масштабирования без проблем столько сколько надо
Можете сами зайти на www.searchinform.com и скачать триалку
До 300 гиг чистого текста наша система на одном компе скоростей сбавлять не будет. А в реалиях к примеру Инета это около 2 гиг инфы (так как в обычных htm текста не более 15-20%)
А далее есть масштабирование и рсапределение работы по многим компам.
А насчет пары сотен баз -- так вопрос что сравнивать скорость индексации или скорость получения данных с базы?
При больших объемах поисковый сервер ставится естественно не на одном компе с ms sql
И вопрос то не в том после какого объема надо применять масштабирование а в том насколько наше решение лучше по сравнению с существующими -- а наш отдел тестировки провел комплексные тесты многих систем.
Если вы укаажете систему которая будет работать быстрей нас и готовы провести тесты -- мы всегда готовы.
Пока же реалии что и пор времени индексирования и по скорости фразового поиска мы в 3-4 раза обгоняем существующие системы!
Причем хочу заметить что система уже работает в ряде крупных компаниях а не только стартовала :)
В первых коммерческим покпателям тестить нет интереса.
ВО вторых вы так и не ответили ни на 1 из вопросов
1) Тестили ли Вы SearchInform
2) Какая скорость записи за 6 часов невохможна -- 16 гиг что ли?
Я вижу что вы просто демагог и линия поведения пропускать неудобные вопросы а писать что то совсем другое.
Так что Pelvis -- я еще раз повторю свое личное мнение
ВЫ БОЛТУН И ДЕМАГОГ игнорирующий конкретные вопросы
И далее на Ваши посты отвечать не планирую -- нет позитива в споре с Вами.
Например с Itman я спорю но спор вополен позитивный и нормальный который чего то дает обоим сторонам.
То есть слово которое встречается практически в каждом втором документе не частотное? Чего то я тогда не понимаю -- проясните пожалуйста.
Мы вообще то ищем в том числе и с морфологие. И все тесты я приводил когда морфология включена. А без морфологии будет намного быстрей.
Тайтлы в памяти не лежат -- но винда же кэширует файлы.
Инвертированный список в чистом виже уж поверьте по фразовому поиску ищет намного медленней. Мы же месли можно так сказать используем сильно модифицированный инвертированный список ив этом вся изюминка.
То есть строго формально если говорить то путь для фразового поиска только один хранить инфу
слово-документ-позиция
Но важно же сие грамотно хранить -- и на этом в том числе строится быстродействие.
И есть еще ряд вещей которые позволяют просто не делать лишней работы основываясб на имеющейся в индексе инфе.