Leom

Рейтинг
35
Регистрация
02.05.2004
Zute:


так тесты нужны в сравнении с другими системами, а не сами по себе ☝

Следующие системы тестировались и у них скорость в 4-10 раз хуже

- Dtsearch (самая быстрая всего в 4 -- 4,5 раза медленней нас :)

- Isys

- Yandex desktop

- Google desktop 3

- Ищейка

- Архивариус

Эти системы имеют триальную или фре версию поэтому без проблем их протестить. А вот Verity например триалки не имеет и хоть мы тестили эту систему, но так как не являемся клиентами verity то публиковать не имеем права.

http://www.searchinform.com/site/ru/index.htm

itman:
да уж вы очень сильно под гугл аппалайенс копаете :-) они вон ведь какие деньги берут за решение на 100 тысяч документов :-)

Это в смысле то что google mini или что? Ну так там вообще ну очень дорого. У нас же нет никаких лограничений

Zute:
Странный вопрос, это вы писали о качественном поиске, вам и расшифровывать, что вы в это понятие вкладываете, именно об этом я вас и спросил, заодно в сравнение с такими же метриками для других поисковиков.
Стандартные метрики:
http://en.wikipedia.org/wiki/Information_retrieval#Performance_measures

Ну и что там про качество? А какое качество у

- dtsearch

- google

- isys

- verity

и т.д.

Если знаете гле почитать скажите.

Качество вообще говоря для конкретного прикладного применеия зависит от многих факторов и больщей частью прикладных а не системных, как например тот же pagerank гугля это уже фактор прикладной.

А если под качеством поиска в корпоративной сети понимать релевантность то с ней у нас все с порядке

Zute:

Одной скорости тут мало :)

Оно то конечно мало но скорость далеко не последняя характеристика. Если я могу на одном компе индексить и искать по терабайту инфы а тот же dtsearch умирает после 2 млн файлов и 100 гиг инфы, то говорит это о чем?

Да о том что в одном случае если надо индексить 5 тер то надо 50 компов, а во втором ( в нашем случае) нужно всего 5 компов. А если учесть что это компы стоящие в инет и даже с учетом опта вместе с трафиком один комп всеже в $100 в месяц будет обходиться, то вопрос сколько платить за оборудование

100 *50 = $5000 в месяц

Или $100*5 = $500

Играет ну очент существенную роль. Особенно в сервисах ориентированных на интернет -- у нас к концу апреля запустится ряд инет сервисов по поиску и мы сможем предложить очень дешеевые цены именно из за наши скоростей и минимизации затрат на железо.

Еще пример -- к словам что скорости мало. У одного из наших клиентов стояла задача индексации 10 тер инфы причем раз в месяц -- по лпкальной сети и индексации с нуля ( в разных офисах). Так вот хотя они купили всего 3 месяца назад конкурентов и нормально заплатили в итоге перешли на нас, так как с учетом масштабирования всего 5 компов потянули эту задачу -- по 2 терра на комп было.

Так что в том что скорость не критична я позволю себе не согласиться

http://www.searchinform.com/site/ru/index.htm

P.S Сейчас наша тестовая лаборатория завершиоа уже комплексные тесты и на следующей неделе на сайт будут выложены не только тесты но и инструменты с помощью которых любой жедлающий сам сможет протестить скорость и не только инлдексирования но и

-- поиска по словам

-- фразового поиска с расстоянием

Поиск идет пакетно -- мы тестили на 1000 запросах на базах

10 гиг

20 гиг

40 гиг

80 гиг

132 гига

И будут в том числе и графики падения скорости поиска и расчет до чего упадет на террабайте. Кому будет интересно -- милости просим если чего то наш саппорт поможет разобраться с утилитами для генгерации тестов.

Zute:
А качество поиска как мерили ? :d

А что есть качество -- имеется ввиду релевантность или что? Ну в релевантности то у всех практически одинаковые алгоритмы тут как раз ничего революционного нет

Если скорость то я выше описывал как

Leo

www.searchinform.com

Полным ходом идет встраивание и лицензирование наших посковых технологий в различные продукты.

Пока вторая ласточка (первая hummingbird) --

http://www.searchinform.com/site/ru/main/search-inform-projects-lotsia.htm

А в течении следующих 2 месяцев будет порядка 5 таких вот новостей.

Если кто то заинтересован во встраивании качественно поиска в прикладные системы велкам на www.searchinform.com :)

www.searchinform.com

Engine на 1 сервер вписывается в допустимые пределы. Единственно нужна винда. А по кол-ву документов без проблем держит и 100 млн

Noga:
Вы тестили паралельно с Яндексом? Где же Вы взяли их скрипты, чтобы сравнить? Я уж про Гугл молчу.......

Yandex desktop и google desktop 3

Результаты ну намного хуже чем даже у dtsearch

yandex desktop не смог проиндексить даже 80 гиг которые смог dtsearch

Правда на 132 гигах dtsearch тоже завис...

А системная часть если не брать ранжирование то по идее должна быть одинаковой и у desktop версии и у корпоративной. Единственное отличии desktop версии (у нас по крайней мере) что на Desktop боиндексировать лее террабайта нежедательно а в корпоративной версии с применением масштабирования без проблем столько сколько надо

Можете сами зайти на www.searchinform.com и скачать триалку

Noga:

Ничего, проиндексит пару сотен баз, дойдет до больших объемов и сменит немного "жар на пыл".

До 300 гиг чистого текста наша система на одном компе скоростей сбавлять не будет. А в реалиях к примеру Инета это около 2 гиг инфы (так как в обычных htm текста не более 15-20%)

А далее есть масштабирование и рсапределение работы по многим компам.

А насчет пары сотен баз -- так вопрос что сравнивать скорость индексации или скорость получения данных с базы?

При больших объемах поисковый сервер ставится естественно не на одном компе с ms sql

И вопрос то не в том после какого объема надо применять масштабирование а в том насколько наше решение лучше по сравнению с существующими -- а наш отдел тестировки провел комплексные тесты многих систем.

Если вы укаажете систему которая будет работать быстрей нас и готовы провести тесты -- мы всегда готовы.

Пока же реалии что и пор времени индексирования и по скорости фразового поиска мы в 3-4 раза обгоняем существующие системы!

Причем хочу заметить что система уже работает в ряде крупных компаниях а не только стартовала :)

pelvis:
Окей, тут вариант один.
Вы постите немного позже результаты тех, кто купил Вашу прогу и смог проиндексировать столько инфы.
И при этом превратить Ваши гигабайты в коммерческую информацию. ( а именно: покупатель - тестирование - результат - продукт, который имеет сколь нибудь успешное место на рынке)
А я тогда подумаю, стоит ли мне вообще оправдываться за мой скепсис.

В первых коммерческим покпателям тестить нет интереса.

ВО вторых вы так и не ответили ни на 1 из вопросов

1) Тестили ли Вы SearchInform

2) Какая скорость записи за 6 часов невохможна -- 16 гиг что ли?

Я вижу что вы просто демагог и линия поведения пропускать неудобные вопросы а писать что то совсем другое.

Так что Pelvis -- я еще раз повторю свое личное мнение

ВЫ БОЛТУН И ДЕМАГОГ игнорирующий конкретные вопросы

И далее на Ваши посты отвечать не планирую -- нет позитива в споре с Вами.

Например с Itman я спорю но спор вополен позитивный и нормальный который чего то дает обоим сторонам.

itman:

Leom Нет, такие слова нельзя считать очень частотными, хотя скорость поиска хорошая, не буду скрывать. Не знаю, как насчет качества поиска, а производительность ну очень замечательная.
.

То есть слово которое встречается практически в каждом втором документе не частотное? Чего то я тогда не понимаю -- проясните пожалуйста.

itman:

Теперь по поводу инвертированных индексов? Ну почему же нельзя добиться такого объема и скорости. Двадцать процентов для приведенного Вами списка слов и координатного индекса без морфологической информации

Мы вообще то ищем в том числе и с морфологие. И все тесты я приводил когда морфология включена. А без морфологии будет намного быстрей.

itman:

это абсолютно реальная цифра. И ищет инвертированный индекс очень быстро. Вот смотрите миллион документов по 2-3 вхождения слова в документ. В среднем по паре байт на кодирование одного вхождения в сжатом ИФ. Получаем 6 мегабайтный инв. список. Считывается и распаковывается на Вашей железке < 1 sec. Тайтлы у Вас, очевидно, лежат в памяти, иначе б все тормозило дико. Время поиска даже меньше Вашего :-) или примерно такое же. А Вы вот сразу кидаетесь фразами про "тормознутость" ИФ.

Тайтлы в памяти не лежат -- но винда же кэширует файлы.

Инвертированный список в чистом виже уж поверьте по фразовому поиску ищет намного медленней. Мы же месли можно так сказать используем сильно модифицированный инвертированный список ив этом вся изюминка.

То есть строго формально если говорить то путь для фразового поиска только один хранить инфу

слово-документ-позиция

Но важно же сие грамотно хранить -- и на этом в том числе строится быстродействие.

И есть еще ряд вещей которые позволяют просто не делать лишней работы основываясб на имеющейся в индексе инфе.

Всего: 125