Если у вас проскочило из 1000 запросов, то нужно всего 5 компов - Поисковые технологии

32

Zute

11 марта 2006, 11:52

#51

Leom:
А что есть качество -- имеется ввиду релевантность или что? Ну в релевантности то у всех практически одинаковые алгоритмы тут как раз ничего революционного нет

Если скорость то я выше описывал как

Странный вопрос, это вы писали о качественном поиске, вам и расшифровывать, что вы в это понятие вкладываете, именно об этом я вас и спросил, заодно в сравнение с такими же метриками для других поисковиков.

Стандартные метрики:

http://en.wikipedia.org/wiki/Information_retrieval#Performance_measures

Одной скорости тут мало :)

Яндекс кобласит Откуда берутся всякие SEO-байки? Резкий всплеск прямых заходов.

L

35

Leom

12 марта 2006, 09:26

#52

Zute:
Странный вопрос, это вы писали о качественном поиске, вам и расшифровывать, что вы в это понятие вкладываете, именно об этом я вас и спросил, заодно в сравнение с такими же метриками для других поисковиков.
Стандартные метрики:
http://en.wikipedia.org/wiki/Information_retrieval#Performance_measures

Ну и что там про качество? А какое качество у

- dtsearch

- google

- isys

- verity

и т.д.

Если знаете гле почитать скажите.

Качество вообще говоря для конкретного прикладного применеия зависит от многих факторов и больщей частью прикладных а не системных, как например тот же pagerank гугля это уже фактор прикладной.

А если под качеством поиска в корпоративной сети понимать релевантность то с ней у нас все с порядке

Zute:

Одной скорости тут мало :)

Оно то конечно мало но скорость далеко не последняя характеристика. Если я могу на одном компе индексить и искать по терабайту инфы а тот же dtsearch умирает после 2 млн файлов и 100 гиг инфы, то говорит это о чем?

Да о том что в одном случае если надо индексить 5 тер то надо 50 компов, а во втором ( в нашем случае) нужно всего 5 компов. А если учесть что это компы стоящие в инет и даже с учетом опта вместе с трафиком один комп всеже в $100 в месяц будет обходиться, то вопрос сколько платить за оборудование

100 *50 = $5000 в месяц

Или $100*5 = $500

Играет ну очент существенную роль. Особенно в сервисах ориентированных на интернет -- у нас к концу апреля запустится ряд инет сервисов по поиску и мы сможем предложить очень дешеевые цены именно из за наши скоростей и минимизации затрат на железо.

Еще пример -- к словам что скорости мало. У одного из наших клиентов стояла задача индексации 10 тер инфы причем раз в месяц -- по лпкальной сети и индексации с нуля ( в разных офисах). Так вот хотя они купили всего 3 месяца назад конкурентов и нормально заплатили в итоге перешли на нас, так как с учетом масштабирования всего 5 компов потянули эту задачу -- по 2 терра на комп было.

Так что в том что скорость не критична я позволю себе не согласиться

http://www.searchinform.com/site/ru/index.htm

P.S Сейчас наша тестовая лаборатория завершиоа уже комплексные тесты и на следующей неделе на сайт будут выложены не только тесты но и инструменты с помощью которых любой жедлающий сам сможет протестить скорость и не только инлдексирования но и

-- поиска по словам

-- фразового поиска с расстоянием

Поиск идет пакетно -- мы тестили на 1000 запросах на базах

10 гиг

20 гиг

40 гиг

80 гиг

132 гига

И будут в том числе и графики падения скорости поиска и расчет до чего упадет на террабайте. Кому будет интересно -- милости просим если чего то наш саппорт поможет разобраться с утилитами для генгерации тестов.

Leo www.searchinform.ru (www.searchinform.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

12 марта 2006, 10:58

#53

да уж вы очень сильно под гугл аппалайенс копаете :-) они вон ведь какие деньги берут за решение на 100 тысяч документов :-)

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

L

35

Leom

12 марта 2006, 11:15

#54

itman:
да уж вы очень сильно под гугл аппалайенс копаете :-) они вон ведь какие деньги берут за решение на 100 тысяч документов :-)

Это в смысле то что google mini или что? Ну так там вообще ну очень дорого. У нас же нет никаких лограничений

Z

32

Zute

12 марта 2006, 14:56

#55

Leom:
Ну и что там про качество? А какое качество у
- dtsearch
- google
- isys
- verity
и т.д.

Если знаете гле почитать скажите.

Google и Verity участвоали в TREC-5 и TREC-6 соответвенно. См. http://trec.nist.gov

Исследовательские проекты на базе dtsearch - в TREC-12, может еще когда. Смотрите подробне на выше указаном сайте.

Leom:

А если под качеством поиска в корпоративной сети понимать релевантность то с ней у нас все с порядке

Да я не против, только как докажите ? :)

Leom:

И будут в том числе и графики падения скорости поиска и расчет до чего упадет на террабайте. Кому будет интересно -- милости просим если чего то наш саппорт поможет разобраться с утилитами для генгерации тестов.

так тесты нужны в сравнении с другими системами, а не сами по себе ☝

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

W

40

walker

12 марта 2006, 15:32

#56

Leom:
... Поиск идет пакетно -- мы тестили на 1000 запросах на базах ...

Вот, кстати, по всей этой впечатляющей скорости вопросы:

1. обработка "миллионов" файлов идет по одному или все ставится в один поток/пакет?

такие штучки вполне могут все ускорять и при стандартных алгоритмах - тут дело в конфигурации решения, кто сам написал, тот и имеет преимущества перед пользователями стандартных библиотек

2. морфология "локальна" - для каждого вхождения, где можно пытаться снимать неоднозначность - либо "глобальна" (можно вообще без морфологии - хранить только словоформы исходных текстов - и разбирать только запрос)

тоже сильно ускоряет, и, внешне, работает, однако будет несколько проигрывать тем системам, где будет более полный разбор - но если на это забить...

Тексты для сайта, которые Количество внешних ссылок Вышла новая версия Яндекс.Браузера

L

35

Leom

13 марта 2006, 07:29

#57

Zute:

так тесты нужны в сравнении с другими системами, а не сами по себе ☝

Следующие системы тестировались и у них скорость в 4-10 раз хуже

- Dtsearch (самая быстрая всего в 4 -- 4,5 раза медленней нас :)

- Isys

- Yandex desktop

- Google desktop 3

- Ищейка

- Архивариус

Эти системы имеют триальную или фре версию поэтому без проблем их протестить. А вот Verity например триалки не имеет и хоть мы тестили эту систему, но так как не являемся клиентами verity то публиковать не имеем права.

http://www.searchinform.com/site/ru/index.htm

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

35

Leom

13 марта 2006, 07:33

#58

walker:
Вот, кстати, по всей этой впечатляющей скорости вопросы:

1. обработка "миллионов" файлов идет по одному или все ставится в один поток/пакет?

Про что вопрос? И причем в скорости поиска обработка файлов?

walker:

2. морфология "локальна" - для каждого вхождения, где можно пытаться снимать неоднозначность - либо "глобальна" (можно вообще без морфологии - хранить только словоформы исходных текстов - и разбирать только запрос)

У нас можно искать и с морфодлогие и без -- еслти загрузить прогу то это становится сразу видно

Leo

--------

http://www.searchinform.com/site/ru/index.htm

W

40

walker

13 марта 2006, 09:03

#59

Leom:
Про что вопрос? И причем в скорости поиска обработка файлов?

вопрос был о скорости индексирования,

хотя и про поиск у Вас проскочило "пакет" из 1000 запросов - это можно воспринять, что Вы запускаете один запрос на 2000-3000 слов

Leom:
У нас можно искать и с морфодлогие и без -- еслти загрузить прогу то это становится сразу видно

вопрос был о том - производится ли индексирование с морфологией с учетом локального контекста либо морфологически разбирается только запрос

Google ответил на вопрос Вопросы представителю Яндекса Какой PHP-фреймворк самый быстрый?

119

!Иван FXS

13 марта 2006, 09:20

#60

walker:
... "пакет" из 1000 запросов - это можно воспринять, что Вы запускаете один запрос на 2000-3000 слов ...

- а что, запускать "один запрос на 2000-3000 слов" и потом разбивать его результаты на 1000 частей - это с какой-то точки зрения более удобно (быстро, эффективно), чем производить 1000 "независимых" поисков (по 2-3 лова)?

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Вышел SearchInform 2.0.