На этой неделе я выложу комплексный тест на скорость поиска - Поисковые технологии

35

Leom

6 марта 2006, 14:04

#21

Кстати еще для интересующихся скоростью работы поиска.

На этой неделе мои ребята должны выложить тулзу для тестировки.

Этой тулзе дается каталог из файлов типа html или txt и задаются параметры для генерации файла с фразоавыми запросами (число слов от и до, число мусорных сдов между ними и т.д.)

В итоге получается текстовый файл

Далее запускается SearchInform с ключем /debug и в меню debug грузится это файл и он по выделенному индексу начинает гнать в batch mode и потом отчет типа того что я приводил

Так что любой жедающий может сделать свою базу например на 50 гиг проиндексить нашей триалкой и запустить тест на скорость поиска.

Если надо могу дать и ключик чтобы можно быдло дольше месяца играться. Единственно условия -- сообщить мне о результатах теста.

Leo www.searchinform.ru (www.searchinform.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

345

pelvis

6 марта 2006, 14:18

#22

Не надо людям лапшу вешать - некрасиво.

Для начала предоставьте реальные характеристики сервака, способного записать с такой скоростью.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)

L

35

Leom

6 марта 2006, 14:25

#23

pelvis:
Не надо людям лапшу вешать - некрасиво.
Для начала предоставьте реальные характеристики сервака, способного записать с такой скоростью.

Кто лапшу вешает? Вы сами проверяли? Если нет то жду официальных извинений -- иначе считаю вас просто болтуном.

Какие харкактеристики -- чего? Читать умеете (появились у меня сомнения в этом) -- в постах выше были описаны характеристики компа на котором тестилось.

Пол какую скорость запись то речь?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

6 марта 2006, 14:31

#24

itman:
20% это минимальный из всех возможных результатов, наблюденных в природе.

Да, это очень хороший результат, если он полностью обеспечивает фразовый поиск. У нас где-то 35-40% такой полный индекс.

Вопрос к Leom: какая была методика проверки результата запросов, если сниппеты даже не выводились, как я понял? (поправьте, пожалуйста, если напутал)

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

32

Zute

6 марта 2006, 14:35

#25

Leom:
В виде название документа, размер, число наденный нужных вхождений.
Цитаты в принципе можно выводить и из рез-тов поиска известны их позиции но для этого естественно надо грузить документ, а это уже не задача поискаю

Понятно, спасибо.

А "Phrase search" и "All words must present in result" в резульатах тестирования что означают ? Если поиск ведётся как точное вхождение фраз из запроса, то второе как бы само собой подразумевается.

И ещё один момент: при поиске английская морфология учитывалась ?

I

64

itman

6 марта 2006, 14:36

#26

Так Вы все-таки ответьте если не сложно на мой вопрос про стоп-слова, а то Вы уклоняетесь от ответа: в вашем тестовом примере с 20% индекса Вы их включали в индекс или нет? В принципе, отстутствие стоп-слов в индексе запросу фразовому не мешает.

А скорость поиска можно продемонстрировать на низкочастотных словах и сказать, что частотные слова "редко спрашивают". А в реальности, и я это наблюдал вживую, частотные слова в запросах как раз очень даже часто бывают. То есть наблюдается некоторая корреляция между частотой появления слова в документах и запросах.

Leom:
Нет технология запатентованная и коммерческая.
А о размерах индекса и его проуентах от чистого теста можете судить сами по опубликованной выше инфе по индексированию 132 гиг где чистого текста около 80 гиг

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

L

35

Leom

6 марта 2006, 14:38

#27

AlexA:

Вопрос к Leom: какая была методика проверки результата запросов, если сниппеты даже не выводились, как я понял? (поправьте, пожалуйста, если напутал)

Методика такая -- в отчет -- типа вот этого www.searchinform.com/tmp/report100.txt или www.searchinform.com/tmp/report5000.txt

Пишется сам запрос и число документов. При желании сюда же можно писать первые (100 или 5000 то что в соответствующих файлах) названий документов -- они уже есть в результате поиска. Но это уже работа прикладной программы -- поэтому чтобы вчистую оценить время поиска в этом смысла не вижу. Ведь в сетевой версии это уже клиент будет выводить результаты. А нас же интересует скорость работы сервера -- верно?

Далее почему при выводе 5000 результатов время чуть хуже -- так как естественно тратится время на вытаскивание по ID названия документа и безусловно по 100 это быстрей чем по 5000.

Наверно сегодня к вечеру я выложу комплексный тест по базам в 10,7 гига в 83 гига и в 132 гига, чтобы можно было скоррелировать ухудшение времени в зависимости от объема базы и индекса. Хотя конечно это все условно -- запросы то к каждой базе генерятся случайно

I

64

itman

6 марта 2006, 14:43

#28

вот, кстати, вдогонку результатам поиска: из потенциальных стоп-слов только thereof, но он в действительности довольно редкое слово, никаких a, the, of, in, on.

L

35

Leom

6 марта 2006, 14:43

#29

Zute:
Понятно, спасибо.
А "Phrase search" и "All words must present in result" в резульатах тестирования что означают ? Если поиск ведётся как точное вхождение фраз из запроса, то второе как бы само собой подразумевается.
И ещё один момент: при поиске английская морфология учитывалась ?

Phrase search это знасит искать по фразе а не по словам

all words... -- значит требование чтобы се слова были представлены во фразе.

Да -- только для русского у нас морфология на базе Зализняка а для ангдлийского стемминг

www.searchinform.com/tmp/search.gif -- опции которые в тесте.

Используются все настройки кроме number of in between words

Этот параметр подставляется режимом debug и он потом фигурирует вот в этои отчете www.searcginform.com/tmp/report100.txt

То есть включена морфология, фразовый поиск где не важен порядок слов (это кстати медленней чем если важе порядок слов) и выбран нужный индекс

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

35

Leom

6 марта 2006, 14:49

#30

itman:
Так Вы все-таки ответьте если не сложно на мой вопрос про стоп-слова, а то Вы уклоняетесь от ответа: в вашем тестовом примере с 20% индекса Вы их включали в индекс или нет? В принципе, отстутствие стоп-слов в индексе запросу фразовому не мешает.
.

Так я же вроде уже отвечал. Что стоп-слрвами управляет сам пользователь Естественно стоп слова в индекс не включаются.

А список стандартных стоп-слов которые мы используем ( в том числе и в тесте) легко посмотреть установив SearchInform и зайдя в stop-words manager. И если хотите можете их вообще все удалить -- толь ко зачем?

СТоп слова все равно только мешают.

Я ответил на ваш вопрос?

itman:

А скорость поиска можно продемонстрировать на низкочастотных словах и сказать, что частотные слова "редко спрашивают".
.

Это было бы некорректно -- я поэтому и привел ссылки на отчет. Если вы посмотрите то там очень много результатов где более одного документа в результате запроса -- а это уже значит что слова не низкочастотные -- генернилось то автоматически.

Хотя наверно здравая мысль в ваших словах есть -- можно пытаться провести тест где в резудльтатах запроса не будет менее чем например 100 документов. Но результат не будет намного хуже могу точно сказать. Для этого просто надо еще одну утилиту писать, которая после генерации первой утилитой прогонит все через поиск и выкинет там где менее 100 рез-тов.

А в реальности, и я это наблюдал вживую, частотные слова в запросах как раз очень даже часто бывают. То есть наблюдается некоторая корреляция между частотой появления слова в документах и запросах.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Зачем быть уникальным в мире, где все можно скопировать

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Вышел SearchInform 2.0.