Вышел SearchInform 2.0.

L
На сайте с 02.05.2004
Offline
35
#11
Zute:
Например, утянуть по инету...

Да я то могу скачать и заархивирвоать на своем выджеленном серваке -- только он в Чикаго.

А вот потом по инет стянуть например 300 гиг тяжко в нащих условиях когда оплата идет по $23 за гиг..........

Если кто в Москве ( я часто очень в Москве бываю) готов скачать по данным мной ссылкам архивы и потом переписать мне на винт -- то с радостью опубликую на форуме рез-ты тестов например терабайта на не 132 гиг.......

Пишите если кто готов помочь

Leo www.searchinform.ru (www.searchinform.ru)
I
На сайте с 26.05.2001
Offline
64
#12

Ок, интересные Вы вещи говорите, надо будет как-нибудь глянуть.

Leom:
Да именно dtsearch быстрей всех после него идет isys
А yandex у нас свалился даже на индексации 11 гиг - куда ему 100 гиг

С google тоже -- 11 гиг более 5 часов в то время как dtsearch 3 с половиной часа.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
L
На сайте с 02.05.2004
Offline
35
#13

Вот для интересующихся информация о тестах по скорости поиска.

Характеристики индексируемлой инфлормации

Размер документов 132,26 gb

Всего документов 2,888,202

Уникальных слов 18,912,257

Размер чистого текста 77,57 gb

Размер индекса 16,29 gb

Время индексации 6:28

В среднем гб в час 20,45

Характеристики поиска:

1000 запросов на фразовый поиск с максимальным число промежуточных слов (yt входящих в запрос). Все в пакетном режиме

1) с выводом 100 рез-тов. Заняло 741 секунду. Детальный отчет лежит здесь www.searchinform.com/tmp/report100.txt

2) Теже запросы но с выводом 5000 результатов. Естественно это медленней чем при выводе 100. Заняло 1020 секунд

Детальный отчет лежит здесь www.searchinform.com/tmp/report5000.txt

Так что реально на такой вот базе обычный фразовый поиск в среднем 1 секунду на запрос.

А комп в общем то не сильный на котором тестилось -- amd 2.3 винт на 7200 и память ddr400 2 гига

P.S Для желающих потестить завтра к вечеру будет уже на сайте дистрибут в том числе и триальной версии и описание какой входной файл принимается для пакетного режима. Буду очень рад если кто то сравнить скорости с другими системами.

Z
На сайте с 03.01.2004
Offline
32
#14

В каком виде выводились найденые результаты ? В частности, строились ли цитаты найденых документов по словам из запроса ?

!Иван FXS
На сайте с 16.11.2001
Offline
119
#15

Можно ли что-то почитать о формате индекса, создаваемого системой?

I
На сайте с 26.05.2001
Offline
64
#16
!Иван FXS:
Можно ли что-то почитать о формате индекса, создаваемого системой?

Вот мне тоже было бы интересно, потому как 20% это минимальный из всех возможных результатов, наблюденных в природе.

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#17
AlexA:
sni, прошу великодушно извинить, но представляется, что сообщение "не понравился в целом" не совсем продуктивно. Постарайтесь в следующий раз обосновать свое мнение и/или привести примеры.

а вот в том то и дело что не помню почему..... просто когда-то оооочень нужно было программу такого типа и перепробовал все что только можно..... сказал только что не очень хорошее впечатление

Хотя есть и плюсы. насколько известно , люди пишут что оч.хорошая скорость индексации. это хорошо :)

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.
L
На сайте с 02.05.2004
Offline
35
#18
Zute:
В каком виде выводились найденые результаты ? В частности, строились ли цитаты найденых документов по словам из запроса ?

В виде название документа, размер, число наденный нужных вхождений.

Цитаты в принципе можно выводить и из рез-тов поиска известны их позиции но для этого естественно надо грузить документ, а это уже не задача поискаю

L
На сайте с 02.05.2004
Offline
35
#19
!Иван FXS:
Можно ли что-то почитать о формате индекса, создаваемого системой?

Нет технология запатентованная и коммерческая.

А о размерах индекса и его проуентах от чистого теста можете судить сами по опубликованной выше инфе по индексированию 132 гиг где чистого текста около 80 гиг

L
На сайте с 02.05.2004
Offline
35
#20

Кстати еще для интересующихся скоростью работы поиска.

На этой неделе мои ребята должны выложить тулзу для тестировки.

Этой тулзе дается каталог из файлов типа html или txt и задаются параметры для генерации файла с фразоавыми запросами (число слов от и до, число мусорных сдов между ними и т.д.)

В итоге получается текстовый файл

Далее запускается SearchInform с ключем /debug и в меню debug грузится это файл и он по выделенному индексу начинает гнать в batch mode и потом отчет типа того что я приводил

Так что любой жедающий может сделать свою базу например на 50 гиг проиндексить нашей триалкой и запустить тест на скорость поиска.

Если надо могу дать и ключик чтобы можно быдло дольше месяца играться. Единственно условия -- сообщить мне о результатах теста.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий