Leom

Рейтинг
35
Регистрация
02.05.2004
Zute:
В каком виде выводились найденые результаты ? В частности, строились ли цитаты найденых документов по словам из запроса ?

В виде название документа, размер, число наденный нужных вхождений.

Цитаты в принципе можно выводить и из рез-тов поиска известны их позиции но для этого естественно надо грузить документ, а это уже не задача поискаю

Вот для интересующихся информация о тестах по скорости поиска.

Характеристики индексируемлой инфлормации

Размер документов 132,26 gb

Всего документов 2,888,202

Уникальных слов 18,912,257

Размер чистого текста 77,57 gb

Размер индекса 16,29 gb

Время индексации 6:28

В среднем гб в час 20,45

Характеристики поиска:

1000 запросов на фразовый поиск с максимальным число промежуточных слов (yt входящих в запрос). Все в пакетном режиме

1) с выводом 100 рез-тов. Заняло 741 секунду. Детальный отчет лежит здесь www.searchinform.com/tmp/report100.txt

2) Теже запросы но с выводом 5000 результатов. Естественно это медленней чем при выводе 100. Заняло 1020 секунд

Детальный отчет лежит здесь www.searchinform.com/tmp/report5000.txt

Так что реально на такой вот базе обычный фразовый поиск в среднем 1 секунду на запрос.

А комп в общем то не сильный на котором тестилось -- amd 2.3 винт на 7200 и память ddr400 2 гига

P.S Для желающих потестить завтра к вечеру будет уже на сайте дистрибут в том числе и триальной версии и описание какой входной файл принимается для пакетного режима. Буду очень рад если кто то сравнить скорости с другими системами.

Zute:
Например, утянуть по инету...

Да я то могу скачать и заархивирвоать на своем выджеленном серваке -- только он в Чикаго.

А вот потом по инет стянуть например 300 гиг тяжко в нащих условиях когда оплата идет по $23 за гиг..........

Если кто в Москве ( я часто очень в Москве бываю) готов скачать по данным мной ссылкам архивы и потом переписать мне на винт -- то с радостью опубликую на форуме рез-ты тестов например терабайта на не 132 гиг.......

Пишите если кто готов помочь

itman:
а что dtsearch как-то осбенно эффективен? сравните лучше с google desktop или персональным поиском Яндекса.

Да именно dtsearch быстрей всех после него идет isys

А yandex у нас свалился даже на индексации 11 гиг - куда ему 100 гиг

С google тоже -- 11 гиг более 5 часов в то время как dtsearch 3 с половиной часа.

Можете проверить сами. Сейчас реально нас постоянно сранвиают (и это неспроста) с 2 -я системами -- dtsearch и isys

Из серьезных есть еще решения verity -- они тоже намного хуже наших, но я не могу привести результатов тестов с точки зрения законности -- так как у verity нет официально trial версии в отличии от остальных :(

А так как мы во многом работаем на запад, то нам приходится следить за легальностью своих высказываний

itman:

а что автоматика не поддерживается?

У нас есть API и себя мы можем в автоматике а вот у остальных нет триальной версии API. Могу скахзать что мы ищем в 3-4 раза быстрей, но точных цифр приводить не буду именно из за юридических тонкостей.

itman:

а скорость поиска вещь важная, зачем вам быстро индексировать такое количество информации, если время выполнения запроса будет 1 минута+?

Это вы наверно по другим системам судите? Нашу вообще хоть пробовали? Я бы вот например не рискнул говорить более минуты не попробовав. Если речь не вести о нашей изюминке -- поиске похожих а только а фразовом с расстоянием который есть у всех то время измеряется все же в секундах ну может на особо талантливых запросах до 10-15 секунд. Здесь я речь веду о проиндексированных 132 гигах

itman:

не лучше ли в такм случае продать какое-нибудь масштабируемое решение.

А кто сказал что у нас нет масштабируемого решения?

itman:

И все у вас умещается в 20% ? а запрос "to be or not to be" у вас можно найти? не будет ли этот запрос эквивалентен запросу "be be" ?

Стоп словами управляет клиент. Может вообще при индексации убрать все стоп слова и все будет замечательно

Вот тут Вы принципиально не правы. Попробуйте сначала создать синтетическую коллекцию такого же объема, как и реальные данные. Протестируйте скорость создания индекса и время поиска. Вы приятно удивитесь насколько результаты будут похожи. Возможно даже практически идентичны. Даже если Вы возьмете Зобелевский finnegan.

sni:
как-то ставил SearchInform - не понравился что-то в целом.:(

Напоминает фразу из известного фильма

" Мне нужен точно такой же халатик только другого цвета "

Zute:
Регистрируйтесь на TREC2006, там есть Terrabyte track, - получите раза в два больше инфы, заодно с зубрами IR поряетесь, если не страшно :)

Оно бы хорошо -- только вот с таможней проблемы -- они вражеские данные не пропускают.

ЕСли можете посоветовать как нормально это сделать пишите мне в личку -- буду признателен

leo собака softinform точка com

itman:

1) как быстро потом ищет? в принципе 2.8 миллионов доков размером в 20к примерно эквивалентны 16-18 млн вебовских страничек.

Реально ищет в 3-4 раза быстрей чем к примеру dtsearch. Только в отличии от времени индексирования тут так корректно время нельзя измерять -- надо через утилиту которая будет заполнять поля в проге и кликать на поиск.

itman:

2) подозрительно маленький какой у вас индекс, это, наверное, без стоп-слов? или без координатной информации?

Это одно из преимуществ что маленький индекс. Из за этого в том числе и поиск быстрей. А фразовый поиск с расстоянием безуслвоно поддерживается.

itman:

да, собственно забыл сказать. чтобы проверить скорость индексации можно использовать синтезированные текстовые документы. собираете статистику по частоте длинн документов и частоте появления последовательных пар слов и вперед :-) хоть десять террабайт можно сгенерить. сответствующая программка пишется быстро :-)

Такой тест никому не нужен -- интересно тестить на реальгых данных.

itman:
136 гигабайт чистого текста? или док файлов? И какова потом скорость поиска? Минуту на запрос?

Размер документов 132,26 gb

Всего документов 2,888,202

Уникальных слов 18,912,257

Размер чистого текста 77,57 gb

Размер индекса 16,29 gb

Время индексации 6:28

В среднем гб в час 20,45

А вообще все это есть вот здесь (файл всего 64 r,)

www.searchinform.com/tmp/1.doc

По нашим расчетам без снижения скорости индескирования мы до 300 гиг чистого текста без вопросов, далее наверно будет снижение на 25-30%

Если кто то сможет предоставить гиг 500-800 текстовой инфы, то мы бы с радостью провели тест на индексирование террабайта и с оглашением результатов в этот форум.

www.searchinform.com

А любая sql БД поддерживается через датасоурс.

А если еще этот датасоурс чуть напильником заточить а не пользоваться стандартными окошками настройки из проги, то вообще летать начнет.

Ну например в кастомный датасоурс надо зашить тригера обновления и т.д.

lagif:
pelvis, Можно, если поднатужиться.

А это сколько гиг то чисто текстовой инфы и сколько млн страниц?

Любопытно именно сколько гиг чисто текстовой инфы вы можете поместить на одном компе -- то есть если Html например занимает 10 кил, а чисто слов в нем на 1 кило, то я считаю что 1 кило чистого текста

Не решаю шинглы абсолютно проблемы поиска документов похожих по содержанию, как впрочем и не решает чистая статистика (типа % идентичных слов в 2 документах)

Для этого нужны другие технологии -- например http://www.searchinform.com/site/ru/index.htm

Советую потестить -- есть и бесплаьтная версия с ограничением на гиг инфы.........

На сегодня реально это работает только у http://www.searchinform.com/site/ru/index.htm

Можно скачать анимированную презентацию (демо-ролик -- http://www.searchinform.com/download/demomovie/searchinformrus.exe) и триальную версию

Но вот про алгоритмы вряд ли кто то расскажет. Если бы они были общеизвестны, то наверняка бы таких систем было много а так реально только одна и причем реально работающая.

Всего: 125