В виде название документа, размер, число наденный нужных вхождений.
Цитаты в принципе можно выводить и из рез-тов поиска известны их позиции но для этого естественно надо грузить документ, а это уже не задача поискаю
Вот для интересующихся информация о тестах по скорости поиска.
Характеристики индексируемлой инфлормации
Размер документов 132,26 gb
Всего документов 2,888,202
Уникальных слов 18,912,257
Размер чистого текста 77,57 gb
Размер индекса 16,29 gb
Время индексации 6:28
В среднем гб в час 20,45
Характеристики поиска:
1000 запросов на фразовый поиск с максимальным число промежуточных слов (yt входящих в запрос). Все в пакетном режиме
1) с выводом 100 рез-тов. Заняло 741 секунду. Детальный отчет лежит здесь www.searchinform.com/tmp/report100.txt
2) Теже запросы но с выводом 5000 результатов. Естественно это медленней чем при выводе 100. Заняло 1020 секунд
Детальный отчет лежит здесь www.searchinform.com/tmp/report5000.txt
Так что реально на такой вот базе обычный фразовый поиск в среднем 1 секунду на запрос.
А комп в общем то не сильный на котором тестилось -- amd 2.3 винт на 7200 и память ddr400 2 гига
P.S Для желающих потестить завтра к вечеру будет уже на сайте дистрибут в том числе и триальной версии и описание какой входной файл принимается для пакетного режима. Буду очень рад если кто то сравнить скорости с другими системами.
Да я то могу скачать и заархивирвоать на своем выджеленном серваке -- только он в Чикаго.
А вот потом по инет стянуть например 300 гиг тяжко в нащих условиях когда оплата идет по $23 за гиг..........
Если кто в Москве ( я часто очень в Москве бываю) готов скачать по данным мной ссылкам архивы и потом переписать мне на винт -- то с радостью опубликую на форуме рез-ты тестов например терабайта на не 132 гиг.......
Пишите если кто готов помочь
Да именно dtsearch быстрей всех после него идет isys
А yandex у нас свалился даже на индексации 11 гиг - куда ему 100 гиг
С google тоже -- 11 гиг более 5 часов в то время как dtsearch 3 с половиной часа.
Можете проверить сами. Сейчас реально нас постоянно сранвиают (и это неспроста) с 2 -я системами -- dtsearch и isys
Из серьезных есть еще решения verity -- они тоже намного хуже наших, но я не могу привести результатов тестов с точки зрения законности -- так как у verity нет официально trial версии в отличии от остальных :(
А так как мы во многом работаем на запад, то нам приходится следить за легальностью своих высказываний
У нас есть API и себя мы можем в автоматике а вот у остальных нет триальной версии API. Могу скахзать что мы ищем в 3-4 раза быстрей, но точных цифр приводить не буду именно из за юридических тонкостей.
Это вы наверно по другим системам судите? Нашу вообще хоть пробовали? Я бы вот например не рискнул говорить более минуты не попробовав. Если речь не вести о нашей изюминке -- поиске похожих а только а фразовом с расстоянием который есть у всех то время измеряется все же в секундах ну может на особо талантливых запросах до 10-15 секунд. Здесь я речь веду о проиндексированных 132 гигах
А кто сказал что у нас нет масштабируемого решения?
Стоп словами управляет клиент. Может вообще при индексации убрать все стоп слова и все будет замечательно
Вот тут Вы принципиально не правы. Попробуйте сначала создать синтетическую коллекцию такого же объема, как и реальные данные. Протестируйте скорость создания индекса и время поиска. Вы приятно удивитесь насколько результаты будут похожи. Возможно даже практически идентичны. Даже если Вы возьмете Зобелевский finnegan.
Напоминает фразу из известного фильма
" Мне нужен точно такой же халатик только другого цвета "
Оно бы хорошо -- только вот с таможней проблемы -- они вражеские данные не пропускают.
ЕСли можете посоветовать как нормально это сделать пишите мне в личку -- буду признателен
leo собака softinform точка com
Реально ищет в 3-4 раза быстрей чем к примеру dtsearch. Только в отличии от времени индексирования тут так корректно время нельзя измерять -- надо через утилиту которая будет заполнять поля в проге и кликать на поиск.
Это одно из преимуществ что маленький индекс. Из за этого в том числе и поиск быстрей. А фразовый поиск с расстоянием безуслвоно поддерживается.
Такой тест никому не нужен -- интересно тестить на реальгых данных.
А вообще все это есть вот здесь (файл всего 64 r,)
www.searchinform.com/tmp/1.doc
По нашим расчетам без снижения скорости индескирования мы до 300 гиг чистого текста без вопросов, далее наверно будет снижение на 25-30%
Если кто то сможет предоставить гиг 500-800 текстовой инфы, то мы бы с радостью провели тест на индексирование террабайта и с оглашением результатов в этот форум.
www.searchinform.com
А любая sql БД поддерживается через датасоурс.
А если еще этот датасоурс чуть напильником заточить а не пользоваться стандартными окошками настройки из проги, то вообще летать начнет.
Ну например в кастомный датасоурс надо зашить тригера обновления и т.д.
А это сколько гиг то чисто текстовой инфы и сколько млн страниц?
Любопытно именно сколько гиг чисто текстовой инфы вы можете поместить на одном компе -- то есть если Html например занимает 10 кил, а чисто слов в нем на 1 кило, то я считаю что 1 кило чистого текста
Не решаю шинглы абсолютно проблемы поиска документов похожих по содержанию, как впрочем и не решает чистая статистика (типа % идентичных слов в 2 документах)
Для этого нужны другие технологии -- например http://www.searchinform.com/site/ru/index.htm
Советую потестить -- есть и бесплаьтная версия с ограничением на гиг инфы.........
На сегодня реально это работает только у http://www.searchinform.com/site/ru/index.htm
Можно скачать анимированную презентацию (демо-ролик -- http://www.searchinform.com/download/demomovie/searchinformrus.exe) и триальную версию
Но вот про алгоритмы вряд ли кто то расскажет. Если бы они были общеизвестны, то наверняка бы таких систем было много а так реально только одна и причем реально работающая.