Вышел SearchInform 2.0.

L

35

Leom

2 марта 2006, 10:04

6969

Вышел SearchInform 2.0

http://www.searchinform.com/site/ru/main/search-inform-products-search-inform-desktop.htm

Капитально увеличена скорость работы.

Результаты тестов здесь www.searchinform.com/tmp/1.doc

Так например 132 гига индескируется за 6 с пловиной часов что не просто быстрей а во много раз быстрей остальных систем.

Версия вообщзе капитально переработана. Все можно проверить откачав триалку.

Попутно вопрос -- кто нибудь может предостваить 400-500 гиг текстовой инфы?

Leo www.searchinform.ru (www.searchinform.ru)

I

64

itman

2 марта 2006, 13:18

#1

136 гигабайт чистого текста? или док файлов? И какова потом скорость поиска? Минуту на запрос?

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

L

35

Leom

2 марта 2006, 13:51

#2

itman:
136 гигабайт чистого текста? или док файлов? И какова потом скорость поиска? Минуту на запрос?

Размер документов 132,26 gb

Всего документов 2,888,202

Уникальных слов 18,912,257

Размер чистого текста 77,57 gb

Размер индекса 16,29 gb

Время индексации 6:28

В среднем гб в час 20,45

А вообще все это есть вот здесь (файл всего 64 r,)

www.searchinform.com/tmp/1.doc

По нашим расчетам без снижения скорости индескирования мы до 300 гиг чистого текста без вопросов, далее наверно будет снижение на 25-30%

Если кто то сможет предоставить гиг 500-800 текстовой инфы, то мы бы с радостью провели тест на индексирование террабайта и с оглашением результатов в этот форум.

I

64

itman

2 марта 2006, 14:13

#3

нет, ну индексирует бесспорно исключительно быстро. но тут возникают два естественных вопроса:

1) как быстро потом ищет? в принципе 2.8 миллионов доков размером в 20к примерно эквивалентны 16-18 млн вебовских страничек.

2) подозрительно маленький какой у вас индекс, это, наверное, без стоп-слов? или без координатной информации?

да, собственно забыл сказать. чтобы проверить скорость индексации можно использовать синтезированные текстовые документы. собираете статистику по частоте длинн документов и частоте появления последовательных пар слов и вперед :-) хоть десять террабайт можно сгенерить. сответствующая программка пишется быстро :-)

L

35

Leom

3 марта 2006, 08:04

#4

itman:

1) как быстро потом ищет? в принципе 2.8 миллионов доков размером в 20к примерно эквивалентны 16-18 млн вебовских страничек.

Реально ищет в 3-4 раза быстрей чем к примеру dtsearch. Только в отличии от времени индексирования тут так корректно время нельзя измерять -- надо через утилиту которая будет заполнять поля в проге и кликать на поиск.

itman:

2) подозрительно маленький какой у вас индекс, это, наверное, без стоп-слов? или без координатной информации?

Это одно из преимуществ что маленький индекс. Из за этого в том числе и поиск быстрей. А фразовый поиск с расстоянием безуслвоно поддерживается.

itman:

да, собственно забыл сказать. чтобы проверить скорость индексации можно использовать синтезированные текстовые документы. собираете статистику по частоте длинн документов и частоте появления последовательных пар слов и вперед :-) хоть десять террабайт можно сгенерить. сответствующая программка пишется быстро :-)

Такой тест никому не нужен -- интересно тестить на реальгых данных.

I

64

itman

3 марта 2006, 08:33

#5

а что dtsearch как-то осбенно эффективен? сравните лучше с google desktop или персональным поиском Яндекса.

Leom:
Реально ищет в 3-4 раза быстрей чем к примеру dtsearch. Только в отличии от времени индексирования тут так корректно время нельзя измерять -- надо через утилиту которая будет заполнять поля в проге и кликать на поиск.

а что автоматика не поддерживается? а скорость поиска вещь важная, зачем вам быстро индексировать такое количество информации, если время выполнения запроса будет 1 минута+? не лучше ли в такм случае продать какое-нибудь масштабируемое решение.

Это одно из преимуществ что маленький индекс. Из за этого в том числе и поиск быстрей. А фразовый поиск с расстоянием безуслвоно поддерживается.

И все у вас умещается в 20% ? а запрос "to be or not to be" у вас можно найти? не будет ли этот запрос эквивалентен запросу "be be" ?

Такой тест никому не нужен -- интересно тестить на реальгых данных.

Вот тут Вы принципиально не правы. Попробуйте сначала создать синтетическую коллекцию такого же объема, как и реальные данные. Протестируйте скорость создания индекса и время поиска. Вы приятно удивитесь насколько результаты будут похожи. Возможно даже практически идентичны. Даже если Вы возьмете Зобелевский finnegan.

166

Pavel Medvedev

3 марта 2006, 09:02

#6

как-то ставил SearchInform - не понравился что-то в целом.:(

Юзаю теперь Dvygun.... он вроде нормально ищет все....

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.

AA

70

AlexA

3 марта 2006, 12:09

#7

sni, прошу великодушно извинить, но представляется, что сообщение "не понравился в целом" не совсем продуктивно. Постарайтесь в следующий раз обосновать свое мнение и/или привести примеры.

С уважением, Антонов Александр.

Z

32

Zute

3 марта 2006, 12:41

#8

Leom:

Попутно вопрос -- кто нибудь может предостваить 400-500 гиг текстовой инфы?

Регистрируйтесь на TREC2006, там есть Terrabyte track, - получите раза в два больше инфы, заодно с зубрами IR поряетесь, если не страшно :)

L

35

Leom

4 марта 2006, 17:24

#9

itman:
а что dtsearch как-то осбенно эффективен? сравните лучше с google desktop или персональным поиском Яндекса.

Да именно dtsearch быстрей всех после него идет isys

А yandex у нас свалился даже на индексации 11 гиг - куда ему 100 гиг

С google тоже -- 11 гиг более 5 часов в то время как dtsearch 3 с половиной часа.

Можете проверить сами. Сейчас реально нас постоянно сранвиают (и это неспроста) с 2 -я системами -- dtsearch и isys

Из серьезных есть еще решения verity -- они тоже намного хуже наших, но я не могу привести результатов тестов с точки зрения законности -- так как у verity нет официально trial версии в отличии от остальных :(

А так как мы во многом работаем на запад, то нам приходится следить за легальностью своих высказываний

itman:

а что автоматика не поддерживается?

У нас есть API и себя мы можем в автоматике а вот у остальных нет триальной версии API. Могу скахзать что мы ищем в 3-4 раза быстрей, но точных цифр приводить не буду именно из за юридических тонкостей.

itman:

а скорость поиска вещь важная, зачем вам быстро индексировать такое количество информации, если время выполнения запроса будет 1 минута+?

Это вы наверно по другим системам судите? Нашу вообще хоть пробовали? Я бы вот например не рискнул говорить более минуты не попробовав. Если речь не вести о нашей изюминке -- поиске похожих а только а фразовом с расстоянием который есть у всех то время измеряется все же в секундах ну может на особо талантливых запросах до 10-15 секунд. Здесь я речь веду о проиндексированных 132 гигах

itman:

не лучше ли в такм случае продать какое-нибудь масштабируемое решение.

А кто сказал что у нас нет масштабируемого решения?

itman:

И все у вас умещается в 20% ? а запрос "to be or not to be" у вас можно найти? не будет ли этот запрос эквивалентен запросу "be be" ?

Стоп словами управляет клиент. Может вообще при индексации убрать все стоп слова и все будет замечательно

Вот тут Вы принципиально не правы. Попробуйте сначала создать синтетическую коллекцию такого же объема, как и реальные данные. Протестируйте скорость создания индекса и время поиска. Вы приятно удивитесь насколько результаты будут похожи. Возможно даже практически идентичны. Даже если Вы возьмете Зобелевский finnegan.

sni:
как-то ставил SearchInform - не понравился что-то в целом.:(

Напоминает фразу из известного фильма

" Мне нужен точно такой же халатик только другого цвета "

Zute:
Регистрируйтесь на TREC2006, там есть Terrabyte track, - получите раза в два больше инфы, заодно с зубрами IR поряетесь, если не страшно :)

Оно бы хорошо -- только вот с таможней проблемы -- они вражеские данные не пропускают.

ЕСли можете посоветовать как нормально это сделать пишите мне в личку -- буду признателен

leo собака softinform точка com

Z

32

Zute

4 марта 2006, 17:57

#10

Leom:

ЕСли можете посоветовать как нормально это сделать пишите мне в личку

Например, утянуть по инету...

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта