SearchInform Internet Server

12 3
L
На сайте с 02.05.2004
Offline
35
2488

вышел SearchInform Internet Server. Подробней http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server.html

На данный момент проведена тестировка скоростей в лаборатории. Скорость индексирования и поиска в несколько раз быстрей (3-6 раз) чем у конкурентов в том числе у yandex сервера, не говоря уже о бесплатных типа nutch

Желающих проверить -- велкам.

Условия тестирования :

На 1 компе searchinform internet server

на 4 компах установлен apach и они играют роль хостинга с которого все качается.

Все 5 компов своей гигабитной сеткой объединены.

Число сайтов для откачки и индексирования = 5000

На каждом сайте по 1000 страниц.

Сами страницы -- англоязычные тексты патентов.

Скорость откачки и индексирования

-------------------------------------

-Число страниц более 5 млн.

-Объем чистого текста более 100 гиг. Это если брать средне-взвешенный размер

страниц в Инет то реально 700-800 гиг htm страниц без всякой графики и т.д.

Скорость откачки и индексирования у нас = 35 часов.

Для сравнения yandex server с той же задачей справился за 105 часов.

Скорость поиска :

-------------------------

Было нагенерено 5К запросов из которых 1К уникальный остальные нет. Эмуляция

реальной работы в Инет/ Запросы шли не по словам а по фразам, что более

ресурсоемко.

с 4 компов специально прогой генерились запросы в 10 потоках к серверу. Запросы

естественно одни и теже и для всех тестируемых систем. То есть 40 запросов

одновременно к серверу.

Временем окончания считалось время отдачи последнего запроса последнему

клиенту.

Наш результат = 45 минут (для сравнения yandex server немного больше 4 часов).

Заранее отвечаю на вопрос про корректность тестирования. Мы готовы предоставить наш Internet Server желающим для независимого тестирования -- милости просим. Для нашей компании результаты независимого тестирования очень интересны, особенно если они потом будут опубликованы :)

Leo www.searchinform.ru (www.searchinform.ru)
Pavlus
На сайте с 26.01.2004
Offline
121
#1

Насколько я понимаю, с помощью этой системы можно создать свою поисковую систему по заданным сайтам..

К примеру, отпарсить УРЛы блогов/сайтов заданной тематики например "маркетинг", настроить индексацию этих блогов/сайтов и получать в нужном формате выдачу. Также можно следить за активностью конкурентов.

Очень перспективное направление для сфер бизнеса с большим объемом документации, например юристы, бухгалтерия и т.п.

плюс в репу :)

E
На сайте с 08.04.2001
Offline
221
#2

Интересно, надо будет попробовать... Т.е. можно сделать свою мини поисковую систему?

Каширин
На сайте с 03.01.2004
Offline
1018
#3

Internet Server устанавливается на выделенном Windows-сервере.

L
На сайте с 02.05.2004
Offline
35
#4
Ergo:
Интересно, надо будет попробовать... Т.е. можно сделать свою мини поисковую систему?

Да без проблем. Причем если просчитаете следующие параметры

- число страниц

- раз в каклй период переиндексация

- число запросов в час.

То специалисты компании вам посчитают и оптимальную конфигурацию и приблизительную стоимость.

M
На сайте с 29.03.2003
Offline
65
#5

SearchInform по-прежнему манкирует какое-либо публичное тестирование релевантности, например TREC ?

В TREC-2007 вы увидим ваш замечательный продукт ? ;)

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)
L
На сайте с 02.05.2004
Offline
35
#6
Maxime:
SearchInform по-прежнему манкирует какое-либо публичное тестирование релевантности, например TREC ?
В TREC-2007 вы увидим ваш замечательный продукт ? ;)

Если бы Вы Maxime постестили наши продкуты для trec и опублоиковади бы результат -- мы бы были оченб признательны.

Готовы абсолютно бесплатно дать вам наш SDK для SearchInform Server

Правда в выпущенному нами недавно SearchInform Internet Server это никакого отношения не имеет........

Своими же силами мы к сожалению пока никак не можем -- нет свободных программистов. Мы же все делаем под давлением заказчиков, а не один из заказчиков плока треком не интересовался а вот скоростями очень даже.

Ну например в том что касается нашего сервера корпоративного поиска один ну очень крупный завод (1700 рабочих компьютерных мест куда мы должны ставиться) протестил несколько систем (называть завод и системы не имею права) -- так вот мы проиндексили тестовый объем за 14 часов а близжайший конкурент за 3.5 суток.

После этого вопросы все отпали...

Или например наши крупные клиенты давили насчет того что мы не поддерживаем Лотус. Ну вот кстати на прошлой неделе мы выпустили версию с поддержкой Лотуса. Причем вначале мы стали партнерами Ibm а потом уже с ведома и с промощью Ibm сделали поддержку Лотуса.

И так далее. Сейчас например идет интеграция с системой Directum, завершается интеграция с abby recognition server и т.д............

От этого и я и наши партнеры понимают что можно получить ( в смсыле денег) а вот от трека к сожалению кроме научной репутации я пока не вижу что можно получить.........

А мы все же фирма коммерческая а не научная :)

Хотя если вы мне подскажете какую финансовую выгоду я могу получить от трэка и каких дополнительных зказчиков то буду признателен.

M
На сайте с 29.03.2003
Offline
65
#7

У поисковых машин два главных критерия качества: релевантность поиска и скорость ответа на поисковые запросы. Почему вы педалируете именно скорость индексации, мне с научной точки зрения не понятно, а вот с коммерческой - еще как, у товара пиарят лучшие стороны, а вот худшие - как раз скрывают и с конкурентами не сопоставляют :)

Pavlus
На сайте с 26.01.2004
Offline
121
#8

Maxime, если почитать сайт то станет ясно что главный продукт компании - решение для поиска в ЛВС предприятия. Здесь, помимо вышеперечисленных факторов, скорость индексации и переиндексации играет очень важную роль.

L
На сайте с 02.05.2004
Offline
35
#9
Maxime:
У поисковых машин два главных критерия качества: релевантность поиска и скорость ответа на поисковые запросы. Почему вы педалируете именно скорость индексации, мне с научной точки зрения не понятно, а вот с коммерческой - еще как, у товара пиарят лучшие стороны, а вот худшие - как раз скрывают и с конкурентами не сопоставляют :)

Отвечаю по порядку:

1) Поисковые запросы мы тестим и по ним в несколько раз быстрей конкурентов особенно на больших объемах. Смотрите пост выше.

Более того крупные клиенты которые приобретают не на 5 копеек тестят все сами всерьез. И радует тот факт что и по скорости поиска ряд наших клиентов сказал нам что мы в несколько раз быстрей конверы, верити и т.д. Причем часто их тесты показывают даже более благоприятные результаты для нас.

2) Релевантность. Она у всех примерно одинакова и тут просто нечего выпячивать. В алгоритмах релевантности ( не путать с алгоритмами борьбы с поисковым спамом) ничего нового нет и выпячивать то что у всех примерно на таком же уровне смысла нет

Хотя если вы хотите потестить нашу релевантность -- велкам и плиз с публикацией результатов. Считаете что от компании СофтИнформ официальное разрешение на тестировку получили.

3) Для крупных клиентов еще большую роль играет то что мы много всего поддерживаем и являемся например официально партнером Ibm а не просто сами поддержали Лотус. Скоро кстати мы станем партнерами еще несколькиз китов мировой айти индустрии. Как не крути -- но вряд ли крупные корпорации будут делать партнерами и разрешать встраивать в свои продукты технологии не умеющие даже просто отдавать в результатах поиска релевантные результаты. Или вы считаете по другому и что получить разрешение на встраивание и стать партнером можно просто за красивые глаза?

4) Здесь я постил кстати говоря не для пиара -- здесь покупатели просто не водятся. Если бы постил для пиара то обязательно бы подробно рассказал про нашу уникальную технологию поиска документов похожих по содержанию, рассказал бы какие проблемы корпоративного клиента это решает. Рассказал бы пару красивых sucess stories и т.д.

Maxime -- если я верно угадал вы не занимаетесь коммерцией, иначе бы паром вы это не считали.......

Теперь для чего я сюда запостил. Чтобы коллеги которые изъявят желание потестить и покритиковать (не абстрактно а после тестировки) начали это делать :)

Обоснованная критика с цифрами и фактами нам крайне интересна -- тем более для продукта (SearchInform Internet Server) который только что вышел.

I
На сайте с 26.05.2001
Offline
64
#10

Не очень понял насчет тестирования скорости: 5000 тысяч запросов выполнялись в общей сложности 45 минут, или 45 минут выполнялось 5000 * 40 тысяч запросов?

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий