Можно и дешевле ( я имею ввиду чисто техническое решение а не раскрутку), если действовать на базе нашего недавно вышедшего решения -- SearchInform Internet Server -- http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server.html
Все зависит от объемов и числа запросов в час. В другой ветке я приводил тесты -- что один комп без проблем порялка 15 млн страниц и около 5000 запросов в час, если пересчитывать на инет инфу, а не ту на которой мы тестили и гле много текста.
При создании комплексного решения цену можно обсуждать.
Если например взять объем в 100 млн страниц и числом запросов в сутки порядка 100000, то на базе нашего решения даже если считать в лоб по прайсу будет
- 50000 --100 млн страниц
Для этого берем 7 кластеров по 2 сервера стоимостью
$ 15000 – Два параллельно работающих SearchInform Internet Server, пока один занят индексацией интернет-ресурсов, другой обрабатывает поисковые запросы пользователей.
+
10000 упрваляющий серверо
10000 кэшиоующий сервер
ИТОГО =
50+15*7+10+10 = $175000
Причем мы готовы рассматривать как оплату деньгами за наш софт так и частичную оплату но взамен участие в бизнесе построения нового поисковика.
http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server.html
А насчет стоимости то вначале лучше заполнить форму вот здесь
http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server-buy.html
и для вас расчитают стоимость -- велика вероятность что эта стоимость будет ниже чем то что указано в прайсах, так как в зависимости от того для чего применяется и в каком регионе есть определенная система скидок.
Amd 3.2 винт обычный sata памяти 4 гига
Сетка гигабитная между всеми 5 компами.
Maxime а вы чем занимаетесь? У Вас есть какой то бизнес или вы просто порассуждать о жизни?
Как раз если бы я не представлял что такое TREC и не понимал что для этого надо усилия программистов котороым и так есть чем заняться, то и не предлагал бы вам потестить -- как я понимаю из чистого научного интереса. Коммерческого интереса я просто уверен у вас нет.
5000 запросов в общей сложности по очень большой базе около 5 млн страниц и если пересчитывать на Инет то около терра данных.
С каждого из 4 компов отправлялось по 1250 запросов соответстенно в 10 потоках. То есть на сервер все время шло порядка 40 запросов.
Отвечаю по порядку:
1) Поисковые запросы мы тестим и по ним в несколько раз быстрей конкурентов особенно на больших объемах. Смотрите пост выше.
Более того крупные клиенты которые приобретают не на 5 копеек тестят все сами всерьез. И радует тот факт что и по скорости поиска ряд наших клиентов сказал нам что мы в несколько раз быстрей конверы, верити и т.д. Причем часто их тесты показывают даже более благоприятные результаты для нас.
2) Релевантность. Она у всех примерно одинакова и тут просто нечего выпячивать. В алгоритмах релевантности ( не путать с алгоритмами борьбы с поисковым спамом) ничего нового нет и выпячивать то что у всех примерно на таком же уровне смысла нет
Хотя если вы хотите потестить нашу релевантность -- велкам и плиз с публикацией результатов. Считаете что от компании СофтИнформ официальное разрешение на тестировку получили.
3) Для крупных клиентов еще большую роль играет то что мы много всего поддерживаем и являемся например официально партнером Ibm а не просто сами поддержали Лотус. Скоро кстати мы станем партнерами еще несколькиз китов мировой айти индустрии. Как не крути -- но вряд ли крупные корпорации будут делать партнерами и разрешать встраивать в свои продукты технологии не умеющие даже просто отдавать в результатах поиска релевантные результаты. Или вы считаете по другому и что получить разрешение на встраивание и стать партнером можно просто за красивые глаза?
4) Здесь я постил кстати говоря не для пиара -- здесь покупатели просто не водятся. Если бы постил для пиара то обязательно бы подробно рассказал про нашу уникальную технологию поиска документов похожих по содержанию, рассказал бы какие проблемы корпоративного клиента это решает. Рассказал бы пару красивых sucess stories и т.д.
Maxime -- если я верно угадал вы не занимаетесь коммерцией, иначе бы паром вы это не считали.......
Теперь для чего я сюда запостил. Чтобы коллеги которые изъявят желание потестить и покритиковать (не абстрактно а после тестировки) начали это делать :)
Обоснованная критика с цифрами и фактами нам крайне интересна -- тем более для продукта (SearchInform Internet Server) который только что вышел.
Если бы Вы Maxime постестили наши продкуты для trec и опублоиковади бы результат -- мы бы были оченб признательны.
Готовы абсолютно бесплатно дать вам наш SDK для SearchInform Server
Правда в выпущенному нами недавно SearchInform Internet Server это никакого отношения не имеет........
Своими же силами мы к сожалению пока никак не можем -- нет свободных программистов. Мы же все делаем под давлением заказчиков, а не один из заказчиков плока треком не интересовался а вот скоростями очень даже.
Ну например в том что касается нашего сервера корпоративного поиска один ну очень крупный завод (1700 рабочих компьютерных мест куда мы должны ставиться) протестил несколько систем (называть завод и системы не имею права) -- так вот мы проиндексили тестовый объем за 14 часов а близжайший конкурент за 3.5 суток.
После этого вопросы все отпали...
Или например наши крупные клиенты давили насчет того что мы не поддерживаем Лотус. Ну вот кстати на прошлой неделе мы выпустили версию с поддержкой Лотуса. Причем вначале мы стали партнерами Ibm а потом уже с ведома и с промощью Ibm сделали поддержку Лотуса.
И так далее. Сейчас например идет интеграция с системой Directum, завершается интеграция с abby recognition server и т.д............
От этого и я и наши партнеры понимают что можно получить ( в смсыле денег) а вот от трека к сожалению кроме научной репутации я пока не вижу что можно получить.........
А мы все же фирма коммерческая а не научная :)
Хотя если вы мне подскажете какую финансовую выгоду я могу получить от трэка и каких дополнительных зказчиков то буду признателен.
Да без проблем. Причем если просчитаете следующие параметры
- число страниц
- раз в каклй период переиндексация
- число запросов в час.
То специалисты компании вам посчитают и оптимальную конфигурацию и приблизительную стоимость.
www.searchinform.ru
Правда это если рассматриваете платный вариант и нужен комп под виндой.
Поддерживаются любые sql базы данных По цене будет для таких объемов явно дешевле чем yandex server. По скорости -- вы можете откачать desktop trial и сами протестить на своей БД. В серверной версии скорость быдет не хуже. Думаю скорость приятно порадует
У заказчиков все работает. И если у Вас есть потенциальный заказчик то велкам в один из наших офисов или Минский или Московский и ему все продемонстрируют, а если надо то выедут на его территорию все установят и продемонстрируют.
Если вы потенциальный заказчик то велкам, а если просто любопытсвующий то сорри мои менеджеры время на Вас тратить не станут.