Leom

Рейтинг
35
Регистрация
02.05.2004
-EX-:
Diversant, долларов... :)

Я тоже когда-то давно об этом думал. Прежде всего нужно сильное желание и хорошая команда. Все остальное постепенно шаг-за-шагом можно преодолеть... ;)

Можно и дешевле ( я имею ввиду чисто техническое решение а не раскрутку), если действовать на базе нашего недавно вышедшего решения -- SearchInform Internet Server -- http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server.html

Все зависит от объемов и числа запросов в час. В другой ветке я приводил тесты -- что один комп без проблем порялка 15 млн страниц и около 5000 запросов в час, если пересчитывать на инет инфу, а не ту на которой мы тестили и гле много текста.

При создании комплексного решения цену можно обсуждать.

Если например взять объем в 100 млн страниц и числом запросов в сутки порядка 100000, то на базе нашего решения даже если считать в лоб по прайсу будет

- 50000 --100 млн страниц

Для этого берем 7 кластеров по 2 сервера стоимостью

$ 15000 – Два параллельно работающих SearchInform Internet Server, пока один занят индексацией интернет-ресурсов, другой обрабатывает поисковые запросы пользователей.

+

10000 упрваляющий серверо

+

10000 кэшиоующий сервер

ИТОГО =

50+15*7+10+10 = $175000

Причем мы готовы рассматривать как оплату деньгами за наш софт так и частичную оплату но взамен участие в бизнесе построения нового поисковика.

x007xx:
Допустим региональный поисковик...
Возможно так? чтобы индексировались только урлы, которые добавлены в базу данных например.. или каталог при поисковике.
и если есть такие подскажите примерно их стоимость.

http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server.html

А насчет стоимости то вначале лучше заполнить форму вот здесь

http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server-buy.html

и для вас расчитают стоимость -- велика вероятность что эта стоимость будет ниже чем то что указано в прайсах, так как в зависимости от того для чего применяется и в каком регионе есть определенная система скидок.

itman:
Нет, я понял по поводу объема базы данных. Средняя страница в 20 Кб, что примерно 3-4 средних HTML странички. То бишь, аналог в 15-20 млн страниц веба. И в среднем чуть меньше секунды на каждый запрос. А что была за железка?

Amd 3.2 винт обычный sata памяти 4 гига

Сетка гигабитная между всеми 5 компами.

Maxime:
Что-то мне подсказывает, что предложение бесплатно потестить что-то в TREC - это именно пеар, причём дешевого пошиба, бо собеседник мало представляет что это такое...

Maxime а вы чем занимаетесь? У Вас есть какой то бизнес или вы просто порассуждать о жизни?

Как раз если бы я не представлял что такое TREC и не понимал что для этого надо усилия программистов котороым и так есть чем заняться, то и не предлагал бы вам потестить -- как я понимаю из чистого научного интереса. Коммерческого интереса я просто уверен у вас нет.

itman:
Не очень понял насчет тестирования скорости: 5000 тысяч запросов выполнялись в общей сложности 45 минут, или 45 минут выполнялось 5000 * 40 тысяч запросов?

5000 запросов в общей сложности по очень большой базе около 5 млн страниц и если пересчитывать на Инет то около терра данных.

С каждого из 4 компов отправлялось по 1250 запросов соответстенно в 10 потоках. То есть на сервер все время шло порядка 40 запросов.

Maxime:
У поисковых машин два главных критерия качества: релевантность поиска и скорость ответа на поисковые запросы. Почему вы педалируете именно скорость индексации, мне с научной точки зрения не понятно, а вот с коммерческой - еще как, у товара пиарят лучшие стороны, а вот худшие - как раз скрывают и с конкурентами не сопоставляют :)

Отвечаю по порядку:

1) Поисковые запросы мы тестим и по ним в несколько раз быстрей конкурентов особенно на больших объемах. Смотрите пост выше.

Более того крупные клиенты которые приобретают не на 5 копеек тестят все сами всерьез. И радует тот факт что и по скорости поиска ряд наших клиентов сказал нам что мы в несколько раз быстрей конверы, верити и т.д. Причем часто их тесты показывают даже более благоприятные результаты для нас.

2) Релевантность. Она у всех примерно одинакова и тут просто нечего выпячивать. В алгоритмах релевантности ( не путать с алгоритмами борьбы с поисковым спамом) ничего нового нет и выпячивать то что у всех примерно на таком же уровне смысла нет

Хотя если вы хотите потестить нашу релевантность -- велкам и плиз с публикацией результатов. Считаете что от компании СофтИнформ официальное разрешение на тестировку получили.

3) Для крупных клиентов еще большую роль играет то что мы много всего поддерживаем и являемся например официально партнером Ibm а не просто сами поддержали Лотус. Скоро кстати мы станем партнерами еще несколькиз китов мировой айти индустрии. Как не крути -- но вряд ли крупные корпорации будут делать партнерами и разрешать встраивать в свои продукты технологии не умеющие даже просто отдавать в результатах поиска релевантные результаты. Или вы считаете по другому и что получить разрешение на встраивание и стать партнером можно просто за красивые глаза?

4) Здесь я постил кстати говоря не для пиара -- здесь покупатели просто не водятся. Если бы постил для пиара то обязательно бы подробно рассказал про нашу уникальную технологию поиска документов похожих по содержанию, рассказал бы какие проблемы корпоративного клиента это решает. Рассказал бы пару красивых sucess stories и т.д.

Maxime -- если я верно угадал вы не занимаетесь коммерцией, иначе бы паром вы это не считали.......

Теперь для чего я сюда запостил. Чтобы коллеги которые изъявят желание потестить и покритиковать (не абстрактно а после тестировки) начали это делать :)

Обоснованная критика с цифрами и фактами нам крайне интересна -- тем более для продукта (SearchInform Internet Server) который только что вышел.

Maxime:
SearchInform по-прежнему манкирует какое-либо публичное тестирование релевантности, например TREC ?
В TREC-2007 вы увидим ваш замечательный продукт ? ;)

Если бы Вы Maxime постестили наши продкуты для trec и опублоиковади бы результат -- мы бы были оченб признательны.

Готовы абсолютно бесплатно дать вам наш SDK для SearchInform Server

Правда в выпущенному нами недавно SearchInform Internet Server это никакого отношения не имеет........

Своими же силами мы к сожалению пока никак не можем -- нет свободных программистов. Мы же все делаем под давлением заказчиков, а не один из заказчиков плока треком не интересовался а вот скоростями очень даже.

Ну например в том что касается нашего сервера корпоративного поиска один ну очень крупный завод (1700 рабочих компьютерных мест куда мы должны ставиться) протестил несколько систем (называть завод и системы не имею права) -- так вот мы проиндексили тестовый объем за 14 часов а близжайший конкурент за 3.5 суток.

После этого вопросы все отпали...

Или например наши крупные клиенты давили насчет того что мы не поддерживаем Лотус. Ну вот кстати на прошлой неделе мы выпустили версию с поддержкой Лотуса. Причем вначале мы стали партнерами Ibm а потом уже с ведома и с промощью Ibm сделали поддержку Лотуса.

И так далее. Сейчас например идет интеграция с системой Directum, завершается интеграция с abby recognition server и т.д............

От этого и я и наши партнеры понимают что можно получить ( в смсыле денег) а вот от трека к сожалению кроме научной репутации я пока не вижу что можно получить.........

А мы все же фирма коммерческая а не научная :)

Хотя если вы мне подскажете какую финансовую выгоду я могу получить от трэка и каких дополнительных зказчиков то буду признателен.

Ergo:
Интересно, надо будет попробовать... Т.е. можно сделать свою мини поисковую систему?

Да без проблем. Причем если просчитаете следующие параметры

- число страниц

- раз в каклй период переиндексация

- число запросов в час.

То специалисты компании вам посчитают и оптимальную конфигурацию и приблизительную стоимость.

Янис:
Здравствуйте.
Я так понимаю, не надо изобретать велосипед, а использовать уже готовые решения, которые могут осуществлять поиск по большой БД(более 3000 фирм и 400000 позиций)типа Яндекс.Сервер, mnogosearch и т.д.
Требования:
- быстрый поиск
- индескация чем чаще тем лучше
- морфология
Посоветуйте из собственной практики что лучше выбрать, + и -, скорость работы

www.searchinform.ru

Правда это если рассматриваете платный вариант и нужен комп под виндой.

Поддерживаются любые sql базы данных По цене будет для таких объемов явно дешевле чем yandex server. По скорости -- вы можете откачать desktop trial и сами протестить на своей БД. В серверной версии скорость быдет не хуже. Думаю скорость приятно порадует

pelvis:
Leom, вот уже более полугода прошло со времени нашего последнего с Вами спора. Покажите пример реализованного поиска, пожалуйста.
Я Вам как не верил, так и не верю.

У заказчиков все работает. И если у Вас есть потенциальный заказчик то велкам в один из наших офисов или Минский или Московский и ему все продемонстрируют, а если надо то выедут на его территорию все установят и продемонстрируют.

Если вы потенциальный заказчик то велкам, а если просто любопытсвующий то сорри мои менеджеры время на Вас тратить не станут.

Всего: 125