А вы попробкуйте на одном серваке с nutch к примеру 10-15 млн страниц и увидите как медленно он работаер.
У него реальный предел 2 млн страниц и то работает медленно.
И далее насчет сервер 2-4 процв и прочего -- это вредно. За теже деньги как стоит 1 2-ух проуессорный комп можно купить 3-4 обычных компа и поставить их в кластер и будет работать ну намного быстрей.
Писать на order@searchinform.coim :)
Для того чтобы сказать стоимость надо знать сколько серверов надо ставить, соответственно каждый SearchInform Internet Server стоит денег.
А для того чтобы это оценить надо не число сайтов а ответы на следующий вопросы, хотя бы приблизительно
-- число страниц
-- общий объем htm файлов для индексации
-- раз в какойе время нало переиндексировать
-- сколько запросов в час должно отабатываться.
Не понял вопроса -- сформулируйте более четко.
Мы индексируем быстрей и ищем быстрей и соответственно железа для нас надо менее чем для nutch в 3-5 раз.
Тесты мы проводили в нашей тестовой лаборатории -- когда был 1 комп типа сервера индексирующего и еще 10 компов изображали инет. Результат был очень в нашу пользу -- именно в те 3-5 раз
А в любом проекте если вы сталкивались нормального заказчика интересеует суммарна стоимость софта + оборудования. Так вот по этой цифре мы получаемся намного дешевле nutch. И кстати именно по этой причене мы будем делать национальный поисковик для одной из республик бывшего СССР -- для кого разглашать не имею права.
Но насколько я понимаю snoopckuu вы не заказчик а коллега которы не смог сделать cвою масштабируемую систему полногтекстового поиска, посему вряд ли Ваши вопросы имеют отношение к бизнесу. Хотя если хотите глянуть как все работает в реальности и потестить то велкам в один из наших офисов.
Сейчас это города Минск, Москва. Через полгода будет еще несколько офисов.
Кстати кого реально интересует -- велкам -- мы открытая компания и готовы все показать в реалиях в одной из наих тестовых лабораторий или в Вашем офисе еслои Вы там поставите 10-15 компов.
Я считаю что компания обладающая высокотехнологичным пролуктом просто обязана давать его пощупать.:)
Насчет раскрутки не скажу. Но вот насчет разработки и поддержки могу скалькулировать если ответите на несколько вопросов
1) какой объем инфы в терабайтах надло индексировать
2) какое число запросов в час должна отрабатывать система.
Далее мы такое можем сделать на базе www.searchinform.ru и в суммарной стоимости это точно будет дешевле чем длругие решения, так как там где например для nutch надо 5-7 компов -- нам хватит 1-ого.
А в итоге если к примеру нам надо 500 компов а nutch надо 3000 компов то считаайте сами
Ну а стоимости наших серверов есть на сайте -- в большом заказе естественно будет скидка от 50% и более.
Если ответите на вопросы выше то могу озвучить стоимость разработки и число аппаратуры от СофтИнформ
www.searchinform.ru
Один не самый сильный комп с 4 гигами памяти может индексить до 50-80 млн записей и проводить полнотекстовый поиск.
Объем текстовой инфы от 1 до 5 тер. Если надо более то стаим кластер.
Поддерживается любая sql база данных.
Кому интересно пишите с вопросами на order собака searchinform.com
Сейчас нами выполняется проект где нужно консолидировать информацию для поиска из 16000 разных БД причем территориально разнесенных.
Технологии SearchInform показвают себя во всей силе в этом проекте
5 млн это еще оптимистично для mssql например -- скорость падает уже после 2 млн.
Не смешите. Ждать придется не 5 секунд а на порядок больше если использовать стандартную СУБД. Тем более вместе с результатами поиска надо вывести как минимум 10 саммари и т.д.
А если пользователь один запрос будет отрабатываться более минуты, то для корпоративки это по определению неприемлимо. Хотя бы потому что если большие объемы то это уже не 5-10 пользователей.......
Вот статистика по сайтам софткпталогов
Страниц 3,809,484
Объем инфы незаархивированной = 100,85гб
В заархивированном виде в базе = около 25 гиг
Число уникальных слов = 3,876,319
Общее число слов =1,542,537,750
Eсть готовая статистика.
За 40 часов выкачано из сети около 4 млн страниц общим размером более 100 гиг. 11 миллионов в очереди еще, а вернее стоит на проверку, так как перед финальным занесением в очередь проверяется есть ли такой урл в базе
Все это проиндексировано (входит в эти же 40 часов) и можно искать не только полнотекстовым поиском и пользоватьс в том числе и поиском похожих. Все делалось на серваке в Чикаго. Характеристики сервака p4 3.0 Памяти 2 гига винт обычная 300-а.
Тестовый набор -- порядка 1500 сайтов (софт-каталоги).
На откачанной базе скорость поиска исходя из реалий инет (15% уникальных запросов) -- в среднем порядка 20000 запросов в час.
Сейчас идет очередной раунд оптимизации скоростей -- будет работать еще быстрей. Расчетные данные на 1 комп :
- 50 млн откачанных урлов
- около терабайта инфы (только htm соответственно)
Если кому то будет интересно думаю что оченб скоро сможем дать потестить на выделенном серваке под виндой.
Также уже сейчас мы обсуждаем ряд потенциальных заказов про созданию инет поисковиков, так как наша скорость позволит по нашим прикидкам проиндексить 30 тер инфы и около миллиарда страниц и отрабатывать порядка 1 мле запросов в час всего на 400-500 средненьких компах типа amd 2.6
Планируем запустить коробочное решение (кластеризуемое конечно) с условным названием " закажи свой инет поисковий у софтинформ "☝
Кстати кому интересно приглашаем на наш стэнд на софтуле -- номер H18
Ну реально не 5 а 2,5 в секунду это реально где-то 8 гиг в час. Но тут надо учитывать что ряд серверов уже отдает в сжатом виде и после записи htm в базу это уже будет где-то 14 гиг в час. Далее умножаем 20 (с погрешностями) на 14 и получаем около 300 гиг
А комп обычный pentium с памятью 2 гига и частотой проца 3.
Стоит конкретно в одном из Чикагских датасентров. Ну естественно сервак выделенный чисто наш.
http://www.searchinform.com/site/ru/index.htm
Сейчас запускается инет релиз с неплохим краулером, который в состоянии но обычном компе с нормальным каналом откачивать и индексировать порядка 100 гиг чистого текста в сутки (это реально полтерабайта инет инфы)
Правда решение не бесплатное. :)