Leom

Рейтинг
35
Регистрация
02.05.2004
itman:
Если у Вас будет пара миллионов страниц, то ставьте Nutch или Dataparksearch. Для второго поставьте режим dbmode=cache. И будет все практически бесплатно. Так, например, на http://www.43n39e.ru/ проиндексировано 400 тысяч сайтов и миллион страниц. Возьмите сервер помощнее 2-4 процессора, быстрые SCSI диски запрягите в рейде и памяти гигабайт 6-8. И будет все очень быстро работать.

А вы попробкуйте на одном серваке с nutch к примеру 10-15 млн страниц и увидите как медленно он работаер.

У него реальный предел 2 млн страниц и то работает медленно.

И далее насчет сервер 2-4 процв и прочего -- это вредно. За теже деньги как стоит 1 2-ух проуессорный комп можно купить 3-4 обычных компа и поставить их в кластер и будет работать ну намного быстрей.

CALM:
Я, господа специалисты, если позволите несколько сужу вопрос под конкретную задачу

Есть необходимость организовать поиск по заранее заданной группе сайтов (500-1000)

Вопросы:

1. Какой движок необходим ?
2. Где добыть ?
3. Сколько должен стоить ?

Заранее благодарен за ответы

Писать на order@searchinform.coim :)

Для того чтобы сказать стоимость надо знать сколько серверов надо ставить, соответственно каждый SearchInform Internet Server стоит денег.

А для того чтобы это оценить надо не число сайтов а ответы на следующий вопросы, хотя бы приблизительно

-- число страниц

-- общий объем htm файлов для индексации

-- раз в какойе время нало переиндексировать

-- сколько запросов в час должно отабатываться.

snoopckuu:
Leom, очень интересно. Ответе мне на 1 вопрос, если не тяжело, вы считаете ваше разработку лучше чем Nutch и высчитываете качество поисковика в размере использования им как вы выразились "компом", тоесть если 500 "компов" - то это дешевле и значит поиск круче?

Не понял вопроса -- сформулируйте более четко.

Мы индексируем быстрей и ищем быстрей и соответственно железа для нас надо менее чем для nutch в 3-5 раз.

Тесты мы проводили в нашей тестовой лаборатории -- когда был 1 комп типа сервера индексирующего и еще 10 компов изображали инет. Результат был очень в нашу пользу -- именно в те 3-5 раз

А в любом проекте если вы сталкивались нормального заказчика интересеует суммарна стоимость софта + оборудования. Так вот по этой цифре мы получаемся намного дешевле nutch. И кстати именно по этой причене мы будем делать национальный поисковик для одной из республик бывшего СССР -- для кого разглашать не имею права.

Но насколько я понимаю snoopckuu вы не заказчик а коллега которы не смог сделать cвою масштабируемую систему полногтекстового поиска, посему вряд ли Ваши вопросы имеют отношение к бизнесу. Хотя если хотите глянуть как все работает в реальности и потестить то велкам в один из наших офисов.

Сейчас это города Минск, Москва. Через полгода будет еще несколько офисов.

Кстати кого реально интересует -- велкам -- мы открытая компания и готовы все показать в реалиях в одной из наих тестовых лабораторий или в Вашем офисе еслои Вы там поставите 10-15 компов.

Я считаю что компания обладающая высокотехнологичным пролуктом просто обязана давать его пощупать.:)

Soul:

У ВебАльты заявленный бюджет 5 млн у.е. Вот я хотел бы прикинуть сколько из этого уйдет на разработку движка, а сколько на раскрутку?

Насчет раскрутки не скажу. Но вот насчет разработки и поддержки могу скалькулировать если ответите на несколько вопросов

1) какой объем инфы в терабайтах надло индексировать

2) какое число запросов в час должна отрабатывать система.

Далее мы такое можем сделать на базе www.searchinform.ru и в суммарной стоимости это точно будет дешевле чем длругие решения, так как там где например для nutch надо 5-7 компов -- нам хватит 1-ого.

А в итоге если к примеру нам надо 500 компов а nutch надо 3000 компов то считаайте сами

Ну а стоимости наших серверов есть на сайте -- в большом заказе естественно будет скидка от 50% и более.

Если ответите на вопросы выше то могу озвучить стоимость разработки и число аппаратуры от СофтИнформ

www.searchinform.ru

Один не самый сильный комп с 4 гигами памяти может индексить до 50-80 млн записей и проводить полнотекстовый поиск.

Объем текстовой инфы от 1 до 5 тер. Если надо более то стаим кластер.

Поддерживается любая sql база данных.

Кому интересно пишите с вопросами на order собака searchinform.com

Сейчас нами выполняется проект где нужно консолидировать информацию для поиска из 16000 разных БД причем территориально разнесенных.

Технологии SearchInform показвают себя во всей силе в этом проекте

statev:

Можно узнать, откуда это число - 5 млн.? Какая разница, сколько документов, лишь бы в базу влезли. Хоть 1 млрд. Другое дело, что скорость отработки будет ниже, чем у бинарного файла. Но можно поставить 1тыс серверов, на каждом будет работать mysql, и все прекрасно будет крутиться.

5 млн это еще оптимистично для mssql например -- скорость падает уже после 2 млн.

statev:


Все зависит от задач. Если делать большую поисковую машину с временем отработки <1 сек, да, СУБД будет тяжеловата. А если делать корпоративный поиск, где можно подождать секунд 5, скорее всего, все будет хорошо.

Не смешите. Ждать придется не 5 секунд а на порядок больше если использовать стандартную СУБД. Тем более вместе с результатами поиска надо вывести как минимум 10 саммари и т.д.

А если пользователь один запрос будет отрабатываться более минуты, то для корпоративки это по определению неприемлимо. Хотя бы потому что если большие объемы то это уже не 5-10 пользователей.......

alexf2000:
Довольно удивительно, как на 1 сервер можно впихнуть 80 миллионов документов... У него размер диска какой? И какой средний размер документа? Если со всеми архивациями он сильно меньше 10-20к, то это явно какой-то другой интернет индексируется. :)

Вот статистика по сайтам софткпталогов

Страниц 3,809,484

Объем инфы незаархивированной = 100,85гб

В заархивированном виде в базе = около 25 гиг

Число уникальных слов = 3,876,319

Общее число слов =1,542,537,750

Maxime:
Т.е. речь идёт о простом выкачивании документов из Сети и записи их в базу в сажтом виде, и никакого разбиения на слова и построения обратного индекса на этом этапе не происходит ?

Eсть готовая статистика.

За 40 часов выкачано из сети около 4 млн страниц общим размером более 100 гиг. 11 миллионов в очереди еще, а вернее стоит на проверку, так как перед финальным занесением в очередь проверяется есть ли такой урл в базе

Все это проиндексировано (входит в эти же 40 часов) и можно искать не только полнотекстовым поиском и пользоватьс в том числе и поиском похожих. Все делалось на серваке в Чикаго. Характеристики сервака p4 3.0 Памяти 2 гига винт обычная 300-а.

Тестовый набор -- порядка 1500 сайтов (софт-каталоги).

На откачанной базе скорость поиска исходя из реалий инет (15% уникальных запросов) -- в среднем порядка 20000 запросов в час.

Сейчас идет очередной раунд оптимизации скоростей -- будет работать еще быстрей. Расчетные данные на 1 комп :

- 50 млн откачанных урлов

- около терабайта инфы (только htm соответственно)

Если кому то будет интересно думаю что оченб скоро сможем дать потестить на выделенном серваке под виндой.

Также уже сейчас мы обсуждаем ряд потенциальных заказов про созданию инет поисковиков, так как наша скорость позволит по нашим прикидкам проиндексить 30 тер инфы и около миллиарда страниц и отрабатывать порядка 1 мле запросов в час всего на 400-500 средненьких компах типа amd 2.6

Планируем запустить коробочное решение (кластеризуемое конечно) с условным названием " закажи свой инет поисковий у софтинформ "☝

Кстати кому интересно приглашаем на наш стэнд на софтуле -- номер H18

!Иван FXS:
- 5 мегабайт в секунду, если я правильно поделил ... это Вы называете "обычный комп с нормальным каналом"?

Ну реально не 5 а 2,5 в секунду это реально где-то 8 гиг в час. Но тут надо учитывать что ряд серверов уже отдает в сжатом виде и после записи htm в базу это уже будет где-то 14 гиг в час. Далее умножаем 20 (с погрешностями) на 14 и получаем около 300 гиг

А комп обычный pentium с памятью 2 гига и частотой проца 3.

Стоит конкретно в одном из Чикагских датасентров. Ну естественно сервак выделенный чисто наш.

http://www.searchinform.com/site/ru/index.htm

Сейчас запускается инет релиз с неплохим краулером, который в состоянии но обычном компе с нормальным каналом откачивать и индексировать порядка 100 гиг чистого текста в сутки (это реально полтерабайта инет инфы)

Правда решение не бесплатное. :)

Всего: 125