Stack запускает новый поисковик

1 2345 6
wolf
На сайте с 13.03.2001
Offline
1183
#21
Про требования к аппаратной платформе у них довольно хорошо расписано - для сборщика несколько машин PIII - 500-800
очень показательно, что Вы называете стоимость серверов с процессором Р3

Стоимость??? А я то думал, что цифры 500-800 означают тактовую частоту процессора.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
MA
На сайте с 02.07.2001
Offline
16
#22

... Однако сдерживающим фактором всегда являлся и является экономический фактор. В данной работе мы умышленно конфигурационно ограничили нашу систему рамками сегментов российской (вернее русскоговорящей) сети Интернет. На практике это означает, что центральный узел поисковой системы "Turtle" в текущей реализации для обработки ресурсов таких сегментов сети имеет в своем составе:

компьютер центрального диспетчера;

10 компьютеров - накопителей данных;

компьютер коллектора индексов;

4 компьютера поисковых процессоров;

компьютер архивного сервера;

компьютер формирования и оптимизации поисковых запросов;

балансировщик нагрузок и кэш-сервер.

...

Данные российского сегмента мы оценивали примерно так:

суммарная совокупность серверов - 500 тыс.

суммарное количество документов, пригодных для сканирования - 70 млн.

Как видно из приведенных цифр, мы старались минимизировать потребность в аппаратных ресурсах за счет высокого качества программных разработок. Удалось нам это или нет - жизнь покажет.

...

При внедрении подобного метода производительность одного Crawler Agent (CA) может составить примерно 500 тыс. документов в сутки при условии, что мы не модернизировали компьютер CA, в конфигурацию которого входит 64MB RAM, 600Mhz Intel Pentium процессор и недорогой IDE HDD. Время сканирования российского Интернета в таком случае составит уже 140 дней, что существенно лучше, но продолжает быть не удовлетворительным для выполнения поставленной задачи. Пока мы только пришли к выводу, что CA по своей природе должен быть многопоточным.

...

Теперь попробуем увеличить количество CA с одного до десяти. Время сканирования российской части Интернета составит в этом случае 14 дней, что вполне удовлетворительно для инерционных поисковых систем.

...

При условии, что данные на таком сервере могут храниться в компрессированном виде, нетрудно посчитать, что одного сервера с массивом RAID объемом в 500GB должно хватать примерно на коллекцию в 50 млн. документов (на практике возможно меньше, во всяком случае, мы не ошибемся сильно в порядке).

MA
На сайте с 02.07.2001
Offline
16
#23

Итак будем считать(если не прав - поправьте):

компьютер центрального диспетчера

10 компьютеров - накопителей данных = 10x300$(описанная выше конфигурация без монитора) = 3000$

компьютер коллектора индексов(конфигурации не нашел - комп должен быть мощнее?) = накинем 700$

4 компьютера поисковых процессоров = 700$x4 = 2100$

компьютер архивного сервера = Комп 400$ + 2 Рейд контроллера - 200$ + 8x200$(8 винтов по 100-120Гб) итого = 2200$

компьютер формирования и оптимизации поисковых запросов = 700$

балансировщик нагрузок и кэш-сервер. - 2x700$ = 1400$

Итого: 3000 + 700 + 2100 + 2200 + 700 + 1400 = 10100$

Цены прикидочные и могут колебаться на пару-тройку тысяч в ту или другую сторону. Дорого?

Другое дело каналы связи, электричество, аренда помещения, конденционирование. Тысяч 100-200 итого выйдет. Но это если начинать с нуля, но у Stack уже сложившаяся инфраструктура, не правда ли?

MA
На сайте с 02.07.2001
Offline
16
#24

Кстати насчет кол-ва документов в русском сегменте сети - я так понял они оценивали состояние на 2001 год - в данный момент кол-во документов скорее всего выросло вдвое. Данные Яндекса(65 млн. документов) я считаю неверными(в силу тех ограничений о которых я писал в предыдущих сообщениях). Но как правильно написал Д.В.Крюков в описании Turtle "жизнь покажет" :-)

Ashmanov
На сайте с 21.11.2000
Offline
66
#25

Не правы. Поправляю.

Вы ошибаетесь минимум на порядок, но скорее - на полтора. Ващши расчёты - это чистая фантастика.

а) Довольно простой RAID-массив с дисками на 50-100Гб стоил в 2001 году около $12,000 - 15,000.

б) Терабайтное хранилище достаточной надёжности обойдётся в многие десятки или первые сотни тысяч долларов.

г) Ваши подсчёты цены компьютеров касаются типовых PC, а не серверов. Таких цен на сервера не бывает. Самые дешёвые сервера стоят от 1000 - именно потому, что требуется "индустриальный корпус", как пишет Крюков, и прочие серверные особенности.

Ну и так далее.

Нужно вообще заметить, что описываемая архитектура системы принципиально не очень сильно отличается от яндексовской и рамблеровской, а значит, не может стоить в разы дешевле.

Принципиальное отличие архитектуры - у Гугла, где используется парк в 12-15 тыс. лёгких линуксовых машин, каждая из которых не важна и допускает горячую замену. На роль этих поисковых атомов покупаются списанные сервера разорившихся дот-комов Кремниевой долины, по 100-200 долл. Как только сбойнул - выдирают из стойки и выбрасывают.

Но и в этом случае, как легко подсчитать, серверная ферма Гугла стоит минимум несколько миллионов, не считая стоимости размещения, стоек и ТРАФИКА. При этом Гугл получил 40 миллионов инвестиций в начале и только сейчас выходит на самоокупаемость с помощью нового директора Эрика Шмидта и в основном за счёт продажи технологий.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
MA
На сайте с 02.07.2001
Offline
16
#26

Игорь, Вы наверное имеете ввиду дорогие промыщленные RAID массивы - они действительно дороги и в большинстве случаев действително эффективнее!!! Но не ценой!!!

Если собирать "на коленке" недорогое хранилище данных на IDE винчестерах, оно выльется именно в те же 2000-3000$

IDE RAID контроллер стоит сейчас на рынке 130-200 долларов, винчестер на 120 Гб - 200 долларов!

По производительности такие хранилища будут ненамного уступать дорогим Бренд-нейм Скази массивам, а обойдутся раз в 10 дешевле!!!

Как Вы правильно заметили Гугл использует дешевые машины и на них стоят именно IDE винчестеры. Но у Гугля другая архитектура, требующая большего кол-ва машин - в черепахе же (по описанию) архитектура не требует таких жертв.

Что касается индустриального корпуса и всех делов присущих серверам - сегодня не то время - в моде дещевые тонкие сервера - такие сервера при недостатке инвестиций можно собирать самому!!! Повторюсь, при грамотном подходе эффективность и надежность от использования такой платформы если и упадет, то не на много. А вот цена упадет в десятки, если не в сотни раз!

Учимся экономить!(:

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#27

Mark Adamenko

IDE винчестеры не могут

ненамного уступать дорогим Бренд-нейм Скази массивам
. Потому что уступают - и намного. Google, скорее всего, именно количеством машин перекрывает этот недостаток - в отдельности на каждую приходится не такая уж большая нагрузка и даже полный крах системы и самой машины не нанесет ущерба всему комплексу. Но, если вся система состоит из 10 машин - картина принципиально меняется. Мы уже до мелочей обсудили поведение Яндекса, когда от небольшого пика нагрузки на одном из серверов может поменяться выдача - просто потому, что одна из машин в кластере "просела" на долю секунды. А что сделается, если на одной из 10 машин умрет винт? Система попросту начнет падать - замена 10% системы по определению незаметно не сделаешь.
MA
На сайте с 02.07.2001
Offline
16
#28


С чего она начнет падать-то? Существуют разные типы рейдов - кто мешает поставить RAID 1 - станет дороже вдвое, но все равно дешевле чем скази массив. Это первое!
Второе - по производительности IDE винчестеры уже недалеко от их SCSI собратьев
Третье - можно поставить два аналогичных сервера и распределить нагрузку по двум серверам, и в данном случае мы все равно не сильно повысим стоимость системы.
Четвертое - в конечном итоге все зависит от архитектуры самого поисковика и от системы на которой он работает, чем грамотнее все продумано, тем больше шансов что и нагрузка на всю систему будет меньше.
MA
На сайте с 02.07.2001
Offline
16
#29

IDE RAID

Возможно, вы уже слышали о компаниях, производящих недорогие RAID-системы на основе IDE-дисков: Bering и Antrone. IDE-диски намного дешевле SCSI, их стоимость составляет 50 процентов от стоимости аналогичного по стоимости SCSI-диска. Несколько изготовителей IDE-дисков теперь производят диски с частотой вращения 7,200 оборотов в минуту. До этого IDE диски имели частоту вращения 5,400 оборотов в минуту или медленнее. SCSI стандарт - 7,200 оборотов в минуту - теперь достигнут и производителями IDE дисков. Недостаток даже более значительный, чем быстродействие - синхронность выполнения операций. Один IDE-контроллер может устанавливать обмен данными максимум с двумя дисками. IDE испытывает недостаток способности выполнения асинхронных операций, то есть он не может выдавать одновременные команды обращения к целому стеку дисков сразу. Но инженеры компаний Bering и Antrone нашли способ преодолеть ограничения IDE. Это комбинированное решение, основанное на сочетании аппаратных средств и программных средств, которое поддерживает SCSI-подобное асинхронное поведение, при этом используется один IDE-чип контроллера для каждого дисковода. Такая система содержит свою внутреннюю шину, по которой происходит обмен данными между дисками и контроллером. Внешний обмен данными с сервером происходит по стандарту SCSI.

Рассматриваемые реализации RAID-систем на основе IDE-дисков обладают всеми характеристиками, присущими RAID-системам на основе SCSI-дисков: горячая замена, горячий резерв, и автоматическая регенерация. При этом общая стоимость системы снижается на десятки процентов. <b>В заключение отметим, что эффективность RAID-систем на основе IDE-дисков может в некоторых случаях даже превышать аналогичные реализации на основе SCSI-дисков. В частности такой эффект наблюдался в тесте на обработку синхронных записей, используемых диспетчерами баз данных.</b>

Автор: Trans-Ameritech

http://www.tae.ru/cgi-bin/solution/PageGenerator.pl?pgid=17&kind=1

Ashmanov
На сайте с 21.11.2000
Offline
66
#30

Эти подсчёты только выглядят убедительно. Гладко на бумаге.

Попробуйте построить большую поисковую машину, столкнётесь с теакими проблемами, что разговоры об аппаратном комплексе за 10 тысяч будут вызывать только сожаление.

Я строил, мне не понравилось. Спросите ещё Сегаловича, что он думает про дешёвые волшебные палочки.

Ну как вы думаете, авторы обсуждаемого документа прямо-таки сильно умнее Брина и Пэйджа? Эти двое всё же придумали новый способ ранжирования страниц и построили самую быструю поисковую машину в мире. Они действительно сильные ребята.

А вот Рамблер - довольно традиционная машина, и новая её инкарнация - в общем, тоже.

У Гугла используется 15 000 машин. Я, кстати, спросил Брина - они используют не старые, а новые машины - сами собирают из компонентов. В фирме работают 400 человек и требуются ещё разработчики.

Понимаете, что означает 400 человек? Даже при разработке в российских условиях это минимум 200-300 тыс. долл. в месяц на офис.

А стоимость аппаратной части со стойками, маршрутизаторами - минимум десяток миллионов. Не верю, что можно сильно дешевле.

Ну и где то волшебное средство, которое позволит ребятам из Стека делать то же самое за гроши?

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий