Mark Adamenko

Рейтинг
16
Регистрация
02.07.2001
Должность
Менеджер по маркетингу Интернет проектов
Интересы
парашютный спорт, пиво, девушки, музыка и вообще активный отдых от компов

): Плохие новсти... Седни пришлось запретить доступ к документам роботу Turtle - валил сервер(зависал каждые пол часа)! 5 обращений в секунду от одного робота это сильно! И это при том, что до этого сервер справлялся с нагрузкой стабильно. Нет конечно виноват скорее всего неправильно настроенный сервер(Lotus Domino), несколько сайтов на одном сервере, другие причины... но факт остается фактом - до выяснения этих причин, исправления, установки нового сервера, распаралеливания нагрузки доступ к этому роботу закрыт!)))%

Первоначальное сообщение от p0stgun

имхо, "ребята из Стека" расчитывают на то, что часть нагрузки ляжет на партнеров, к примеру - провайдеров, которые будут индексировать собственные ресурсы, тем самым предоставляя базу практически на халяву... Заработает такая схема или нет - увидим.

Вот это как раз заработать должно - это же самим участникам выгодно(% Вот смогут ли раскрутиться, другой вопрос - тут правы представители Яндекса и Рамблера - у Черепахи нету имени...

Ну чтож... Остается согласиться с мнением аудитории. Среди моих знакомых и сотрудников тоже не нашлось человека однозначно поддерживающего мою точку зрения! ): Действительно, как показывает практика практически всегда надежней ставить опробованное оборудование от надежного поставщика... Или серьезно заниматься изготовлением собственного...

(; Вот выложили бы Stack бизнес план!

P.S. И все же меня гложут сомнения... (:

IDE RAID

Возможно, вы уже слышали о компаниях, производящих недорогие RAID-системы на основе IDE-дисков: Bering и Antrone. IDE-диски намного дешевле SCSI, их стоимость составляет 50 процентов от стоимости аналогичного по стоимости SCSI-диска. Несколько изготовителей IDE-дисков теперь производят диски с частотой вращения 7,200 оборотов в минуту. До этого IDE диски имели частоту вращения 5,400 оборотов в минуту или медленнее. SCSI стандарт - 7,200 оборотов в минуту - теперь достигнут и производителями IDE дисков. Недостаток даже более значительный, чем быстродействие - синхронность выполнения операций. Один IDE-контроллер может устанавливать обмен данными максимум с двумя дисками. IDE испытывает недостаток способности выполнения асинхронных операций, то есть он не может выдавать одновременные команды обращения к целому стеку дисков сразу. Но инженеры компаний Bering и Antrone нашли способ преодолеть ограничения IDE. Это комбинированное решение, основанное на сочетании аппаратных средств и программных средств, которое поддерживает SCSI-подобное асинхронное поведение, при этом используется один IDE-чип контроллера для каждого дисковода. Такая система содержит свою внутреннюю шину, по которой происходит обмен данными между дисками и контроллером. Внешний обмен данными с сервером происходит по стандарту SCSI.

Рассматриваемые реализации RAID-систем на основе IDE-дисков обладают всеми характеристиками, присущими RAID-системам на основе SCSI-дисков: горячая замена, горячий резерв, и автоматическая регенерация. При этом общая стоимость системы снижается на десятки процентов. <b>В заключение отметим, что эффективность RAID-систем на основе IDE-дисков может в некоторых случаях даже превышать аналогичные реализации на основе SCSI-дисков. В частности такой эффект наблюдался в тесте на обработку синхронных записей, используемых диспетчерами баз данных.</b>

Автор: Trans-Ameritech

http://www.tae.ru/cgi-bin/solution/PageGenerator.pl?pgid=17&kind=1



С чего она начнет падать-то? Существуют разные типы рейдов - кто мешает поставить RAID 1 - станет дороже вдвое, но все равно дешевле чем скази массив. Это первое!
Второе - по производительности IDE винчестеры уже недалеко от их SCSI собратьев
Третье - можно поставить два аналогичных сервера и распределить нагрузку по двум серверам, и в данном случае мы все равно не сильно повысим стоимость системы.
Четвертое - в конечном итоге все зависит от архитектуры самого поисковика и от системы на которой он работает, чем грамотнее все продумано, тем больше шансов что и нагрузка на всю систему будет меньше.

нет... тут другое странно... 400 запросов за 1,5 часа... это очень неплохо!!! Особенно для Яндекса. Как бы яндекс не изменил обходчика, политику индексирования или аппаратную платформу.

Что касается различий в названиях роботов - то скорее всего это действительно разные агенты - один допустим проверяет страницы на живучесть, а другой забирает страницы.

Игорь, Вы наверное имеете ввиду дорогие промыщленные RAID массивы - они действительно дороги и в большинстве случаев действително эффективнее!!! Но не ценой!!!

Если собирать "на коленке" недорогое хранилище данных на IDE винчестерах, оно выльется именно в те же 2000-3000$

IDE RAID контроллер стоит сейчас на рынке 130-200 долларов, винчестер на 120 Гб - 200 долларов!

По производительности такие хранилища будут ненамного уступать дорогим Бренд-нейм Скази массивам, а обойдутся раз в 10 дешевле!!!

Как Вы правильно заметили Гугл использует дешевые машины и на них стоят именно IDE винчестеры. Но у Гугля другая архитектура, требующая большего кол-ва машин - в черепахе же (по описанию) архитектура не требует таких жертв.

Что касается индустриального корпуса и всех делов присущих серверам - сегодня не то время - в моде дещевые тонкие сервера - такие сервера при недостатке инвестиций можно собирать самому!!! Повторюсь, при грамотном подходе эффективность и надежность от использования такой платформы если и упадет, то не на много. А вот цена упадет в десятки, если не в сотни раз!

Учимся экономить!(:

WebMachine - интеллектуальный метапоисковый агент, производящий одновременный поиск по нескольким серверам и умеющий сохранять и обрабатывать результаты поиска.

http://www.webmachine.ru/products/wm10/description/

Кстати насчет кол-ва документов в русском сегменте сети - я так понял они оценивали состояние на 2001 год - в данный момент кол-во документов скорее всего выросло вдвое. Данные Яндекса(65 млн. документов) я считаю неверными(в силу тех ограничений о которых я писал в предыдущих сообщениях). Но как правильно написал Д.В.Крюков в описании Turtle "жизнь покажет" :-)

Итак будем считать(если не прав - поправьте):

компьютер центрального диспетчера

10 компьютеров - накопителей данных = 10x300$(описанная выше конфигурация без монитора) = 3000$

компьютер коллектора индексов(конфигурации не нашел - комп должен быть мощнее?) = накинем 700$

4 компьютера поисковых процессоров = 700$x4 = 2100$

компьютер архивного сервера = Комп 400$ + 2 Рейд контроллера - 200$ + 8x200$(8 винтов по 100-120Гб) итого = 2200$

компьютер формирования и оптимизации поисковых запросов = 700$

балансировщик нагрузок и кэш-сервер. - 2x700$ = 1400$

Итого: 3000 + 700 + 2100 + 2200 + 700 + 1400 = 10100$

Цены прикидочные и могут колебаться на пару-тройку тысяч в ту или другую сторону. Дорого?

Другое дело каналы связи, электричество, аренда помещения, конденционирование. Тысяч 100-200 итого выйдет. Но это если начинать с нуля, но у Stack уже сложившаяся инфраструктура, не правда ли?

123 4
Всего: 32