): Плохие новсти... Седни пришлось запретить доступ к документам роботу Turtle - валил сервер(зависал каждые пол часа)! 5 обращений в секунду от одного робота это сильно! И это при том, что до этого сервер справлялся с нагрузкой стабильно. Нет конечно виноват скорее всего неправильно настроенный сервер(Lotus Domino), несколько сайтов на одном сервере, другие причины... но факт остается фактом - до выяснения этих причин, исправления, установки нового сервера, распаралеливания нагрузки доступ к этому роботу закрыт!)))%
Вот это как раз заработать должно - это же самим участникам выгодно(% Вот смогут ли раскрутиться, другой вопрос - тут правы представители Яндекса и Рамблера - у Черепахи нету имени...
Ну чтож... Остается согласиться с мнением аудитории. Среди моих знакомых и сотрудников тоже не нашлось человека однозначно поддерживающего мою точку зрения! ): Действительно, как показывает практика практически всегда надежней ставить опробованное оборудование от надежного поставщика... Или серьезно заниматься изготовлением собственного...
(; Вот выложили бы Stack бизнес план!
P.S. И все же меня гложут сомнения... (:
IDE RAID
Возможно, вы уже слышали о компаниях, производящих недорогие RAID-системы на основе IDE-дисков: Bering и Antrone. IDE-диски намного дешевле SCSI, их стоимость составляет 50 процентов от стоимости аналогичного по стоимости SCSI-диска. Несколько изготовителей IDE-дисков теперь производят диски с частотой вращения 7,200 оборотов в минуту. До этого IDE диски имели частоту вращения 5,400 оборотов в минуту или медленнее. SCSI стандарт - 7,200 оборотов в минуту - теперь достигнут и производителями IDE дисков. Недостаток даже более значительный, чем быстродействие - синхронность выполнения операций. Один IDE-контроллер может устанавливать обмен данными максимум с двумя дисками. IDE испытывает недостаток способности выполнения асинхронных операций, то есть он не может выдавать одновременные команды обращения к целому стеку дисков сразу. Но инженеры компаний Bering и Antrone нашли способ преодолеть ограничения IDE. Это комбинированное решение, основанное на сочетании аппаратных средств и программных средств, которое поддерживает SCSI-подобное асинхронное поведение, при этом используется один IDE-чип контроллера для каждого дисковода. Такая система содержит свою внутреннюю шину, по которой происходит обмен данными между дисками и контроллером. Внешний обмен данными с сервером происходит по стандарту SCSI.
Рассматриваемые реализации RAID-систем на основе IDE-дисков обладают всеми характеристиками, присущими RAID-системам на основе SCSI-дисков: горячая замена, горячий резерв, и автоматическая регенерация. При этом общая стоимость системы снижается на десятки процентов. <b>В заключение отметим, что эффективность RAID-систем на основе IDE-дисков может в некоторых случаях даже превышать аналогичные реализации на основе SCSI-дисков. В частности такой эффект наблюдался в тесте на обработку синхронных записей, используемых диспетчерами баз данных.</b>
Автор: Trans-Ameritech
http://www.tae.ru/cgi-bin/solution/PageGenerator.pl?pgid=17&kind=1
нет... тут другое странно... 400 запросов за 1,5 часа... это очень неплохо!!! Особенно для Яндекса. Как бы яндекс не изменил обходчика, политику индексирования или аппаратную платформу.
Что касается различий в названиях роботов - то скорее всего это действительно разные агенты - один допустим проверяет страницы на живучесть, а другой забирает страницы.
Игорь, Вы наверное имеете ввиду дорогие промыщленные RAID массивы - они действительно дороги и в большинстве случаев действително эффективнее!!! Но не ценой!!!
Если собирать "на коленке" недорогое хранилище данных на IDE винчестерах, оно выльется именно в те же 2000-3000$
IDE RAID контроллер стоит сейчас на рынке 130-200 долларов, винчестер на 120 Гб - 200 долларов!
По производительности такие хранилища будут ненамного уступать дорогим Бренд-нейм Скази массивам, а обойдутся раз в 10 дешевле!!!
Как Вы правильно заметили Гугл использует дешевые машины и на них стоят именно IDE винчестеры. Но у Гугля другая архитектура, требующая большего кол-ва машин - в черепахе же (по описанию) архитектура не требует таких жертв.
Что касается индустриального корпуса и всех делов присущих серверам - сегодня не то время - в моде дещевые тонкие сервера - такие сервера при недостатке инвестиций можно собирать самому!!! Повторюсь, при грамотном подходе эффективность и надежность от использования такой платформы если и упадет, то не на много. А вот цена упадет в десятки, если не в сотни раз!
Учимся экономить!(:
WebMachine - интеллектуальный метапоисковый агент, производящий одновременный поиск по нескольким серверам и умеющий сохранять и обрабатывать результаты поиска.
http://www.webmachine.ru/products/wm10/description/
Кстати насчет кол-ва документов в русском сегменте сети - я так понял они оценивали состояние на 2001 год - в данный момент кол-во документов скорее всего выросло вдвое. Данные Яндекса(65 млн. документов) я считаю неверными(в силу тех ограничений о которых я писал в предыдущих сообщениях). Но как правильно написал Д.В.Крюков в описании Turtle "жизнь покажет" :-)
Итак будем считать(если не прав - поправьте):
компьютер центрального диспетчера
10 компьютеров - накопителей данных = 10x300$(описанная выше конфигурация без монитора) = 3000$
компьютер коллектора индексов(конфигурации не нашел - комп должен быть мощнее?) = накинем 700$
4 компьютера поисковых процессоров = 700$x4 = 2100$
компьютер архивного сервера = Комп 400$ + 2 Рейд контроллера - 200$ + 8x200$(8 винтов по 100-120Гб) итого = 2200$
компьютер формирования и оптимизации поисковых запросов = 700$
балансировщик нагрузок и кэш-сервер. - 2x700$ = 1400$
Итого: 3000 + 700 + 2100 + 2200 + 700 + 1400 = 10100$
Цены прикидочные и могут колебаться на пару-тройку тысяч в ту или другую сторону. Дорого?
Другое дело каналы связи, электричество, аренда помещения, конденционирование. Тысяч 100-200 итого выйдет. Но это если начинать с нуля, но у Stack уже сложившаяся инфраструктура, не правда ли?