Базы данных поисковиков и не только

12
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#11
56 серверов у Яндекса, если не ошибаюсь.

Ошибаетесь. Всего в серверном зале - 160. Под роботами - 7, под поиском - 30.

Сколько человек работает в Яндексе? Когда был там, не удосужился посчитать. Не очень много. В Гугле больше - около 200.

В Яндексе более сотни, по утверждениям аборигенов. :).

M
На сайте с 23.08.2001
Offline
74
#12
Как писал Gray

Ошибаетесь. Всего в серверном зале - 160. Под роботами - 7, под поиском - 30.

Так оказывается на яндексе только 23% серверов заняты поиском ?? Остальные это народ, почта и тестовые сервера?? Так вроде получается.

Но что-то отошли от темы.

Я тоже не думаю, что при поиске используются какие-то стандартные SQL сервера, но думаю, что некоторое подобие их есть, но очень специфическое, так что сервером баз данных, в привычном для людей виде, их вряд-ли назвать можно.

Но они несомненно нужны, как-раз для кластеризации, кэширования, на относительно низком уровне, борьбе с коллизиями и подобным вещам,

C уважением, Михаил. http://mike.nov.ru/ (http://mike.nov.ru/)
vmegap
На сайте с 03.02.2002
Offline
158
#13
Как писал Gray

Ошибаетесь. Всего в серверном зале - 160. Под роботами - 7, под поиском - 30.

Охотно верю !

В Яндексе более сотни, по утверждениям аборигенов. :).

Gray, а где они там все помещаются?

Сто человек, это же уйма народу. Да и стаканов на кухне у них явно не сотня... Или они кофе пить со своими стаканами ходят? ;)

С уважением,

Виктор

Н
На сайте с 13.04.2003
Offline
0
#14

Ндаа, а чтож делать нам?(простым обывателям) Если писать большой проект наподобе поисковой системы - где требуется обрабатывать большие обемы данных и кучи кучи подключений?? какую базу брать?(не писать же ее самому) MSSQL не подходит, надо под *nix, Oracle не по корману... Что нить наподобе MySQL и PostgreSQL с транзакциями

Извините если наоффтопил( Незнаю как быть:(

з.ы. Оппа, оказывается в поисковых системах собственные разработки.

Вопрос снимается - потопал у DBA спрашивать что лучше.

I
На сайте с 15.12.2000
Offline
80
#15

По людям:

У нас 80 в офисе, еще 20 - вне офиса. При этом спектр нашего софта пошире (хостинг, почта), плюс мы сами себе портал, то есть продаем много разной рекламы. Программистов у нас - 30 человек. Подробнее см ответы журналу "Системный Администратор" (http://www.webclub.ru/events/searchenginequestions/).

В Гугле 300 сотрудников было больше год назад и они активно нанимали и нанимают. И прикупили несколько компаний за последнее время. И открыли офис в Ирландии. В общем там сейчас человек 500-700 (по моим оценкам (можно еще порыться здесь: http://www.google.com/jobs/great-people-needed.html)

Теперь по железу. Сейчас у нас 40 бэкендов (неделю назад случился переход с 30 на 40) и 15 фронтендов на поиске. Мы выдаем 6 миллионов страниц с поисковыми результататми в сутки по базе из почти 100 миллионов уникальных документов.

У Гугля 250 миллионов страниц с выдачей в день (см searchenginewatch) 54000 компьютеров (см блог гугля) и база в 3 миллиарда страниц.

OFF: Правда я не уверен, что 3 миллиарда - это "полные тексты". Раньше в это число Гугль для пущего "пиара" включал документы, известные только по ссылкам. Но потом кажется было "пиар-бодание" с Фастом, возможно что подсчет внешних ссылок отменили...)

Если помножить и разделить, то как раз получается все более-менее пропорционально: 10-15 (миллионов документов * миллионов запросов) на 1 сервер в день. (Я встречал и цифры в духе 20, исходящие от Фаста, но там кажется координатный поиск не полностью в то время работал).

О компьютере. И у наc и у Гугля (см блог) типовой комп: слим?, 2 процессора, 3-4 диска (то количество, которое влезает в слим). Такие машины наверное лучшее предложение по соотношению производительность/цена. Не забывайте и про стоимость размещения, (в цену толстых корпусов входит дополнительные кондиционирование, помещение, электричество и т.д. и т.п.). Однопроцессорные не сильно дешевле двухпроцессорных. Четырехпроцессорные намного дороже.

Про иные службы (не-поиск)

В яндексе их довольно много: Народ, почта, баннерная крутилка, открытки и т.п. Все они требуют железа. Плюс есть еще и робот. "На круг" у нас примерно 170 машин.

У гугля тоже есть не-поисковые службы, но в общем количестве серверов их процент очень мал. Почему я так думаю, могу объяснить. Всегда требуется некоторое начальное количество серверов, необходимое для "сетапа", а остальное обычно определяется трафиком. Трафик на поиске в десятки раз превосходит трафик на "группах".

С уважением,

Илья

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий