snoopckuu

snoopckuu
Рейтинг
34
Регистрация
26.02.2006
Должность
Директор.
Интересы
Snowboarding
умнее яндекса.

в бэте, поиск сейчас работает по Беларуси и Украине.

Тут я, болел сильно.

Из аськи выпадаю из-за переезда.

Если есть вопросы стучите отвечу.

А вообщем для таких вопросов есть Личные.

Netsah, не судите, судимым не будите. Вы даже со мной не общались а выводы такие делаете не хорошо.

alexf2000, хм, я вас немного не допонял, вы хотите сказать что на одном сервере нельзя разместить 80 млн документов и нормально на нём искать( до 2 сек) ?

itman, абсолютно с вами согласен.

У меня есть знаокмые для которыз интернет это яндекс.

И если сейчас яндексу рубануть 50% Базы 90% юзеров этого даже не заметят поверьте :)

А по вопросу это конечно не http Запрос а свой порт x на который подоётся запрос и от него ответ, не успел - до свидания.

так же стоит сервер который равномерно распределяет нагрузки между search серверами.

alexf2000,

удя по публикуемым данным, крупные поисковики работают на вполне обычных серверах, с дисками размером в десятки ГБ (максимум пару сотен), а не на монстрах с терабайтами дискового пространства.

Можно ссылку на первоисточник?

Насчёт топологии запроса - к тому моменту когда Гугл перестал показывать, сколько документов у него проиндексировано - там их было порядка 10 миллиардов, это где-то около 2500 машин по 100-200 ГБ.

Кто вам такую чушь сказал?

И ещё вопрос вы что нибудь о поиске с прунингом слышали?

Буду стараться ответить частями, если что то пропущу сразу хочу попросить прощения.

snoopckuu:
dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.


Просто интересно в чем невыгодность.

В том что Mysql пожирает гораздо больше ресурсов при меньшем кол-ве документов чем своя файловая система, тоесть документов меньше - расход ресурсов больше.

Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).

Во-первых хотелось бы сразу уточнить, кто устанавливал какие то как вы выразились "обычный конфигурации" сервера, стандартов нету хочу 200гб хочу 500, если ставить скази интэрефейс то 1 тб держать можно без всяких потерь, но ваши потсчёты по поводу 2 терабайт не верны, тут абсолютно правильно сказал один из моих самых любимых разработчиков(в хорошем смысле слова, так как он очень открыт для общения) itman

Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.........
В принципе snoopckuu все абсолютно правильно сказал.
Единственное что стоит дополнительно заметить

Спасибо за согласие :), но дополнение тут особо не по сути, но всеравно спасибо.

Я повторюсь, что большая поисковая система которой нужен нормальный кластер как правило пишется своя файловая система, своя архивация данных и свой http сервер.

Задача очень не простая и в целом я считаю что вопрос задан не вполне корректно. Для каких целей вам нужна многосерверность может быть мы их мухи слона делаем а там и вовсе 80 млн которые можно запихнуть на один сервер?

alexf2000, какой мухлёж? Да вы что? :) Я разрабатываю поисковые механизмы уже больше 6 лет, но дело не в этом, обманывать мне не интересно да и не имеет смысла, рассказываю подробно берём информацию из разных источников, берём вэбальту главная страница поисковика и видим

Всего проиндексировано 363 844 949 документов объёмом 9 573Гб

9.5 тб на 363 844 949 документа это чисто сколько весят документы, после индексирования и сжатия в индекс они занимают на 20% меньше.

Берём яндекс

В поиске Яндекса сегодня
сайтов: 2 989 110,
веб-страниц: 1 099 622 535,
объем проиндексированной
информации: 26 960 ГБ.

так что физически хватит ~6 серверов по 4.3тб для того что бы поместить весь рунет проиндексированный яндексом без архивирования, но вам не хватит других мощностей для произведения поиска по этому индексу.

Более менее ясно?

dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.

alexf2000, интернет индексируется самый обычный который есть у всех :) индексировался кусками, сейчас проиндексировано 100% байнета и ~35% укр-нэта.

Внесу ясность, деление на буквы - глупости такого нету.

250 сероверов для миллиарда глупости, лично я засовывал на 1 сервер 83млн документов. Сохранённые копии ужимаются до ~37-45%.

Поиск идёт по нескольким системам векторным и т.д.

запросы на http-сервера конечно не идут, как правило в большой поисковой системе используется своя фалойвая система для сохранения копий одна для индекса - другая, впринципе это можно сравнить как в винде NTFS, FAT32... http-сервер тоже не используется Apache, а свой сервер который работает напрямую с кластером и файловой системой.

Более подробно можно узнать об этом начав ставить nutch в кластер по системе haddop. выглядит это примерно так:

Такой кластер использует поисковая система Google.

Если есть ещё какие то вопросы - задавайте, просто писал в попыхах.

Ekaterina_M, а почему телефон белорусский.

Может можно в минске встретиться?

Очень интересно.

Всего: 394