в бэте, поиск сейчас работает по Беларуси и Украине.
Тут я, болел сильно.
Из аськи выпадаю из-за переезда.
Если есть вопросы стучите отвечу.
А вообщем для таких вопросов есть Личные.
Netsah, не судите, судимым не будите. Вы даже со мной не общались а выводы такие делаете не хорошо.
alexf2000, хм, я вас немного не допонял, вы хотите сказать что на одном сервере нельзя разместить 80 млн документов и нормально на нём искать( до 2 сек) ?
itman, абсолютно с вами согласен.
У меня есть знаокмые для которыз интернет это яндекс.
И если сейчас яндексу рубануть 50% Базы 90% юзеров этого даже не заметят поверьте :)
А по вопросу это конечно не http Запрос а свой порт x на который подоётся запрос и от него ответ, не успел - до свидания.
так же стоит сервер который равномерно распределяет нагрузки между search серверами.
alexf2000,
Можно ссылку на первоисточник?
Кто вам такую чушь сказал?
И ещё вопрос вы что нибудь о поиске с прунингом слышали?
Буду стараться ответить частями, если что то пропущу сразу хочу попросить прощения.
В том что Mysql пожирает гораздо больше ресурсов при меньшем кол-ве документов чем своя файловая система, тоесть документов меньше - расход ресурсов больше.
Во-первых хотелось бы сразу уточнить, кто устанавливал какие то как вы выразились "обычный конфигурации" сервера, стандартов нету хочу 200гб хочу 500, если ставить скази интэрефейс то 1 тб держать можно без всяких потерь, но ваши потсчёты по поводу 2 терабайт не верны, тут абсолютно правильно сказал один из моих самых любимых разработчиков(в хорошем смысле слова, так как он очень открыт для общения) itman
Спасибо за согласие :), но дополнение тут особо не по сути, но всеравно спасибо.
Я повторюсь, что большая поисковая система которой нужен нормальный кластер как правило пишется своя файловая система, своя архивация данных и свой http сервер.
Задача очень не простая и в целом я считаю что вопрос задан не вполне корректно. Для каких целей вам нужна многосерверность может быть мы их мухи слона делаем а там и вовсе 80 млн которые можно запихнуть на один сервер?
alexf2000, какой мухлёж? Да вы что? :) Я разрабатываю поисковые механизмы уже больше 6 лет, но дело не в этом, обманывать мне не интересно да и не имеет смысла, рассказываю подробно берём информацию из разных источников, берём вэбальту главная страница поисковика и видим
9.5 тб на 363 844 949 документа это чисто сколько весят документы, после индексирования и сжатия в индекс они занимают на 20% меньше.
Берём яндекс
так что физически хватит ~6 серверов по 4.3тб для того что бы поместить весь рунет проиндексированный яндексом без архивирования, но вам не хватит других мощностей для произведения поиска по этому индексу.
Более менее ясно?
dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.
alexf2000, интернет индексируется самый обычный который есть у всех :) индексировался кусками, сейчас проиндексировано 100% байнета и ~35% укр-нэта.
Внесу ясность, деление на буквы - глупости такого нету.
250 сероверов для миллиарда глупости, лично я засовывал на 1 сервер 83млн документов. Сохранённые копии ужимаются до ~37-45%.
Поиск идёт по нескольким системам векторным и т.д.
запросы на http-сервера конечно не идут, как правило в большой поисковой системе используется своя фалойвая система для сохранения копий одна для индекса - другая, впринципе это можно сравнить как в винде NTFS, FAT32... http-сервер тоже не используется Apache, а свой сервер который работает напрямую с кластером и файловой системой.
Более подробно можно узнать об этом начав ставить nutch в кластер по системе haddop. выглядит это примерно так:
Такой кластер использует поисковая система Google.
Если есть ещё какие то вопросы - задавайте, просто писал в попыхах.
Ekaterina_M, а почему телефон белорусский.
Может можно в минске встретиться?
Очень интересно.