Комментарии - snoopckuu - Профиль вебмастера - Форум об интернет-маркетинге

А куда snoopckuu пропал?

12 октября 2006, 13:47

в бэте, поиск сейчас работает по Беларуси и Украине.

А куда snoopckuu пропал?

12 октября 2006, 13:44

Тут я, болел сильно.

Из аськи выпадаю из-за переезда.

Если есть вопросы стучите отвечу.

А вообщем для таких вопросов есть Личные.

Netsah, не судите, судимым не будите. Вы даже со мной не общались а выводы такие делаете не хорошо.

Многосерверность

2 сентября 2006, 21:20

alexf2000, хм, я вас немного не допонял, вы хотите сказать что на одном сервере нельзя разместить 80 млн документов и нормально на нём искать( до 2 сек) ?

Многосерверность

2 сентября 2006, 21:16

itman, абсолютно с вами согласен.

У меня есть знаокмые для которыз интернет это яндекс.

И если сейчас яндексу рубануть 50% Базы 90% юзеров этого даже не заметят поверьте :)

А по вопросу это конечно не http Запрос а свой порт x на который подоётся запрос и от него ответ, не успел - до свидания.

так же стоит сервер который равномерно распределяет нагрузки между search серверами.

Многосерверность

2 сентября 2006, 20:48

alexf2000,

удя по публикуемым данным, крупные поисковики работают на вполне обычных серверах, с дисками размером в десятки ГБ (максимум пару сотен), а не на монстрах с терабайтами дискового пространства.

Можно ссылку на первоисточник?

Насчёт топологии запроса - к тому моменту когда Гугл перестал показывать, сколько документов у него проиндексировано - там их было порядка 10 миллиардов, это где-то около 2500 машин по 100-200 ГБ.

Кто вам такую чушь сказал?

И ещё вопрос вы что нибудь о поиске с прунингом слышали?

Многосерверность

2 сентября 2006, 20:18

Буду стараться ответить частями, если что то пропущу сразу хочу попросить прощения.

snoopckuu:
dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.

Просто интересно в чем невыгодность.

В том что Mysql пожирает гораздо больше ресурсов при меньшем кол-ве документов чем своя файловая система, тоесть документов меньше - расход ресурсов больше.

Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).

Во-первых хотелось бы сразу уточнить, кто устанавливал какие то как вы выразились "обычный конфигурации" сервера, стандартов нету хочу 200гб хочу 500, если ставить скази интэрефейс то 1 тб держать можно без всяких потерь, но ваши потсчёты по поводу 2 терабайт не верны, тут абсолютно правильно сказал один из моих самых любимых разработчиков(в хорошем смысле слова, так как он очень открыт для общения) itman

Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.........

В принципе snoopckuu все абсолютно правильно сказал.
Единственное что стоит дополнительно заметить

Спасибо за согласие :), но дополнение тут особо не по сути, но всеравно спасибо.

Я повторюсь, что большая поисковая система которой нужен нормальный кластер как правило пишется своя файловая система, своя архивация данных и свой http сервер.

Задача очень не простая и в целом я считаю что вопрос задан не вполне корректно. Для каких целей вам нужна многосерверность может быть мы их мухи слона делаем а там и вовсе 80 млн которые можно запихнуть на один сервер?

Многосерверность

2 сентября 2006, 17:15

alexf2000, какой мухлёж? Да вы что? :) Я разрабатываю поисковые механизмы уже больше 6 лет, но дело не в этом, обманывать мне не интересно да и не имеет смысла, рассказываю подробно берём информацию из разных источников, берём вэбальту главная страница поисковика и видим

Всего проиндексировано 363 844 949 документов объёмом 9 573Гб

9.5 тб на 363 844 949 документа это чисто сколько весят документы, после индексирования и сжатия в индекс они занимают на 20% меньше.

Берём яндекс

В поиске Яндекса сегодня
сайтов: 2 989 110,
веб-страниц: 1 099 622 535,
объем проиндексированной
информации: 26 960 ГБ.

так что физически хватит ~6 серверов по 4.3тб для того что бы поместить весь рунет проиндексированный яндексом без архивирования, но вам не хватит других мощностей для произведения поиска по этому индексу.

Более менее ясно?

Многосерверность

2 сентября 2006, 11:22

dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.

alexf2000, интернет индексируется самый обычный который есть у всех :) индексировался кусками, сейчас проиндексировано 100% байнета и ~35% укр-нэта.

Многосерверность

1 сентября 2006, 21:01

Внесу ясность, деление на буквы - глупости такого нету.

250 сероверов для миллиарда глупости, лично я засовывал на 1 сервер 83млн документов. Сохранённые копии ужимаются до ~37-45%.

Поиск идёт по нескольким системам векторным и т.д.

запросы на http-сервера конечно не идут, как правило в большой поисковой системе используется своя фалойвая система для сохранения копий одна для индекса - другая, впринципе это можно сравнить как в винде NTFS, FAT32... http-сервер тоже не используется Apache, а свой сервер который работает напрямую с кластером и файловой системой.

Более подробно можно узнать об этом начав ставить nutch в кластер по системе haddop. выглядит это примерно так:

Такой кластер использует поисковая система Google.

Если есть ещё какие то вопросы - задавайте, просто писал в попыхах.

Требуется специалист по поисковым алгоритмам

29 августа 2006, 19:33

Ekaterina_M, а почему телефон белорусский.

Может можно в минске встретиться?

Очень интересно.

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Маркетинг для шоколадной фабрики. На 34% выше средний чек

snoopckuu