- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Я не понимаю, о чём мы тут спорим? Средний размер веб документа на диске = 25к. Про это я с самого начала написал, и потом это подтвердили цитатами яндексоидов и вебальтистов.
А вопрос совсем про другое был - как происходит опрос множества независимых серверов, хранящих части целого индекса.
Индекс по определенному параметру, величина ничтожная по сравнению с размером документа.
Мы кажется на другом форуме про это уже спорили. :) Полнотекстовый индекс никак не ничтожная величина, а примерно равен по размеру самому документу.
Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.
По поводу архитектуры. Тут ИМХО два измерения.
1) Протокол опроса: corba, soap, собственный
2) Топология опроса. Варианты: линейная, когда один фронтенд сервер опраошивает все машины с индексами. Подоходит для средних сетей. Когда линейная не проходит, то нужно вводит машины второго или даже третьего эшелона, которые будут собирать промежуточные результаты. Типа, есть тысяча серверов поиска, 10 фронтенд машин и 100 промежуточных серваков, каждый из которых опрашивает 10 машин. Тогда фронтенд опрашивает десять промежуточных машин. В частности, наверное, логично, чтобы все такие машины были в одной подсети (физически в одном хабе). Тогда и задержки тоже будут минимальные.
Я не понимаю, о чём мы тут спорим? Средний размер веб документа на диске = 25к. Про это я с самого начала написал, и потом это подтвердили цитатами яндексоидов и вебальтистов.
А вопрос совсем про другое был - как происходит опрос множества независимых серверов, хранящих части целого индекса.
Буду стараться ответить частями, если что то пропущу сразу хочу попросить прощения.
dkameleon, кластер Mysql для поисковика с большим кол-вом документов не поможет - не выгоден.
Просто интересно в чем невыгодность.
В том что Mysql пожирает гораздо больше ресурсов при меньшем кол-ве документов чем своя файловая система, тоесть документов меньше - расход ресурсов больше.
Во-первых хотелось бы сразу уточнить, кто устанавливал какие то как вы выразились "обычный конфигурации" сервера, стандартов нету хочу 200гб хочу 500, если ставить скази интэрефейс то 1 тб держать можно без всяких потерь, но ваши потсчёты по поводу 2 терабайт не верны, тут абсолютно правильно сказал один из моих самых любимых разработчиков(в хорошем смысле слова, так как он очень открыт для общения) itman
Единственное что стоит дополнительно заметить
Спасибо за согласие :), но дополнение тут особо не по сути, но всеравно спасибо.
Я повторюсь, что большая поисковая система которой нужен нормальный кластер как правило пишется своя файловая система, своя архивация данных и свой http сервер.
Задача очень не простая и в целом я считаю что вопрос задан не вполне корректно. Для каких целей вам нужна многосерверность может быть мы их мухи слона делаем а там и вовсе 80 млн которые можно запихнуть на один сервер?
Мы спорим, потому что Вы высказались в духе, что обычный сервер по 80 млн документам не может выполнять запросы. Вам объяснили, почему он это может делать.
Вовсе нет, я утверждал, что один обычный сервер просто-напросто не может такого количества документов содержать, потому что дискового пространства не хватит. Судя по публикуемым данным, крупные поисковики работают на вполне обычных серверах, с дисками размером в десятки ГБ (максимум пару сотен), а не на монстрах с терабайтами дискового пространства.
Насчёт топологии запроса - к тому моменту когда Гугл перестал показывать, сколько документов у него проиндексировано - там их было порядка 10 миллиардов, это где-то около 2500 машин по 100-200 ГБ. Квадратный корень из этого даёт 50 - столько запросов должен сделать каждый сервер, чтобы за 2 шага опросить все сервера - задача если и реальная, то на грани возможного, если запросы делаются по http... Так что ясности пока не прибавилось. :)
alexf2000,
Можно ссылку на первоисточник?
Кто вам такую чушь сказал?
И ещё вопрос вы что нибудь о поиске с прунингом слышали?
Да что же тут невозможного-то???? Даже если это будет HTTP?
Каждый запрос идет с таймаутом. Кто не успел, тот опоздал. В результате, выборка иногда может зависить от того, кк сложились звезды. Так оно, обычно, и бывает.
Квадратный корень из этого даёт 50 - столько запросов должен сделать каждый сервер, чтобы за 2 шага опросить все сервера - задача если и реальная, то на грани возможного, если запросы делаются по http... Так что ясности пока не прибавилось. :)
alexf2000,
Можно ссылку на первоисточник?
Конечно можно: http://en.wikipedia.org/wiki/Google
Кто вам такую чушь сказал?
Какую именно? :)
Вы кстати так и не привели никаких расчётов в поддержку вашего высказывания (чуши, если угодно) про 80 миллионов документов на 1 обычном сервере.
И ещё вопрос вы что нибудь о поиске с прунингом слышали?
Причём тут это? Я и про NegaScout слышал и что? :) Речь шла о полном опросе индекса, без всяких скидок и оптимизаций.
itman, абсолютно с вами согласен.
У меня есть знаокмые для которыз интернет это яндекс.
И если сейчас яндексу рубануть 50% Базы 90% юзеров этого даже не заметят поверьте :)
А по вопросу это конечно не http Запрос а свой порт x на который подоётся запрос и от него ответ, не успел - до свидания.
так же стоит сервер который равномерно распределяет нагрузки между search серверами.
alexf2000, хм, я вас немного не допонял, вы хотите сказать что на одном сервере нельзя разместить 80 млн документов и нормально на нём искать( до 2 сек) ?