- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Потянуть-то вполне потянет, и поиск работать будет, но обновлять такой индекс из-за большого размера будет непросто. И долго.
от куда взялась цифра 100 kb?
если делать базу как все сейчас делают, т.е. хранить не слово, а ID слова и координаты, то база будет занимать намного меньше вами предполагаемого места
http://index.bigmir.net/ - смотрим статистику поиска
грубо говоря, на 1 млн страниц нужно 6 гиг, в итоге, на 1000 млн нужно всего 6 тер, а не 100
для распределенной системы это не проблема, а она по любому будет распределенной, для такого объема
А давайте посчитаем на русских доументах и реальных цифрах ;) Возьмём официальные данные Яндекса. Размер индекса Яндекс.Сервера составляет 30-50% от размера документов ( http://company.yandex.ru/technology/products/Yandex-Server/intro.xml#requirement ). Будем считать по нижней грани: 30% от 30 кб (средний размер документа в Яндексе) = 10 кб/документ. Итого 10 Тб. 100 серверов только на хранение одной копии индекса.
Теперь добавим копии всех документов. Получим ещё 30 Тб. Можем ли мы их зазиповать и уменьшить объём базы на треть - не уверен - нужно смотреть нагрузку на раззиповку и на количество пользователей, которые лезут на один сервер одновременно: может оказаться дешевле хранить несколько оригинальных копий, а не одну зипованную. Итого, с индексом 40 Тб. То есть ~400 серверов только для хранения одной копии данных. Без учёта запаса прочности на возможную поломку компов.
При этом мы забыли о пользователях. Нам же нужно ещё и для них обрабатывать данные в реальном времени. Примерно для четверти всех запросов можно сделать преиндексацию (исследование Андреем Ивановым статистики Рамблера). Этот постоянно хранящийся индекс для Яндекса, например, займёт ~20 Гб (UTF-8, первые 20 записей на запрос). Остаётся 3/4 запросов, которые уникальны по своей природе и для которых индекс нужно отстраивать в реальном времени и при весьма большой нагрузке на сервер. Здесь уже, в завасимости от нагрузки, можно понять сколько нам нужно копий индексной базы (той самой, размером в 10 Тб на копию).
Индексацию миллиарда страниц в принципе потянет любой приличный сервер, вопрос во времени.
разве что заголовки собрать.
разве что заголовки собрать.
Боюсь, даже с этим будут проблемы. 40 терабайт выкачать и обработать это сама по себе интересная многосерверная задача. А выкачать надо, иначе откуда мы ссылки-то возьмём на другие страницы ;)
Кроме того, нам же не нужны доры и спам в индексе. Значит нужна какая-то ссылочная релевантность. Хотя бы простой анализ числом и тяжестью входящих ссылок. Для этого нужны значительные вычислительные мощности.
Вопрос сумбурный, сам еще до конца не понял, что хочу.
Мысль такая: есть ли где в мире фирмы, которые располагают своими индексирующимим пауками, но продают доступ к собранной ими информации.
Вот, пожалуйста: Public Access to the Alexa Web Crawl - объём предоставляемых данных 200-300 терабайт, обновляется раз в 2 месяца. Ну и естественно на этой основе вы можете строить свой поисковик как хотите.
То есть ~400 серверов только для хранения одной копии данных.
если есть необходимость обрабатывать такой объем, плюс деньги на 400 серваков, поищите тех, кто напишет Вам бота за пять - 6 тысяч.
то есть, чтобы индексировать такой объем все равно придется делать свой поиск. иксэмэль не помощник
Итого, с индексом 40 Тб. То есть ~400 серверов только для хранения одной копии данных.
Откуда взялась цифра 400 серверов? т.е. 1 сервер может хранить только 100Gb ? А такая простая весчь как RAID не обсуждалась?
К примеру, берем 1U сервер, какой нравиться но с двухканальной сказей на борту и к ней добираем вот такое шасси. В результате имеем 14 HDD SCSI т.е. 14х300Gb ( 300Gb SEAGATE ST3300007LC Cheetah ) = 4,2 Tb на машинку. Итого, отдав 200G на служебные нужды ( ОС, ПО, и.т.д. ) получим только 10 таких машинок т.е. чуть больше одной стойки.
Существенная экономия.
поищите тех, кто напишет Вам бота за пять - 6 тысяч.
Для такой системы бот с системой хранения обойдется существенно дороже. Думаю, что только грамотная настройка такой распределенной системы потянет дороже.
Для такой системы бот с системой хранения обойдется существенно дороже. Думаю, что только грамотная настройка такой распределенной системы потянет дороже
настройка , но не бот.
Конечно, если писать бота коллективом из 25 человек за пару лет, то больше ( ламмеры рулят).
Самое дорогое всегда - обслуживание. Об этом я и написал, что написание бота несоизмеримо дешевле обслуживания кластера в 400 аппликейшенов.
Конечно, если писать бота коллективом из 25 человек
Но уж точно не один программер за неделю.
И потом 5 лет будет ошибки и недоработки выявлять и исправлять :)
Вот, пожалуйста: Public Access to the Alexa Web Crawl - объём предоставляемых данных 200-300 терабайт, обновляется раз в 2 месяца. Ну и естественно на этой основе вы можете строить свой поисковик как хотите.
- удавалось ли получить там ... аккредитацию?