- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева

Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
У Гугла по всему свету разбросаны десятки тысяч самых современных серверов и это не считая железа под Ютуб, поэтому места у него более чем достаточно, чтобы хранить данные еще на 10 лет вперед.
Очень похоже что так и есть.
Нужно посчитать примерное количество страниц в сети в пересчете на терабайты дискового пространства, тогда можно будет понять на каком уровне какие фильтры работают.
---------- Добавлено 27.01.2017 в 09:42 ----------
страницы может быть n ревизий, так как гугл бот может скачать страницу n раз
Дифы хранить может, скорее всего так и есть, страница и по ней архив с дифами по датам.
---------- Добавлено 27.01.2017 в 09:49 ----------
какой смысл тратить на него место на ssd
таймменеджмент, на таких количествах поисковых запросов, хранить на сриммерах означает понизить наработку на отказ всей системы, а ревизии и перезапуски на таких масштабах обходятся дороже чем хранение даже на RAID SSD, на энтерпрайзе это очень сильно снизит экономический эффект всего решения, фактически он станет отрицательным.
Стриммеры тоже могут быть, в качестве бэкап-системы, но хранить на них страницы нецелесообразно, скорее логи.
большая ёмкость;
низкая стоимость и широкие условия хранения информационного носителя;
стабильность работы;
надёжность;
низкое энергопотребление у ленточной библиотеки большого объёма.
Очень похоже что долговременные бэкап-хранилища таки на стримерах, так что версия вполне правдоподобна.
UPD Если добавить систему прогнозирования времени запросов на нейронке, подключить прогнозирующий AI тем самым скоменсировав относительно низкую скорость доступа - можно даже весь архив харнить на стримерах, с перегрузкой в прокси на SSD перед ожидаемым запросом, с учетом надежности последних - скорее всего крупные хранилища работают именно на таком принципе.
UPD Но наиболее вероятно они на данный момент хранят данные в кубитах (q-bit) и используют квантовые вычислителньые системы для обработки запросов, такие системы уже появлись в продаже, соответствено у них они появились раньше, потому как обеспечить скоростно доступ и прогнозирование запросов на объемах в петабайты и при этом обеспечить ту скорость с которой Google отображаетет выдачу малореалистично.
Новость по теме: ... Так же на основе этой же системы искусственного интеллекта специалисты компании Google собираются создать новые квантовые алгоритмы высокоэффективной поисковой системы
хранить их совсем необязательно. как делает гугл - не знаю
Так может не гадать? Может в выдаче есть ответ? :)
---------- Добавлено 27.01.2017 в 12:13 ----------
у каждой страницы может быть n ревизий
Нет, им это и не нужно. Они занимаются поиском актуальной информации, а не хранением архивов кто, когда, что писал.
Так может не гадать? Может в выдаче есть ответ? :)
не знаю. как это понять?
не знаю. как это понять?
это понятно. предыдущие ревизии как можно посмотреть?
это понятно. предыдущие ревизии как можно посмотреть?
А для каких целей они нужна ПС?
если бы гугл хранил все сайты, которые когда-либо сканил его бот, он бы просто охренел...
думаю, именно по этому дор, вылетевший из серпа, залетает обратно, если ему просто сменить урл.
если страница уже не актуальна для выдачи - зачем ее хранить?
если бы гугл хранил все сайты, которые когда-либо сканил его бот, он бы просто охренел...
думаю, именно по этому дор, вылетевший из серпа, залетает обратно, если ему просто сменить урл.
если страница уже не актуальна для выдачи - зачем ее хранить?
у гугла могут быть разные задачи. для некоторых из них могут быть актуальны разные версии страниц
у гугла могут быть разные задачи. для некоторых из них могут быть актуальны разные версии страниц
Назови хоть одну?
Назови хоть одну?
например, такая же для которой нужно записывать и хранить телефонные звонки