Зачем хранить страницы на сриммерах? - Doorways & Cloaking - Практические вопросы оптимизации

51

AESCBC192

27 января 2017, 06:39

#121

Lastwarrior:
У Гугла по всему свету разбросаны десятки тысяч самых современных серверов и это не считая железа под Ютуб, поэтому места у него более чем достаточно, чтобы хранить данные еще на 10 лет вперед.

Очень похоже что так и есть.

Нужно посчитать примерное количество страниц в сети в пересчете на терабайты дискового пространства, тогда можно будет понять на каком уровне какие фильтры работают.

---------- Добавлено 27.01.2017 в 09:42 ----------

Nickolay365:
страницы может быть n ревизий, так как гугл бот может скачать страницу n раз

Дифы хранить может, скорее всего так и есть, страница и по ней архив с дифами по датам.

---------- Добавлено 27.01.2017 в 09:49 ----------

Nickolay365:
какой смысл тратить на него место на ssd

таймменеджмент, на таких количествах поисковых запросов, хранить на сриммерах означает понизить наработку на отказ всей системы, а ревизии и перезапуски на таких масштабах обходятся дороже чем хранение даже на RAID SSD, на энтерпрайзе это очень сильно снизит экономический эффект всего решения, фактически он станет отрицательным.

Стриммеры тоже могут быть, в качестве бэкап-системы, но хранить на них страницы нецелесообразно, скорее логи.

большая ёмкость;
низкая стоимость и широкие условия хранения информационного носителя;
стабильность работы;
надёжность;
низкое энергопотребление у ленточной библиотеки большого объёма.

Однако, четыре из протестированных SSD вышли из строя до достижения рубежа в 1 петабайт записанной информации или сразу после него.

Очень похоже что долговременные бэкап-хранилища таки на стримерах, так что версия вполне правдоподобна.

UPD Если добавить систему прогнозирования времени запросов на нейронке, подключить прогнозирующий AI тем самым скоменсировав относительно низкую скорость доступа - можно даже весь архив харнить на стримерах, с перегрузкой в прокси на SSD перед ожидаемым запросом, с учетом надежности последних - скорее всего крупные хранилища работают именно на таком принципе.

UPD Но наиболее вероятно они на данный момент хранят данные в кубитах (q-bit) и используют квантовые вычислителньые системы для обработки запросов, такие системы уже появлись в продаже, соответствено у них они появились раньше, потому как обеспечить скоростно доступ и прогнозирование запросов на объемах в петабайты и при этом обеспечить ту скорость с которой Google отображаетет выдачу малореалистично.

Новость по теме: ... Так же на основе этой же системы искусственного интеллекта специалисты компании Google собираются создать новые квантовые алгоритмы высокоэффективной поисковой системы

Google представил 72-кубитный квантовый 2 диска на сервере Google представил корпоративную версию

151

_Snake_

27 января 2017, 09:08

#122

Nickolay365:
хранить их совсем необязательно. как делает гугл - не знаю

Так может не гадать? Может в выдаче есть ответ? :)

---------- Добавлено 27.01.2017 в 12:13 ----------

Nickolay365:
у каждой страницы может быть n ревизий

Нет, им это и не нужно. Они занимаются поиском актуальной информации, а не хранением архивов кто, когда, что писал.

1

Выход из песочницы нового Помогите с mysql join Почему тИЦ не растет.

[Удален]

27 января 2017, 09:38

#123

_Snake_:
Так может не гадать? Может в выдаче есть ответ? :)

не знаю. как это понять?

151

_Snake_

27 января 2017, 10:22

#124

Nickolay365:
не знаю. как это понять?

[Удален]

27 января 2017, 12:02

#125

_Snake_:

это понятно. предыдущие ревизии как можно посмотреть?

151

_Snake_

27 января 2017, 12:12

#126

Nickolay365:
это понятно. предыдущие ревизии как можно посмотреть?

А для каких целей они нужна ПС?

T

120

Tecak

27 января 2017, 12:28

#127

если бы гугл хранил все сайты, которые когда-либо сканил его бот, он бы просто охренел...

думаю, именно по этому дор, вылетевший из серпа, залетает обратно, если ему просто сменить урл.

если страница уже не актуальна для выдачи - зачем ее хранить?

1

Дешевые VDS - Дешевле некуда! (http://0ll0.ru/4Ta9y)

Причины нелюбви Яндекса к Совет: как улучшить индексацию У кого АГС не

[Удален]

27 января 2017, 12:59

#128

Tecak:
если бы гугл хранил все сайты, которые когда-либо сканил его бот, он бы просто охренел...
думаю, именно по этому дор, вылетевший из серпа, залетает обратно, если ему просто сменить урл.
если страница уже не актуальна для выдачи - зачем ее хранить?

у гугла могут быть разные задачи. для некоторых из них могут быть актуальны разные версии страниц

151

_Snake_

27 января 2017, 13:01

#129

Nickolay365:
у гугла могут быть разные задачи. для некоторых из них могут быть актуальны разные версии страниц

Назови хоть одну?

[Удален]

27 января 2017, 13:21

#130

_Snake_:
Назови хоть одну?

например, такая же для которой нужно записывать и хранить телефонные звонки

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Новый нейротопик