Уменьшение размера ключа не всегда означает увеличение скорости поиска с 128 битным ключом - Веб-строительство

Хранение кеша PageRank - структура данных?

TimeBomb · 2020-07-28T15:09:47.0000000Z

Необходимо определиться со структурой хранения данных. Кто сможет помочь? Если уж совсем подробно, то хранить предполагается кеш Google PageRank. Задачка такая: Забирать PR страниц с датацентров можно не спеша (не попадая под бан по IP), а вот отдавать его придется быстро-быстро, поэтому нужно кешировать (даже не кешировать, а хранить) полученные данные. Поскольку подобный "кеш" будет валидным до следующего пересчета PR то это уже наверное и не кеш, а именно хранение. Хранить PR нужно для каждой страницы каждого сайта (подразумевается очень много). :) Вопрос состоит в том, какой принцип организации данных выбрать для того чтобы максимально быстро забирать данные? Чувствую, что хранить в БД будет хуже чем например создавать дерево прямо в файловой системе и записывать/считывать PR страницы в/из файла типа /ru/searchengines/forum/forumdisplay.php?f=60 (для любимой тут ветки "апдейты Яндекса", имеющей PR4) (ее URL: /ru/forum/search-engines/yandex );) Может кто-нибудь подведет под мои подозрения математическую базу, или делал подобное, в общем посоветуйте!

[Удален]

27 мая 2009, 12:29

#21

BoyStav:
да но для поиска значения по ключу крк 32 надо 32 шага, а по мд5 128.

думаю что в бд не все так глупо)))

182

BoyStav

27 мая 2009, 12:31

#22

bearman:
думаю что в бд не все так глупо)))

что значит глупо? это бинарные деревья и поиск с 32х битным ключом будет всегда значительна быстрее поиска с 128 битным.

119

Malcolm

27 мая 2009, 13:51

#23

BoyStav:
это бинарные деревья и поиск с 32х битным ключом будет всегда значительна быстрее поиска с 128 битным.

А если вместо CRC32 использовать в качестве хэш-функции длину URL, то получится еще быстрее? 🚬

[Удален]

27 мая 2009, 13:55

#24

Malcolm:
А если вместо CRC32 использовать в качестве хэш-функции длину URL, то получится еще быстрее? 🚬

тогда на миллион урлов вы получите МАКСИМУМ 1000 разных значений хеша, и это уже не хеш, а откровенное гавно.

вы пытаетесь выиграть на операции инсерта (~0.0001 с. = md5 в худшем случае), но потом использовать дополнительный (select, который в лучшем случае 0.0001 с. будет выполняться) каждую выборку. вы не видите в этом глупость? я вижу. либо я вас недопонимаю :)

В Management API Google Новая модель корреляции для Как работает протокол Safe

119

Malcolm

27 мая 2009, 14:42

#25

bearman:
тогда на миллион урлов вы получите МАКСИМУМ 1000 разных значений хеша, и это уже не хеш, а откровенное гавно.

Меньше. Скорее всего порядка 500, за счет ограничений на длину URL. Эт я к тому написал, что уменьшение размера ключа не всегда означает увеличение скорости поиска конечного листа дерева (конкретного URL).

Google: цепочки редиректов не Google и Bing увеличили В Google рассказали, что

[Удален]

27 мая 2009, 15:04

#26

Malcolm:
Меньше. Скорее всего порядка 500, за счет ограничений на длину URL. Эт я к тому написал, что уменьшение размера ключа не всегда означает увеличение скорости поиска конечного листа дерева (конкретного URL).

короче хватит сочинять. два хеша и 99.999% уникальность этой записи дана вам

[Удален]

27 мая 2009, 15:49

#27

BoyStav:
что значит глупо? это бинарные деревья и поиск с 32х битным ключом будет всегда значительна быстрее поиска с 128 битным.

Вот это опус. во первых бинарных деревьев там нет и никогда не было - это самая объемистая из всех древовидных структур. Почти все известные мне субд используют Б-деревья, глубина которых значительно меньше (нет, неправильно, вот так - ЗНАЧИИИИИТЕЛЬНО меньше). Кроме того, эти хеши никому нахрен не уперлись, когда над полем висит индекс. СУБД автоматически генерирует к индексному дереву еще и закрытое хеширование и сама использует хеш-доступ. Ваши текстовые поля ей только мешать будут. Вообще говоря, делать два уникальных поля в одной таблице - это высшая степень фимоза головного мозга. Вы думаете Primary key просто так называется праймари? Поиск по числу то еще быстрее чем по текстовому ключу, ага? ;)

bearman, ну тебя то куда понесло, а? =)

ЗЫ. Когда вижу этот ник, всегда вспоминаю сауспарк : "It's Manbearpig. Half a man, half a bear and half a pig".

Полный курс SEO от Практическое использование текстового анализа Машинное обучение в поиске

182

BoyStav

28 мая 2009, 09:29

#28

neolord:
Вот это опус. во первых бинарных деревьев там нет и никогда не было - это самая объемистая из всех древовидных структур. Почти все известные мне субд используют Б-деревья, глубина которых значительно меньше (нет, неправильно, вот так - ЗНАЧИИИИИТЕЛЬНО меньше). Кроме того, эти хеши никому нахрен не уперлись, когда над полем висит индекс. СУБД автоматически генерирует к индексному дереву еще и закрытое хеширование и сама использует хеш-доступ. Ваши текстовые поля ей только мешать будут. Вообще говоря, делать два уникальных поля в одной таблице - это высшая степень фимоза головного мозга. Вы думаете Primary key просто так называется праймари? Поиск по числу то еще быстрее чем по текстовому ключу, ага? ;)

bearman, ну тебя то куда понесло, а? =)

ЗЫ. Когда вижу этот ник, всегда вспоминаю сауспарк : "It's Manbearpig. Half a man, half a bear and half a pig".

ваш опус мне тоже понравился, осбенно про закрытое хеширование, ну покрайней мере я никогда такого не слышал и очень сильно сомневаюсь в реальности данного заявления.

далее никто не предлагал хранить хеш ключи как строки, это был бы верх идеотизма на мой взгляд.

далее наличие хешей значительно облегчит построение кеша в приложении.

Форум технологий Mail.Ru Group: Мэтт Каттс: ссылки, закрытые Новый алгоритм Яндекса Y1

[Удален]

28 мая 2009, 09:39

#29

MySQL опенсорсный, карты вам в руки =)

Зачем вводить хеши в базе для "кеша" в приложении? В базе есть PK, этого достаточно. А имена файлов с кешем - эт хоть обхешируйся, хотя тоже непонятно назначение. Можно применять и менее дорогостоящие функции - урл сам по себе уникален.

Посоветуйте скрипт NAMED: одна зона для Вымогательство от рег.ру

182

BoyStav

28 мая 2009, 11:00

#30

neolord:
MySQL опенсорсный, карты вам в руки =)

Зачем вводить хеши в базе для "кеша" в приложении? В базе есть PK, этого достаточно. А имена файлов с кешем - эт хоть обхешируйся, хотя тоже непонятно назначение. Можно применять и менее дорогостоящие функции - урл сам по себе уникален.

Зависит от реализации кеша приложения, я бы делал дерево, без использования стандартных хештаблиц. А вэтом случае налицие ключа фиксированной длинны и имеющегося в базе очень положительно скажется на производительности.

1) получили запрос на ПР для url

2) проверили дерево на надичие hash(url)

3) не нашли в дереве, берем из бызы выбюорку по hesh(url)

4) втыкаем результат выборки в дерево

а делать кеш с ключем в виде строки это равнозначно моментальному выстрелу в висок.

PHP тормозит str_replace Падение позиции Иерархическая структура в выдаче?

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Хранение кеша PageRank - структура данных?