Хэширование слов

30

lagif

23 февраля 2005, 15:36

7847

Кто слышал или даст ссылки на объяснение или исходники?

Есть такой алгоритм кодирования, когда слово, не превышающее определенную длину можно закодировать уникальной последовательнстью из 4-5 байт/символов.

Товарищи, заранее благодарна... :)

Это тоже пройдет...

A

196

absolut

23 февраля 2005, 18:55

#1

Как вариант, можно представить символ не в байте, а в 5 битах. Этого хватит для один символов английского алфавита.

андроид ТВ (http://qway.com.ua/android_tv) и экшн камеры (qway.com.ua/action-cameras) в Украине.

J

8

Joy

24 февраля 2005, 00:27

#2

Как писал lagif
Кто слышал или даст ссылки на объяснение или исходники?
Есть такой алгоритм кодирования, когда слово, не превышающее определенную длину можно закодировать уникальной последовательнстью из 4-5 байт/символов.

Так все таки хэширование или кодирование? Первое в общем случае необратимо в то время как второе обычно предполагает обратимость.

Если хэширование то длина слова для хорошего алгоритма не важна, например md5 message digest использовать столько бит сколько надо для задачи.

работа (http://www.sobesedovanie.com/index.html) / рейтинг (http://www.Joy.by/cgi-bin/best.cgi/index.html) / знакомства (http://www.Lonely-Smiles.com/index.html)

Письмо с сайта приходит Вакансия. Весь мир. Удаленно. Некоторые страницы индексируются и

30

lagif

24 февраля 2005, 07:14

#3

Задача - из любого слова получить 4-байтное слово (другими словами уникальное для слова число) методом хэширования (необратимое тоже подойдет :))

Пошла качать и перечитывать Кнута. Там, вроде, в 3-м томе, если ничего не путаю, есть описание похожего...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

357

euhenio

24 февраля 2005, 10:35

#4

Напридумывать алгоритмов можно много, сжимающих хоть к 1 байту. :) Вопрос в слипаниях хешей для разных слов. И алгоритмы часто дают много слипаний.

Была у меня когда-то идея хеш слова строить по слогам. Их гораздо больше, чем букв, но гораздо меньше, чем слов. Может, вам пригодится.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

24 февраля 2005, 11:14

#5

Как писал lagif
Задача - из любого слова получить 4-байтное слово (другими словами уникальное для слова число) методом хэширования (необратимое тоже подойдет :))

А как оно может быть уникальным, если всего 4-байтных слов существует меньше, чем 5-байтных? 😕

30

lagif

24 февраля 2005, 12:49

#6

euhenio, У меня тоже была идея. Но вообще сейчас я все это бросила. По слогам - неплохое решение...

Interitus,

Вы хотите, чтоб на букву был 1 байт. Хе-хе...

Хэширование ж кодирует по слову, а не по букве. Возьмите 4 байта - это 32 бита. 2 в 32 степени - дофига. Сколько это получится слов?

Другой вопрос - вероятность слипания (одинакового хэша для разных слов), действительно. Ее нужно всемерно уменьшать...

Хэширование здорво индексирование ускоряет...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

24 февраля 2005, 13:07

#7

Вам наверно CRC32 в самый раз будет. :)

30

lagif

24 февраля 2005, 13:19

#8

Interitus,

Там ведь 32-битный хэш?... А вероятность совпадания хэшей не знаете какая?

357

euhenio

24 февраля 2005, 13:55

#9

Дело, в общем, не в вероятности совпадения, а в реальности.

Реальный набор слов русского языка с падежами, числами и т.п. прогоните по нескольким известным алгоритмам - и, вероятно, откажетесь от любого из них... :)

AA

70

AlexA

24 февраля 2005, 14:02

#10

Цитирую Влада Шабанова (да простит автор):

"Для 30 миллионов слов CRC32 дает примерно

тысяч 50 коллизий. Максимальное количество

слипаний в одной коллизии ~ 150."

Оригинал - 404

С уважением, Антонов Александр.

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи