Как закодировать фразу одним числом?

1 234
Artisan
На сайте с 04.03.2005
Offline
354
#21
Как писал lagif
Interitus,
Вероятность снизится, но не исчезнет.

На самом деле все еще хуже и для некоторых задач может получиться полный ужас но это уже тема не для широкой публики.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
AA
На сайте с 16.04.2001
Offline
70
#22

Ну не так уж все страшно.

Все это задачи решаемые (и, главное, решенные).

С уважением, Антонов Александр.
Artisan
На сайте с 04.03.2005
Offline
354
#23
Как писал AlexA
Ну не так уж все страшно.
Все это задачи решаемые (и, главное, решенные).

Блажен, кто верует,

тепло ему на свете,

...

AA
На сайте с 16.04.2001
Offline
70
#24

Согласен, можно верить и не верить.

А система ловли дублей, в одной из частей которой применен CRC32, работает у нас уже довольно давно. На базе - около сотни гиг.

C
На сайте с 04.02.2005
Offline
277
#25

Если действительно нужно знать только истинность данных, то можно применить и CRC32

R
На сайте с 29.04.2003
Offline
37
#26

В принципе мне как раз и нужно отловить дубли на выборке. Выборка довольно большая (какая именно пока сказать трудно, еще не окончательно сформирована).

ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.

Artisan
На сайте с 04.03.2005
Offline
354
#27
Как писал Rusl
ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.

Вы для начала задачу толком сформулируйте хотя бы для себя, а если спрашиваете совета то и для тех у кого спрашиваете, здесь далеко не все так просто как можно подумать, и не надейтесь на то что все очень хотят бесплатно делиться своими знаниями, особенно если спрашивающий не делится точной постановкой задачи.

R
На сайте с 29.04.2003
Offline
37
#28
Как писал Artisan


Вы для начала задачу толком сформулируйте хотя бы для себя, а если спрашиваете совета то и для тех у кого спрашиваете, здесь далеко не все так просто как можно подумать, и не надейтесь на то что все очень хотят бесплатно делиться своими знаниями, особенно если спрашивающий не делится точной постановкой задачи.

Поймите меня правильно, самому расчитать вероятность не большая проблема. Проблема понять алгоритм CRC32, для того чтобы эту вероятность расчитать.

Насчет постановки задачи. Пытаюсь чистить выборку и удалять дублирующую информацию (точнее дубликаты и почти-дубликаты), с помощью шинглов. Соответственно, здесь и необходимо хэширование.

Artisan
На сайте с 04.03.2005
Offline
354
#29
Как писал Rusl
Проблема понять алгоритм CRC32, для того чтобы эту вероятность расчитать. Пытаюсь чистить выборку и удалять дублирующую информацию (точнее дубликаты и почти-дубликаты), с помощью шинглов. Соответственно, здесь и необходимо хэширование.

CRC любой разрядности предназначена для контроля целостности а не для хэширования и по определению не является равновероятной для случайной выборки данных а как раз наоборот есть существенный перекос который определяется магическим числом. Для шинглов лучше всего применять MD5 или другие подходящие для хэширования функции если эта слишком медленная для задачи. Но даже применение MD5 не гарантирует пригодность хэширования как метода вообще для всех задач а для некоторых задач результат может получиться очень забавным и совсем не таким который ожидается.

R
На сайте с 29.04.2003
Offline
37
#30
Как писал Artisan


CRC любой разрядности предназначена для контроля целостности а не для хэширования и по определению не является равновероятной для случайной выборки данных а как раз наоборот есть существенный перекос который определяется магическим числом. Для шинглов лучше всего применять MD5 или другие подходящие для хэширования функции если эта слишком медленная для задачи. Но даже применение MD5 не гарантирует пригодность хэширования как метода вообще для всех задач а для некоторых задач результат может получиться очень забавным и совсем не таким который ожидается.

Дело в том, что работаю в Фоксе, а там уже есть готовая функция на базе CRC32. Вся проблема в вероятности. Быть может как раз в моем случае она будет вполне приемлема.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий