Поймите меня правильно, расчитать вероятность коллизий - Поисковые технологии

354

Artisan

24 апреля 2005, 21:03

#21

Как писал lagif
Interitus,
Вероятность снизится, но не исчезнет.

На самом деле все еще хуже и для некоторых задач может получиться полный ужас но это уже тема не для широкой публики.

www.leak.info / ДАРОМ линки конкурентов и забытых доменов

AA

70

AlexA

26 апреля 2005, 08:11

#22

Ну не так уж все страшно.

Все это задачи решаемые (и, главное, решенные).

С уважением, Антонов Александр.

354

Artisan

26 апреля 2005, 08:38

#23

Как писал AlexA
Ну не так уж все страшно.
Все это задачи решаемые (и, главное, решенные).

Блажен, кто верует,

тепло ему на свете,

...

AA

70

AlexA

26 апреля 2005, 09:21

#24

Согласен, можно верить и не верить.

А система ловли дублей, в одной из частей которой применен CRC32, работает у нас уже довольно давно. На базе - около сотни гиг.

C

277

Chukcha

26 апреля 2005, 10:14

#25

Если действительно нужно знать только истинность данных, то можно применить и CRC32

R

37

Rusl

26 апреля 2005, 14:47

#26

В принципе мне как раз и нужно отловить дубли на выборке. Выборка довольно большая (какая именно пока сказать трудно, еще не окончательно сформирована).

ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.

354

Artisan

26 апреля 2005, 14:58

#27

Как писал Rusl
ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.

Вы для начала задачу толком сформулируйте хотя бы для себя, а если спрашиваете совета то и для тех у кого спрашиваете, здесь далеко не все так просто как можно подумать, и не надейтесь на то что все очень хотят бесплатно делиться своими знаниями, особенно если спрашивающий не делится точной постановкой задачи.

R

37

Rusl

26 апреля 2005, 15:14

#28

Как писал Artisan

Вы для начала задачу толком сформулируйте хотя бы для себя, а если спрашиваете совета то и для тех у кого спрашиваете, здесь далеко не все так просто как можно подумать, и не надейтесь на то что все очень хотят бесплатно делиться своими знаниями, особенно если спрашивающий не делится точной постановкой задачи.

Поймите меня правильно, самому расчитать вероятность не большая проблема. Проблема понять алгоритм CRC32, для того чтобы эту вероятность расчитать.

Насчет постановки задачи. Пытаюсь чистить выборку и удалять дублирующую информацию (точнее дубликаты и почти-дубликаты), с помощью шинглов. Соответственно, здесь и необходимо хэширование.

354

Artisan

26 апреля 2005, 15:24

#29

Как писал Rusl
Проблема понять алгоритм CRC32, для того чтобы эту вероятность расчитать. Пытаюсь чистить выборку и удалять дублирующую информацию (точнее дубликаты и почти-дубликаты), с помощью шинглов. Соответственно, здесь и необходимо хэширование.

CRC любой разрядности предназначена для контроля целостности а не для хэширования и по определению не является равновероятной для случайной выборки данных а как раз наоборот есть существенный перекос который определяется магическим числом. Для шинглов лучше всего применять MD5 или другие подходящие для хэширования функции если эта слишком медленная для задачи. Но даже применение MD5 не гарантирует пригодность хэширования как метода вообще для всех задач а для некоторых задач результат может получиться очень забавным и совсем не таким который ожидается.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

37

Rusl

26 апреля 2005, 15:46

#30

Как писал Artisan

CRC любой разрядности предназначена для контроля целостности а не для хэширования и по определению не является равновероятной для случайной выборки данных а как раз наоборот есть существенный перекос который определяется магическим числом. Для шинглов лучше всего применять MD5 или другие подходящие для хэширования функции если эта слишком медленная для задачи. Но даже применение MD5 не гарантирует пригодность хэширования как метода вообще для всех задач а для некоторых задач результат может получиться очень забавным и совсем не таким который ожидается.

Дело в том, что работаю в Фоксе, а там уже есть готовая функция на базе CRC32. Вся проблема в вероятности. Быть может как раз в моем случае она будет вполне приемлема.

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Как закодировать фразу одним числом?