- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Interitus,
Вероятность снизится, но не исчезнет.
На самом деле все еще хуже и для некоторых задач может получиться полный ужас но это уже тема не для широкой публики.
Ну не так уж все страшно.
Все это задачи решаемые (и, главное, решенные).
Ну не так уж все страшно.
Все это задачи решаемые (и, главное, решенные).
Блажен, кто верует,
тепло ему на свете,
...
Согласен, можно верить и не верить.
А система ловли дублей, в одной из частей которой применен CRC32, работает у нас уже довольно давно. На базе - около сотни гиг.
Если действительно нужно знать только истинность данных, то можно применить и CRC32
В принципе мне как раз и нужно отловить дубли на выборке. Выборка довольно большая (какая именно пока сказать трудно, еще не окончательно сформирована).
ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.
ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.
Вы для начала задачу толком сформулируйте хотя бы для себя, а если спрашиваете совета то и для тех у кого спрашиваете, здесь далеко не все так просто как можно подумать, и не надейтесь на то что все очень хотят бесплатно делиться своими знаниями, особенно если спрашивающий не делится точной постановкой задачи.
Вы для начала задачу толком сформулируйте хотя бы для себя, а если спрашиваете совета то и для тех у кого спрашиваете, здесь далеко не все так просто как можно подумать, и не надейтесь на то что все очень хотят бесплатно делиться своими знаниями, особенно если спрашивающий не делится точной постановкой задачи.
Поймите меня правильно, самому расчитать вероятность не большая проблема. Проблема понять алгоритм CRC32, для того чтобы эту вероятность расчитать.
Насчет постановки задачи. Пытаюсь чистить выборку и удалять дублирующую информацию (точнее дубликаты и почти-дубликаты), с помощью шинглов. Соответственно, здесь и необходимо хэширование.
Проблема понять алгоритм CRC32, для того чтобы эту вероятность расчитать. Пытаюсь чистить выборку и удалять дублирующую информацию (точнее дубликаты и почти-дубликаты), с помощью шинглов. Соответственно, здесь и необходимо хэширование.
CRC любой разрядности предназначена для контроля целостности а не для хэширования и по определению не является равновероятной для случайной выборки данных а как раз наоборот есть существенный перекос который определяется магическим числом. Для шинглов лучше всего применять MD5 или другие подходящие для хэширования функции если эта слишком медленная для задачи. Но даже применение MD5 не гарантирует пригодность хэширования как метода вообще для всех задач а для некоторых задач результат может получиться очень забавным и совсем не таким который ожидается.
CRC любой разрядности предназначена для контроля целостности а не для хэширования и по определению не является равновероятной для случайной выборки данных а как раз наоборот есть существенный перекос который определяется магическим числом. Для шинглов лучше всего применять MD5 или другие подходящие для хэширования функции если эта слишком медленная для задачи. Но даже применение MD5 не гарантирует пригодность хэширования как метода вообще для всех задач а для некоторых задач результат может получиться очень забавным и совсем не таким который ожидается.
Дело в том, что работаю в Фоксе, а там уже есть готовая функция на базе CRC32. Вся проблема в вероятности. Быть может как раз в моем случае она будет вполне приемлема.