Artisan

Artisan
Рейтинг
377
Регистрация
04.03.2005
Пишу программы для вычислительных машин, от драйверов устройств, до сложных систем для работы с большим количеством знаний. Умею бережно использовать железо, и другие ресурсы.

Шинглы например можно попробовать применить, почитайте тексты на Yandex корпоративном сайте, но это тоже не всегда помогает, ...

Кстати по поводу PROext рейтинга так ко мне от него почему то не приходят письма про регистрацию в рейтинге причем уже давно, ...

Как писал Rusl
Проблема понять алгоритм CRC32, для того чтобы эту вероятность расчитать. Пытаюсь чистить выборку и удалять дублирующую информацию (точнее дубликаты и почти-дубликаты), с помощью шинглов. Соответственно, здесь и необходимо хэширование.

CRC любой разрядности предназначена для контроля целостности а не для хэширования и по определению не является равновероятной для случайной выборки данных а как раз наоборот есть существенный перекос который определяется магическим числом. Для шинглов лучше всего применять MD5 или другие подходящие для хэширования функции если эта слишком медленная для задачи. Но даже применение MD5 не гарантирует пригодность хэширования как метода вообще для всех задач а для некоторых задач результат может получиться очень забавным и совсем не таким который ожидается.

Как писал Rusl
ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.

Вы для начала задачу толком сформулируйте хотя бы для себя, а если спрашиваете совета то и для тех у кого спрашиваете, здесь далеко не все так просто как можно подумать, и не надейтесь на то что все очень хотят бесплатно делиться своими знаниями, особенно если спрашивающий не делится точной постановкой задачи.

Как писал AlexA
Ну не так уж все страшно.
Все это задачи решаемые (и, главное, решенные).

Блажен, кто верует,

тепло ему на свете,

...

Го, ...

Как писал zyablik
ну хотя бы в общем? я понимаю дизайн не фонтан, но ведь это не настолько же критично!?

Надо научиться думать так как думает посетитель сайта и когда у Вас это получится тогда будут заказы.

В выдаче Ваш сайт есть, PR = 4, а по каким запросам он должен находиться?

Как писал lagif
Interitus,
Вероятность снизится, но не исчезнет.

На самом деле все еще хуже и для некоторых задач может получиться полный ужас но это уже тема не для широкой публики.

Как писал Interitus
Ну почему же! Длину побольше взять. Можно же прикинуть вероятность коллизии, зная длину хеша и число различных строк. Соответственно и снизить эту вероятность до нужной величины, увеличив длину.

Не все так просто, может быть такой набор исходных данных для которого вероятность совпадений будет намного больше средней, а вообще для решения таких задач надо знать все начальные условия и только тогда можно что то советовать.

Как писал Rusl
Просто необходимо сравнивать один кусок текста с другим,

А тексты из готового набора или могут добавляться пользователями? При таких задачах решение может сильно зависеть от очень мелких особенностей.

Всего: 5929