Artisan

Artisan
Рейтинг
379
Регистрация
04.03.2005
Пишу программы для вычислительных машин, от драйверов устройств, до сложных систем для работы с большим количеством знаний. Умею бережно использовать железо, и другие ресурсы.

Зачем так сложно? Сделайте массив в котором на местах зависящих от хэша будут номера счетчиков и сравнивайте страницы в этих корзинах.

А если бы сделал META метками то уже давно бы все работало как надо без лишних хлопот, ...

Как писал InSAn
Представьте себе ситуацию, когда рейтинг, раздающий кнопочки, "дает" код, котором ссылка вида .../?id=123
Около 10 тыс. ресурсов данный код поставили.

А если бы еще письма о регистрации всем приходили то данный код поставили бы еще больше ресурсов, и вообще зачем так жестко привязываться к почте, вполне достаточно номера и кода с ним которые можно выдать на странице подтверждения регистрации, ...

Как писал InSAn
Вы регистрируете ресурсы постоянно, а письма о регистрации не доходят?

Не так чтобы постоянно но время от времени разные сайты на разные почтовые адреса, а письма о регистрации не приходят, и в итоге регистрация которая в этом рейтинге жестко привязана к почте вообще не получается. Сейчас попробую зарегистрировать сайт и пришлю все что есть по этому поводу.

Как писал Rusl
Обычно более-менее все равно, какой из них выбрать, но в любом случае при выборе алгоритма его положительной стороной можно считать хорошее быстродействие.

Про скорость я уже писал выше а ключевое слово здесь "обычно" и автор совсем не лукавит а правильно понимает задачу но вот где именно это "обычно" не может применяться как раз и есть знания которые не для широкой публики.

Как писал Rusl
Дело в том, что работаю в Фоксе, а там уже есть готовая функция на базе CRC32. Вся проблема в вероятности. Быть может как раз в моем случае она будет вполне приемлема.

Без полной постановки задачи советовать что то по этому поводу нет смысла, это получается как в сказке пойди туда не знаю куда и принеси то не знаю что, и дело даже не столько в функции для хэширования сколько в правильности ее применения.

Шинглы например можно попробовать применить, почитайте тексты на Yandex корпоративном сайте, но это тоже не всегда помогает, ...

Кстати по поводу PROext рейтинга так ко мне от него почему то не приходят письма про регистрацию в рейтинге причем уже давно, ...

Как писал Rusl
Проблема понять алгоритм CRC32, для того чтобы эту вероятность расчитать. Пытаюсь чистить выборку и удалять дублирующую информацию (точнее дубликаты и почти-дубликаты), с помощью шинглов. Соответственно, здесь и необходимо хэширование.

CRC любой разрядности предназначена для контроля целостности а не для хэширования и по определению не является равновероятной для случайной выборки данных а как раз наоборот есть существенный перекос который определяется магическим числом. Для шинглов лучше всего применять MD5 или другие подходящие для хэширования функции если эта слишком медленная для задачи. Но даже применение MD5 не гарантирует пригодность хэширования как метода вообще для всех задач а для некоторых задач результат может получиться очень забавным и совсем не таким который ожидается.

Как писал Rusl
ОЧЕНЬ ВАЖНО расчитать вероятность коллизий. Но пока не совсем понимаю с какого конца к этому подступиться.

Вы для начала задачу толком сформулируйте хотя бы для себя, а если спрашиваете совета то и для тех у кого спрашиваете, здесь далеко не все так просто как можно подумать, и не надейтесь на то что все очень хотят бесплатно делиться своими знаниями, особенно если спрашивающий не делится точной постановкой задачи.

Как писал AlexA
Ну не так уж все страшно.
Все это задачи решаемые (и, главное, решенные).

Блажен, кто верует,

тепло ему на свете,

...

Всего: 5985