Шинглы например можно попробовать применить, почитайте тексты на Yandex корпоративном сайте, но это тоже не всегда помогает, ...
Кстати по поводу PROext рейтинга так ко мне от него почему то не приходят письма про регистрацию в рейтинге причем уже давно, ...
CRC любой разрядности предназначена для контроля целостности а не для хэширования и по определению не является равновероятной для случайной выборки данных а как раз наоборот есть существенный перекос который определяется магическим числом. Для шинглов лучше всего применять MD5 или другие подходящие для хэширования функции если эта слишком медленная для задачи. Но даже применение MD5 не гарантирует пригодность хэширования как метода вообще для всех задач а для некоторых задач результат может получиться очень забавным и совсем не таким который ожидается.
Вы для начала задачу толком сформулируйте хотя бы для себя, а если спрашиваете совета то и для тех у кого спрашиваете, здесь далеко не все так просто как можно подумать, и не надейтесь на то что все очень хотят бесплатно делиться своими знаниями, особенно если спрашивающий не делится точной постановкой задачи.
Блажен, кто верует,
тепло ему на свете,
...
Го, ...
Надо научиться думать так как думает посетитель сайта и когда у Вас это получится тогда будут заказы.
В выдаче Ваш сайт есть, PR = 4, а по каким запросам он должен находиться?
На самом деле все еще хуже и для некоторых задач может получиться полный ужас но это уже тема не для широкой публики.
Не все так просто, может быть такой набор исходных данных для которого вероятность совпадений будет намного больше средней, а вообще для решения таких задач надо знать все начальные условия и только тогда можно что то советовать.
А тексты из готового набора или могут добавляться пользователями? При таких задачах решение может сильно зависеть от очень мелких особенностей.