Это очень зависит от подготовки Вашей целевой аудитории и умения использовать язык запросов системы.
http://www.repairfaq.org/filipg/LINK/F_crc_v3.html
http://www.repairfaq.org/filipg/LINK/F_crc_v31.html
"fixed binary number" о котором здесь написано и есть магическое число о котором я писал выше а у остатка от деления всегда есть перекос то есть он не равновероятен для случайных исходных данных, но еще раз повторяю что на самом деле все еще хуже и любой хэш алгоритм надо правильно применять и понимать где хэширование может дать результат далекий от ожидаемого.
Google при поиске в русском скорее всего определяет язык по кодировке страницы, что к домену или IP адресу не имеет никакого отношения, а на одном IP адресе может хоститься десятки тысяч сайтов с доменами из любых разных стран и при этом сам IP адрес может быть выделен организации которая находится в стране не имеющей никакого отношения к доменам сайтов которые хостятся на этом IP адресе.
А при чем здесь IP адреса вообще? Любой RU домен может хоститься не только в России а и где угодно то есть IP адрес у него как Россия не будет определяться.
Возьмите от FreeBSD например исходники утилиты whois а там запросы к whois серверам что скорее всего как раз то что надо.
Можно хранить в хэш корзинах только малое число указателей на страницы а те корзины где их получится слишком много просто не учитывать потому что скорее всего они соответствуют фрагментам текстов которые часто встречаются на многих разных сайтах типа "добро пожаловать" и другим стандартным фразам.
Как правильно отметил Interitus лучше брать частичные хэши а так как их много то для скорости проверять только счетчики тех страниц которые попадают в корзину одинаковых хэшей.
Зачем так сложно? Сделайте массив в котором на местах зависящих от хэша будут номера счетчиков и сравнивайте страницы в этих корзинах.
А если бы сделал META метками то уже давно бы все работало как надо без лишних хлопот, ...
А если бы еще письма о регистрации всем приходили то данный код поставили бы еще больше ресурсов, и вообще зачем так жестко привязываться к почте, вполне достаточно номера и кода с ним которые можно выдать на странице подтверждения регистрации, ...