Правильный - первый вариант.
Название ресурса. Имеет же проект какое-то название?
Поступило несколько предложений, но прошу обратить внимание, что:
1) меня не интересуют прямые ссылки, (в большинстве случае экспорт происходит через JavaScript)
2) аудитория с Украины должны быть _преобладающей_ - т.е. более 50%
Чего-то я сегодня туплю :)
Правильно ли я понял, что вы предлагаете для документа (например, 200 слов) делать 20 хешей и потом сравнивать по ним?
Потому, что робот не знает, какой параметр будет - на то он и робот.
И к счетчикам это никакого отношения не имеет (я их привел только в качестве примера)
Т.е. алгоритм следующий:
1. запросили страницу
2. сравнили со всеми страницами в базе...
дальше продолжать? ;)
прошу еще учесть, что есть ряд сайтов, которые доступны как ...com, так и ...net
а еще есть сайты, которые имеют различные домены (и даже зеркала в разных уровнях - типа tra-la-la.com и tra.123456.net)
Возвращаясь к началу - по каким признакам производить выборку страниц из базы для последующего сравнения на похожесть?
Хотя, для себя я уже вроде решил...
При индексировании страниц берется сугубо контент (удаляются все теги) и вычисляется его контрольная сумма.
При индексации следующей страницы - сверяется контрольная сумма текущей страницы и производится проверка наличия такой суммы среди проиндексированных страниц.
Страницы с одинаковой контрольной суммой проверяются методом шинглов на похожесть.
Критика будет? ;)
Artisan, причем здесь письма?
речь идет о похожести страниц, а не о регистрации ресурсов и доставке почты.
не "одно или несколько хеш значений для каждого документа", а набор хеш-значений, который зависит от "величины" страницы.
В большинстве случае величина этого набора - от 200 штук.
А подробнее можно?
Представьте себе ситуацию, когда рейтинг, раздающий кнопочки, "дает" код, котором ссылка вида .../?id=123
Около 10 тыс. ресурсов данный код поставили.
Согласно вашему совету, "Если какая-то страница признана дублем" - для начала нужно эти страницы "отловить".
Как проверить - это я знаю. Вопрос в другом - что проверить :)
Т.е. каким образом отбирать страницы, которые подлежат проверке.
Если же проверять все подряд - никаких мощностей не хватит :)
Т.е.?
Вы регистрируете ресурсы постоянно, а письма о регистрации не доходят?
Мыло всое в личку бросьте - проверим отлупы.