Почему-то мне кажется, что Вы знаете, что такое шингл ... то есть вопрос - о ТАБЛИЦЕ шинглов?
Это - список шинглов, полученых при обработке какого-либо (не очень важно какого!) "большого массива" текстов.
Можно - с частотами, но не обязательно.
Можно - отфильтрованый (обрезанный снизу) по частоте, но не обязательно.
Можно - с хэш-ключом, но не обязательно.
Остается одна непонятка (или это -специальный подвох?):
если на нашей странице - "the data being displayed" из разных "categories", то как указывать "the path to the category"?
Правильно я понял Вас: "лента" из текстов, надерганных (точным копированием!) из разных мест - не является для Вас "дубликатом"?
Странно ... если из одного документа вырезан "полезный контент" (отброшены хедеры-футеры), и вставлен внутрь другого документа (обвешан новыми хедерами-футерами), то "вес" общего для этих документов "полезного контента" вполне может быть не больше, чем "вес" окружающих "финтифлюшек" ...
А если - напротив - оба документа не содержат "финтифлюшек", но дублирование происходит с искажениями, то различия документов не могут быть велики. Иначе это уже не будет ДУБЛИРОВАНИЕ ...
Материя есть объективная реальность данная нам в ощущениях, как учил дедушка Ленин ...
Это я к тому, что документ-то "нам дан" целиком - вместе с хедерами и футерами ...
- акцент на содержат или изменения?
Первое предполагает, что на страницах "один и тот же текст" обрамлен различающимися хедерами, футерами и всяческими навигационными меню.
А второе - что текст (на страницах) В ЦЕЛОМ один и тот же, но в него "вкраплены" различные мелкие изменения ...
Методы будут разные - в зависимости от указанных акцентов.
Мне кажется, сначала нужно сформулировать, что именно Вы понимаете под "нечеткими дубликатами", а потом уже - говорить об "алгоритмах их определения" ...
- а насколько они "не дороги"?
- согласен на цифры, поэтому в степень возвожу не 28, а 38.
Интересует .com
- а сколько всего 3-х буквенных (в одном домене первого уровня)? Если не ошибаюсь, тысяч под 70 ... а 4-х буквенных - под 3 миллиона ... и все - заняты???