!Иван FXS

!Иван FXS
Рейтинг
119
Регистрация
16.11.2001

Почему-то мне кажется, что Вы знаете, что такое шингл ... то есть вопрос - о ТАБЛИЦЕ шинглов?

Это - список шинглов, полученых при обработке какого-либо (не очень важно какого!) "большого массива" текстов.

Можно - с частотами, но не обязательно.

Можно - отфильтрованый (обрезанный снизу) по частоте, но не обязательно.

Можно - с хэш-ключом, но не обязательно.

Остается одна непонятка (или это -специальный подвох?):

если на нашей странице - "the data being displayed" из разных "categories", то как указывать "the path to the category"?

Правильно я понял Вас: "лента" из текстов, надерганных (точным копированием!) из разных мест - не является для Вас "дубликатом"?

Странно ... если из одного документа вырезан "полезный контент" (отброшены хедеры-футеры), и вставлен внутрь другого документа (обвешан новыми хедерами-футерами), то "вес" общего для этих документов "полезного контента" вполне может быть не больше, чем "вес" окружающих "финтифлюшек" ...

А если - напротив - оба документа не содержат "финтифлюшек", но дублирование происходит с искажениями, то различия документов не могут быть велики. Иначе это уже не будет ДУБЛИРОВАНИЕ ...

Материя есть объективная реальность данная нам в ощущениях, как учил дедушка Ленин ...

Это я к тому, что документ-то "нам дан" целиком - вместе с хедерами и футерами ...

Eugen:
... на эристическом уровне нечеткими дубликатоми можно называть страницы, которые содержат один и тот же текст, за исключением некоторых изменений, ...

- акцент на содержат или изменения?

Первое предполагает, что на страницах "один и тот же текст" обрамлен различающимися хедерами, футерами и всяческими навигационными меню.

А второе - что текст (на страницах) В ЦЕЛОМ один и тот же, но в него "вкраплены" различные мелкие изменения ...

Методы будут разные - в зависимости от указанных акцентов.

Мне кажется, сначала нужно сформулировать, что именно Вы понимаете под "нечеткими дубликатами", а потом уже - говорить об "алгоритмах их определения" ...

saidnavy:
Если интересно, то могу продать, есть парочка кривых, но не дорогих:
p8h.com
6h5.com

- а насколько они "не дороги"?

dimok:
например, чисто для буквенных будет 28^3.

- согласен на цифры, поэтому в степень возвожу не 28, а 38.

Интересует .com

dimok:
3-4х буквенные практически все заняты, поэтому можно не напрягаться.

- а сколько всего 3-х буквенных (в одном домене первого уровня)? Если не ошибаюсь, тысяч под 70 ... а 4-х буквенных - под 3 миллиона ... и все - заняты???

Всего: 644