Алгоритмы определения нечетких дубликатов

1 234
E
На сайте с 27.08.2005
Offline
15
#21
!Иван FXS:
Методы будут разные - в зависимости от указанных акцентов.

Скажем так, как правило, существующие методы не варьируются от вышеназванных акцентов. Разве что есть варирование между между алгоритмами на "похожесть" и на "включение", но если говорить о "небольних изменениях", то класс методов один.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#22

Странно ... если из одного документа вырезан "полезный контент" (отброшены хедеры-футеры), и вставлен внутрь другого документа (обвешан новыми хедерами-футерами), то "вес" общего для этих документов "полезного контента" вполне может быть не больше, чем "вес" окружающих "финтифлюшек" ...

А если - напротив - оба документа не содержат "финтифлюшек", но дублирование происходит с искажениями, то различия документов не могут быть велики. Иначе это уже не будет ДУБЛИРОВАНИЕ ...

E
На сайте с 27.08.2005
Offline
15
#23

Если объем "финтифлюшек", как вы говорите, больше объема дублируемого текста, то вряд ли это можно назвать небольшими изменениями - сами подумайте ;) Если текст включается в другой текст, больший его по объему, то речь идет о включении(см. мое сообщение выше)

!Иван FXS
На сайте с 16.11.2001
Offline
119
#24

Правильно я понял Вас: "лента" из текстов, надерганных (точным копированием!) из разных мест - не является для Вас "дубликатом"?

Segey
На сайте с 23.08.2005
Offline
404
#25
!Иван FXS:
Это я к тому, что документ-то "нам дан" целиком - вместе с хедерами и футерами ...

ну не все стоит брать, только лишние заморочки. Там кроме баннеров, счетчиков, копирайтов, картинок и разметки мало что найдешь. Вообще непонимаю смысл мучать его и разбирать по полочкам?

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)
Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#26

.............................

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.
I
На сайте с 15.12.2000
Offline
80
#27
Eugen:
Что же касается метода, преложенного Sergey Ilyinsky, Maxim Kuzmin, Alexander Melkov, Ilya Segalovich, то он заявлен как более быстрый и проще в реализации. Вот только не ясно, как же все-таки выбирать эти слова.
Есть 3 правила:
1. A set of words should cover the maximal possible amount of documents
2. The "quality" of a word in the sense described below should be the highest
3. The number of words in the set should be minimal
Но, к сожалению, конкретики это не прибавляет.

(в сторону: С.В. Ильинский - сын В.И.Левенштейна).

С позволения Сергея изложу кратко здесь.

Пусть "частота" это нормированная внутридокументная частота слова в документа (TF), лежащая в диапазоне 0..1, где 1 частота самого частого слова в документе.

Для каждого слова (однократно) строится распределение документов по такой внутридокументной "частоте".

Алгоритм составления лучшей выборки выглядит так.

Проводим несколько итераций, каждая из которых состоит из двух фаз (1) и (2).

В (1) максимизируется покрытие при фиксированной (ограниченной снизу) точности в (2) максимизируется точность при фиксированном покрытии.

Определим "точность" слова следующим образом: "точность" тем выше, чем меньше встречаемость слова "в дельте-окрестности данного значения частоты" (то есть чем меньше документов с TF равным TFthreshold+-delta). Частоту с наилучшей "точностью" мы называем пороговой и запоминаем для дальнейшего использования в алгоритме (см статью).

После каждой итерации отбрасываем самые "плохие" слова. После последней итерации оставляем достаточно слов для хорошего покрытия.

Этот метод, позволяет, начав с выборки в сотни тысяч слов (см, например, статьи ребят из AOL-а, которые на этом и остановились), оставить набор в 3-5 тысяч, расчет сигнатур по которому с применением полнотекстового индекса осуществляется на миллиардном индексе несколько минут (на нескольких машинах, естественно).

К большому сожалению это все еще нигде не изложено (нет времени), поэтому если будете использовать идею в статьях, просьба обязательно давать ссылку на Яндекс и С.В.Ильинского.

I
На сайте с 15.12.2000
Offline
80
#28
Eugen:
контрольную сумму от строки из конкатенированных, отсортированных в определенном порядке - например, по алфавиту - слов из среднечастотников

AOL-овский алгоритм

I
На сайте с 26.05.2001
Offline
64
#29

.. ...

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
Sonja
На сайте с 05.06.2003
Offline
170
#30
itman:
.. ...

Какая вакансия, если не секрет? 🙄 ;)

С уважением, Ольга Лебедева
1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий