Алгоритмы определения нечетких дубликатов

Eugen · 2026-07-01T11:07:40.0000000Z

Знаю, тема уже поднималась не раз, но все-таки хотелось бы собрать summary насчет существующих алгоритомов. Я знаю о 2х алгоритмах определения дублировния - шинглы и http://company.yandex.ru/articles/article7.html (descriptive words). С шинглами - все понятно, но вот они очень небыстрые. Что же касается метода, преложенного Sergey Ilyinsky, Maxim Kuzmin, Alexander Melkov, Ilya Segalovich, то он заявлен как более быстрый и проще в реализации. Вот только не ясно, как же все-таки выбирать эти слова. Есть 3 правила: 1. A set of words should cover the maximal possible amount of documents 2. The "quality" of a word in the sense described below should be the highest 3. The number of words in the set should be minimal Но, к сожалению, конкретики это не прибавляет. В дополнение к 2м перечисленным методам, есть еще такая идея - считать контрольную сумму от слов с частотами появления в интервале 3% - 4% (пока что сказал наобум, смысл в том, чтобы учитывать слова из "середины" по частоте появления в документе)

I

64

itman

11 августа 2006, 16:36

#31

а откуда я знаю, я же не собираюсь туда идти :-)

Sonja:
Какая вакансия, если не секрет? 🙄 ;)

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

I

64

itman

11 августа 2006, 16:37

#32

Да еще NDA нужно подписывать, чтобы сходить на собеседование. Просто полная параноя.

57

ХренРедькиНеСлаще

11 августа 2006, 16:52

#33

iseg:
Пусть "частота" это нормированная внутридокументная частота слова в документа (TF), лежащая в диапазоне 0..1, где 1 частота самого частого слова в документе.

iseg, очень интересует, в Большом Яндексе (не Я-сервере), "1" - это учет только одной уникальной словоформы, или учет словоформы со всеми видами (падежи, мн/ед, загл/прописн,...) ??? И учитываются ли слова в ссылках внешних и внутренних на данный документ?

Или для текстов ссылок на данную страницу как бы создается "ссылочный спутник" страницы (тексты ссылок на данный документ-оригинал), для него (и всех спутников) считается tf-idf, независимый от расчета tf-idf оригинала страницы, проводится аналогичный подсчет, о котором Вы только что написали, а в конце проводится слияние похожих документов оригиналов с похожими документами-спутниками?

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что такое Power BI и зачем это нужно бизнесу

Яндекс Вебмастер вынес товарные фиды в отдельный раздел