Может меня не так поняли. Статья прогонялась по базе намного меньшей чем теперяшняя.
В базе общей было тогда 35 мест.
Удачно разместил в 15 мест.
Неудачно 10.
Результат не известен в 6ти местах.
Еще в 4 места не соответсвовали тематике.
Статья средненькая была.
Вы кажеться обновили базу (может я не так Вас понял). А ключ не выложили. Выложите пожалуйста.
Выложил в новой теме. Был бы офтоп.
/ru/forum/83523
Люди добрый еще одного не могу понять, кто и за что поставил мне за этот пост -91 репутации? Хотя бы коментарий написал :(.
Расписал много инфы по шинглам которые нашел в 5ти статьях. Как считаються их выборки. По ним проходит самая жесткая проверка. Хотел написать, что дают эти расуждения на практике... Теперь боюсь... Писать или нет?
Спасибо за ссылки, но я их все перечитал до создания топика. Но не могу понять зачем супершинглы нужны. Есть два варианта:
1. Если два документа имеют одинаковый супер шингл их ставят на проверку на склейку.
2. Если два документа имеют одинаковый супер шингл их сразу клеят.
Недостатки:
1. Нереально выбрать алгоритм, который с помощью одного контрольного значения находит два почти одинаковых документа.
2. Просто так Яша ничего не склеял, если бы склеял точно топик бы был. Все равно нужна перепроверка.
3. В одной статье я видел, что супер шингл даеться фиксированому значению шинглов и супер шинглов может быть несколько на документ.
4. В другой, что супер шингл один на весь документ.
3. Если это просто чек сум шинглов. То он чувствителен к замене одного слова. Это просто длинный шингл, никому не нужный. Если у него какаето хитрая система, то чем он отличаеться от выборки? Зачем вводить новое слово?
4. см. недостатки 2.
Наиболее реальный алгоритм расчета супер шинглов:
I. Считаеться маленькие шинглы, находяться самые редкие. И с некоторой погрешностью количество кажого редкого шингла записываеться в супер шингл. Погрешность позволяет лучше находить подозрения на дубли.
Что то вроде этого.
II. Никаких супер шинглов нет Яша нас обманывает
Расчет выборки шинглов:
Из статей понятно, что на каждый документ находятиться выборка из 85 шинглов. Как она находиться:
S1...Si - шинглы
F1...F85 случайные функции расчета контрольных сумм выборок. Функции постоянные, но сгенерированы на шару. Т.е. для двух документов функции одинаковые.
V1...V85 - шинглы выборки
----------------
V1= MIN(F1(S1), ... F1(Si))
...............................
V85 = MIN (F85(S1), ... F85(Si)).
---------------------------
Сравнение документов происходит по этим в худшем случае 85 раз.
первый док V1 == V1 второй док.
Это шинглы и их выборка. Не могу понять, что есть супершинглы.
Еще три места в базе для публичного доступа. 17 человек мне прислало около 100-200 мест.
Может заинтересует моя база.
Или моя баз см. подпись.
Плащадки платные собираю. Скоро будет адон под алсабмитер, где мест более 300.
База своих денег стоит.
И я проголосовал