Hkey

Hkey
Рейтинг
222
Регистрация
30.09.2006
Интересы
Java
Hkey:
Сейчас посчитал ко-во. Публикация велась по общей тематики старой базы, за неделю до создания топика.
Результаты:
Неизвестно: 4 (впадло было сайт просматривать)
Взяли: 15
Невзяли: 10
Не постил: В 4 (тем не было)
Хакнули: 1 сайт
404: 1 сайт

Может меня не так поняли. Статья прогонялась по базе намного меньшей чем теперяшняя.

В базе общей было тогда 35 мест.

Удачно разместил в 15 мест.

Неудачно 10.

Результат не известен в 6ти местах.

Еще в 4 места не соответсвовали тематике.

Статья средненькая была.

Вы кажеться обновили базу (может я не так Вас понял). А ключ не выложили. Выложите пожалуйста.

starfox:
конечно писать!!! Чего боитесь-то?

наверное, человек не из смелых...

Выложил в новой теме. Был бы офтоп.

/ru/forum/83523

Люди добрый еще одного не могу понять, кто и за что поставил мне за этот пост -91 репутации? Хотя бы коментарий написал :(.

Расписал много инфы по шинглам которые нашел в 5ти статьях. Как считаються их выборки. По ним проходит самая жесткая проверка. Хотел написать, что дают эти расуждения на практике... Теперь боюсь... Писать или нет?

Спасибо за ссылки, но я их все перечитал до создания топика. Но не могу понять зачем супершинглы нужны. Есть два варианта:

1. Если два документа имеют одинаковый супер шингл их ставят на проверку на склейку.

2. Если два документа имеют одинаковый супер шингл их сразу клеят.

Недостатки:

1. Нереально выбрать алгоритм, который с помощью одного контрольного значения находит два почти одинаковых документа.

2. Просто так Яша ничего не склеял, если бы склеял точно топик бы был. Все равно нужна перепроверка.

3. В одной статье я видел, что супер шингл даеться фиксированому значению шинглов и супер шинглов может быть несколько на документ.

4. В другой, что супер шингл один на весь документ.

Недостатки:

3. Если это просто чек сум шинглов. То он чувствителен к замене одного слова. Это просто длинный шингл, никому не нужный. Если у него какаето хитрая система, то чем он отличаеться от выборки? Зачем вводить новое слово?

4. см. недостатки 2.

Наиболее реальный алгоритм расчета супер шинглов:

I. Считаеться маленькие шинглы, находяться самые редкие. И с некоторой погрешностью количество кажого редкого шингла записываеться в супер шингл. Погрешность позволяет лучше находить подозрения на дубли.

Что то вроде этого.

II. Никаких супер шинглов нет Яша нас обманывает

Расчет выборки шинглов:

Из статей понятно, что на каждый документ находятиться выборка из 85 шинглов. Как она находиться:

S1...Si - шинглы

F1...F85 случайные функции расчета контрольных сумм выборок. Функции постоянные, но сгенерированы на шару. Т.е. для двух документов функции одинаковые.

V1...V85 - шинглы выборки

----------------

V1= MIN(F1(S1), ... F1(Si))

...............................

V85 = MIN (F85(S1), ... F85(Si)).

---------------------------

Сравнение документов происходит по этим в худшем случае 85 раз.

первый док V1 == V1 второй док.

Это шинглы и их выборка. Не могу понять, что есть супершинглы.

Еще три места в базе для публичного доступа. 17 человек мне прислало около 100-200 мест.

f2circle:
Размещу качественные статьи по темам - околостроительные, авто, интерьер, производство на ваших сайтах. Не далее 3-х кликов от главной.
Просьба предлагать полноценные сайты, в т.ч. без установленных автообменников.
Количество линков оговаривается - возможен один.

Может заинтересует моя база.

Bazooka John:
База Add Article Sorted Base вполне подойдет под это дело.

/ru/forum/51530

Или моя баз см. подпись.

omely:
Не знаю, насколько хороша и уникальна Ваша база, возможно я и куплю ее. Но: существуют недорогие аналогичные, зарекомендовавшие себя базы, например: от Bazooka John (/ru/forum/51530).
Поэтому высказываю пожелание топикстартеру усовершенствовать базу. Добавьте раздел "платные площадки для публикации статей". Либо соберите новую базу для платных статей - она будет востребована (ни для кого не секрет, что платные условия публикации от бесплатных отличаются).

Плащадки платные собираю. Скоро будет адон под алсабмитер, где мест более 300.

База своих денег стоит.

Всего: 2639