Прога расчета схожести текстов (дублей) - Бесплатно!

123 4
Hkey
На сайте с 30.09.2006
Offline
222
8607

Реализован метод шинглов. Со сравнением по выборке из мин-макс 100 случайных фиксированных функций. Алгоритм наиболее жесткой проверки дублей Яндекса.

Отличия от алгоритма Яндекса:

1. Реализовано не 85, а 100 случайных функций (чтобы проценты реализовывать без дробной части)

2. Естественно фиксированные случайные функции разные, но как показывает практика в расхождения для текстов с размером > 2000 символов погрешность не более 10ти процентов.

3. Для хранения переменных используеться меньшее число байт. Для сравнения к-ва текстов меньше 10 000 штук, этот фактор не играет критической роли.

Различает регистр, вырезает Тэги.

Не учитывает словоформы, синонимы, стоп слова. А также замены русских букв на их аглийские аналоги.

Если вы мне предоставите список стоп слов - он будет их игнорировать.

http://bajron.od.ua/?p=31#more-31

270 кб

текстовый файл содержит массив 100 на 10 параметров рандомных функций (многочлены первого порядка).

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
Hkey
На сайте с 30.09.2006
Offline
222
#1

Нужно для усовершенствование программы, где можно открывать много файлов и проверять каждый с каждым находить среднее и максимальное сходство? И удалять файлы критерием сходства выше заданого. А также выводить для двух текстов более комплексную оценку.

Чего то не вижу оживления в теме. Контент важная вещь в нашей работе.

С помощью проги можно оценивать труд копирайтера, работоспособность програм изменения текстов.

Hkey
На сайте с 30.09.2006
Offline
222
#2

Господа, в течение 2-3 лет будут разработаны программы для авторерайтинга русского текста. По поводу моей программы (КРАСС) скажу, что пойдет в массы уже в этом году.

Необходима какае-то программа/программы оценки схожести текстов - эффективности программ. Моя не моя - без разницы, чтобы на ее результаты можно ссылаться, оценивая качество программ или баз. Чтобы я мог бы доказать превосходство своих коммерческих разработок над конкурирующими. Готов опубликовать исходные коды программы расчета схожести текстов.

P.S. Пишу это потому что сейчас подумал, что зря выложил свою программу:

Конкурент может давить мои аргументы на уровне: твоя программа оценивает и не мудрено, что у тебя результат выше. А сам использовать программу для оценки изменений.

FView
На сайте с 03.05.2006
Offline
186
#3

не спешите, пока пробуем что за зверь :)

greenwood
На сайте с 08.09.2003
Offline
519
#4
Hkey:
Необходима какае-то программа/программы оценки схожести текстов

http://www.copyscape.com/

Hkey
На сайте с 30.09.2006
Offline
222
#5

Знаю такого зверя. Но разве там можно сравнить два текста не в индексе?

Разве там проверка максимально близка к проверки яши? Не ясен алгоритм проверки.

С помощью сервиса даже теоритически нельзя пакетно прогнать 100 статей через обе проги и сравнить результат.

LS
На сайте с 16.01.2007
Offline
104
#6
Hkey:
Господа, в течение 2-3 лет будут разработаны программы для авторерайтинга русского текста.

уже постепенно пошли ... + многие уже берут текст и "автосинонимом" правят, но имхо слишком грубо и криво ..

из недорогих полноценного продукта не попадалось, бъют собаки текст :)

за хороший скриптик не пожалел бы и нескольких сотен долларов ... а за умную прогу и пару тысяч

yandex.ru
proffregg
На сайте с 21.09.2006
Offline
32
#7
Lestor_SB:
уже постепенно пошли ... + многие уже берут текст и "автосинонимом" правят, но имхо слишком грубо и криво ..
из недорогих полноценного продукта не попадалось, бъют собаки текст :)
за хороший скриптик не пожалел бы и нескольких сотен долларов ... а за умную прогу и пару тысяч

Идем идем идем :p !!! так не спеша =) и нас не остановить =))

Зачем защита от авторерайта?? он же для внутренних страниц?

Да и переплюнуть копискейп очень тяжело. Да и нужно ли?

Ну если только точить все под яшу

Люблю свой - АплМакБукЭир.
MASe
На сайте с 17.09.2002
Offline
219
#8

чего то я не понял... нажимаю на кнопку "compare" - и.... тишина....

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)
Навигатор
На сайте с 15.07.2006
Offline
156
#9

Попробовал несколько размноженных статей с помощью своего скрипта - показывает максимум 8%. А чаще 3-4 %. Объективно, конечно, статьи более похожи.

Резюме: текущая версия - это меньше 1% работы, которую нужно проделать, чтоб стать эталонным измерителем уникальности текстов.

Пока нету синонимов и словоформ - грош цена программе.

А то, что вы так красиво и умно описывали в начале топика - не более чем пудра в глаза оптимизаторам. Все это легко напишет обычный студент за полдня.

З.Ы.: программа нужная и желаю вам успехов в разработке; поменьше пустословия и высокомерия - а то как депутат перед народом.

Шерегеш (http://gesh.info/) - зимний горнолыжный курорт
Hkey
На сайте с 30.09.2006
Offline
222
#10

Ну мозги (писалось изначально как юнит тест) были за пару часов написаны.

На счет похожи не похожи - если каждое 9ое слово изменить, то все будет круто, процент будет 0.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий