Прога расчета схожести текстов (дублей) - Бесплатно! - Сервисы и программы для работы с SE - Практические вопросы оптимизации

222

Hkey

28 мая 2007, 04:33

8707

Реализован метод шинглов. Со сравнением по выборке из мин-макс 100 случайных фиксированных функций. Алгоритм наиболее жесткой проверки дублей Яндекса.

Отличия от алгоритма Яндекса:

1. Реализовано не 85, а 100 случайных функций (чтобы проценты реализовывать без дробной части)

2. Естественно фиксированные случайные функции разные, но как показывает практика в расхождения для текстов с размером > 2000 символов погрешность не более 10ти процентов.

3. Для хранения переменных используеться меньшее число байт. Для сравнения к-ва текстов меньше 10 000 штук, этот фактор не играет критической роли.

Различает регистр, вырезает Тэги.

Не учитывает словоформы, синонимы, стоп слова. А также замены русских букв на их аглийские аналоги.

Если вы мне предоставите список стоп слов - он будет их игнорировать.

http://bajron.od.ua/?p=31#more-31

270 кб

текстовый файл содержит массив 100 на 10 параметров рандомных функций (многочлены первого порядка).

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

222

Hkey

28 мая 2007, 21:31

#1

Нужно для усовершенствование программы, где можно открывать много файлов и проверять каждый с каждым находить среднее и максимальное сходство? И удалять файлы критерием сходства выше заданого. А также выводить для двух текстов более комплексную оценку.

Чего то не вижу оживления в теме. Контент важная вещь в нашей работе.

С помощью проги можно оценивать труд копирайтера, работоспособность програм изменения текстов.

222

Hkey

5 июня 2007, 21:38

#2

Господа, в течение 2-3 лет будут разработаны программы для авторерайтинга русского текста. По поводу моей программы (КРАСС) скажу, что пойдет в массы уже в этом году.

Необходима какае-то программа/программы оценки схожести текстов - эффективности программ. Моя не моя - без разницы, чтобы на ее результаты можно ссылаться, оценивая качество программ или баз. Чтобы я мог бы доказать превосходство своих коммерческих разработок над конкурирующими. Готов опубликовать исходные коды программы расчета схожести текстов.

P.S. Пишу это потому что сейчас подумал, что зря выложил свою программу:

Конкурент может давить мои аргументы на уровне: твоя программа оценивает и не мудрено, что у тебя результат выше. А сам использовать программу для оценки изменений.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

186

FView

5 июня 2007, 21:48

#3

не спешите, пока пробуем что за зверь :)

519

greenwood

5 июня 2007, 22:09

#4

Hkey:
Необходима какае-то программа/программы оценки схожести текстов

http://www.copyscape.com/

222

Hkey

5 июня 2007, 23:14

#5

greenwood:
http://www.copyscape.com/

Знаю такого зверя. Но разве там можно сравнить два текста не в индексе?

Разве там проверка максимально близка к проверки яши? Не ясен алгоритм проверки.

С помощью сервиса даже теоритически нельзя пакетно прогнать 100 статей через обе проги и сравнить результат.

Как выбить деньги с Яндекс кобласит Сервисы и промты для

LS

104

Lestor_SB

6 июня 2007, 09:40

#6

Hkey:
Господа, в течение 2-3 лет будут разработаны программы для авторерайтинга русского текста.

уже постепенно пошли ... + многие уже берут текст и "автосинонимом" правят, но имхо слишком грубо и криво ..

из недорогих полноценного продукта не попадалось, бъют собаки текст :)

за хороший скриптик не пожалел бы и нескольких сотен долларов ... а за умную прогу и пару тысяч

yandex.ru

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

32

proffregg

6 июня 2007, 10:26

#7

Lestor_SB:
уже постепенно пошли ... + многие уже берут текст и "автосинонимом" правят, но имхо слишком грубо и криво ..
из недорогих полноценного продукта не попадалось, бъют собаки текст :)
за хороший скриптик не пожалел бы и нескольких сотен долларов ... а за умную прогу и пару тысяч

Идем идем идем :p !!! так не спеша =) и нас не остановить =))

Зачем защита от авторерайта?? он же для внутренних страниц?

Да и переплюнуть копискейп очень тяжело. Да и нужно ли?

Ну если только точить все под яшу

Люблю свой - АплМакБукЭир.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

219

MASe

6 июня 2007, 11:34

#8

чего то я не понял... нажимаю на кнопку "compare" - и.... тишина....

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)

156

Навигатор

6 июня 2007, 11:41

#9

Попробовал несколько размноженных статей с помощью своего скрипта - показывает максимум 8%. А чаще 3-4 %. Объективно, конечно, статьи более похожи.

Резюме: текущая версия - это меньше 1% работы, которую нужно проделать, чтоб стать эталонным измерителем уникальности текстов.

Пока нету синонимов и словоформ - грош цена программе.

А то, что вы так красиво и умно описывали в начале топика - не более чем пудра в глаза оптимизаторам. Все это легко напишет обычный студент за полдня.

З.Ы.: программа нужная и желаю вам успехов в разработке; поменьше пустословия и высокомерия - а то как депутат перед народом.

Шерегеш (http://gesh.info/) - зимний горнолыжный курорт

Яндекс кобласит 8 распространённых мифов о 7 вещей, которые нужно

222

Hkey

6 июня 2007, 13:05

#10

Ну мозги (писалось изначально как юнит тест) были за пару часов написаны.

На счет похожи не похожи - если каждое 9ое слово изменить, то все будет круто, процент будет 0.

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Прога расчета схожести текстов (дублей) - Бесплатно!