Программа для проверки текста после размножения

Brucekiev
На сайте с 30.11.2007
Offline
171
739

Подскажите, пожалуйста, какой программой можно определить уникальность текста после размножения.

Допустим, размножил на 1000 вариантов, как выбрать 300 вариантов с наименьшим процентом схожести.

Если бесплатные программы для решения этой задачи..

Спасибо)

[Удален]
#1

ShinglesExpert Pro, по моей памяти...

[Удален]
#2

" MonkeyWrite " - с помощью этой проги можно размножить статьи и проверить качество размножения.

lusan
На сайте с 07.04.2009
Offline
359
#3

Попробуйте этот сервис..

ComplexPR
На сайте с 17.05.2009
Offline
95
#4

MonkeyWrite - не пользовался, не знаю.

Онлайн-сервисы сверяют только два текста, проблематично 1000 статей проверить пакетом.

От себя порекомендую прогу от Hkey, Hkey Shingles Text Compare Pro.

-Seller-
На сайте с 31.08.2008
Offline
135
#5

Чтобы не создавать новую тему, хочу спросить здесь. Вопрос по проверке статей на уникальность после размножения.

Создал самый обычный шаблон для размножения вида {вар1|вар2|вар3} Количество шинглов к каждому слову, варируется по всему тексту от 2-х до 6-ти. Размножил с помощью генератора Лиекс по совету Zonk

Размножил 100 статей. Далее решил проверить их на схожесть. Проверял двумя сервисами:

1. этот

2. с помощью программы MonkeyWrite

Первый сервис (проверял выборочно в ручную) в среднем показал схожесть ~50%

Программа MonkeyWrite - показала схожесть от 1 до 40%, в зависимости от кол-ва шинглов.

Вопрос: кому верить? И сколько шинглов указывать в МанкейВрайт при проверке на схожесть, если их кол-во варируется от 2-х до 6-ти по тексту (подозреваю, что надо взять среднее значение 3)?

Заранее благодарен всем кто ответит!

Maximalist
На сайте с 17.04.2007
Offline
202
#6
-Seller-:
Создал самый обычный шаблон для размножения вида {вар1|вар2|вар3} Количество шинглов к каждому слову, варируется по всему тексту от 2-х до 6-ти.

это называется не кол-во шинглов, а кол-во вариантов слов ;)

вот неплохая програмулька (генерирует и сразу проверяет % совпадений по шинглам), но AllSubmitter показывает более точные разультаты при сравнении и отсеивании (в той программе, почему-то показывает немного больший %) ;)

- = тут что-то должно быть = -
-Seller-
На сайте с 31.08.2008
Offline
135
#7
Maximalist:
это называется не кол-во шинглов, а кол-во вариантов слов ;)

Благодарю за корректировку, действительно, это кол-во синонимов к слову;)

Если не трудно, подскажите как посчитать шинглы (какое их кол-во выставлять при проверке схожести)?

lusan
На сайте с 07.04.2009
Offline
359
#8

Хм, а что значит как посчитать?..

Чем больше длина шингла, тем процент схожести будет выше.

Поставите шингл 10 получите одно значение схожести, шингл 8 даст другое. Значение выше 10 ставить не надо.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий