Еще один генератор уникального текста.

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#11

что считается степенью уникальности? По идее, все генерации - успешны и уникальны... и когда всего возможных вариантов генерации 10 в 5-й, то выбрав 100 вариантов вы получите 100% уникальность, но если Вы используете тексты 10 в 6-й раз, то уникальность будет 1/10 , т.е. каждая уникальная текстовка будет использована 10 раз.

-Mouse-
На сайте с 26.03.2007
Offline
108
#12
Professor:
что считается степенью уникальности? По идее, все генерации - успешны и уникальны... и когда всего возможных вариантов генерации 10 в 5-й, то выбрав 100 вариантов вы получите 100% уникальность, но если Вы используете тексты 10 в 6-й раз, то уникальность будет 1/10 ...

По моим понятиям уникальность - разность по Левенштейну не менее нужного мне значения. Ведь текст может быть как угодно изменен. Либо это слова на синонимы поменяли, либо куски предложений ... либо абзац переписали. Но вы же не собираетесь вручную после обычного генератора выбирать нужные (наиболее уникальные) 100 из 100000000000000000 всевозможных варинтов (при этом каждый проверять на уникальность относительно остальных 99 "удачных" вариантов)? Для этого после перебора всех вариантов можно отбросить явные совпадения, далее наложить методы Кивы и Левенштейна. Согласны, что удобнее если программа сделает это дело за вас а вы всего лишь выберете % уникальности и нажмете "Старт". ;)

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#13

Задача при таком подходе будет сильно усложняться , чем больше текст - тем сложнее его "уникализировать" ... тем проще найти дубляжи ... но для доров пойдет ;))

-Mouse-
На сайте с 26.03.2007
Offline
108
#14
Professor:
Задача при таком подходе будет сильно усложняться , чем больше текст - тем сложнее его "уникализировать"

Не спорю, но увеличив кол-во и сложность "выборок" (вариаций, перечисленных в {} через |) - можно опять получить нужную степень уникальности.

Professor:
тем проще найти дубляжи

При малом кол-ве выборок Вы получите меньше уникальных вариантов, которые подходят вашим критериям, но дубли программа не пропустит.

Но есть и другая сторона медали:

Эти алгоритмы (Кива и Левенштейн) достаточно сложны. Это большой +++ в том, что они практически не ошибаются, но есть и минус - достаточно сложный алгоритм выполняться дольше по времени. И чем больше текст и кол-во "выборок", тем дольше будет выполняться.

Но мне лично удобнее поставить на ночь генерацию статьи с отбором 100 лучших вариантов, нежели заплатить реврайтерам по 2-3уе за каждый из 100 вариантов статьи.

P.S. 100 вариантов статьи текстом ~2к знаков я генерировал почти 17 часов. Проц: Core 2 Duo E6400. Кол-во памяти для программы не важно. В итоге электричества по деньгам я спалил на несколько порядков меньше, чем заплатил бы реврайтерам. 🚬

[Удален]
#15

Расстояние Левенштейна - это минимальное количество вставок, замен и удалений символов, необходимое для преобразования str1 в str2. Сложность алгоритма равна O(m*n), где n и m - длины строк двух строк

А вообще идея приличная :) может быть когда и пригодится, автору респект...

И опять повторюсь, лучше всего синонимическая обработка текста...

Xover
На сайте с 22.05.2006
Offline
101
#16
P.S. 100 вариантов статьи текстом ~2к знаков я генерировал почти 17 часов.

дайте посмотреть эти статьи. и исходную.

Покупаю внутренние PR4 на sape.ru (http://www.sape.ru/r.f3cfb23480.php)
-Mouse-
На сайте с 26.03.2007
Offline
108
#17
Xover:
дайте посмотреть эти статьи. и исходную.

Увы, но я никому никогда не "засвечиваю" свои сайты. Такой мой принцип. 🚬

Статьи добавлены с ссылками на сайт, на котором нету прочих работ уже в течении 3-х месяцев. Если важен результат - при очередном АП-е ТИЦ-а я могу сообщить "как сколько и насколько". ;)

Xover
На сайте с 22.05.2006
Offline
101
#18
Увы, но я никому никогда не "засвечиваю" свои сайты. Такой мой принцип.
Статьи добавлены с ссылками на сайт, на котором нету прочих работ уже в течении 3-х месяцев. Если важен результат - при очередном АП-е ТИЦ-а я могу сообщить "как сколько и насколько".

неа, я чисто теоритически хотел посмотреть что получилось. 10 минут работы core2duo на одну статью все-таки.

-Mouse-
На сайте с 26.03.2007
Offline
108
#19
Xover:
неа, я чисто теоритически хотел посмотреть что получилось

Увы, но я не любитель засвечивать свои сайты. Вот такой вот я конспиратор ;)

Но вы можете посмотреть на простенький пример в начале топика, а также сами попробовать на вашем тексте.

Xover:
10 минут работы core2duo на одну статью все-таки.

Это еще средняя статья была. При идеальном качестве должно быть дольше...

Вот давайте посчитаем. Допустим в вашей статье 20 выборок (блоков {}), каждая из которых может принимать один из 3-х вариантов. Легко посчитать всевозможные варианты: это будет 3 в 20 степени = 3486784401 генераций. Вам надо например выбрать 50 лучших.

Вы начали перебирать. Допустим вы условно посчитали (программа так не поступает) первые 50 лучшими. Далее вы берете 51-ю генерацию и сравниваете с 50 отобранными. Если какаято отобранная хуже, чем текущая, вы ее заменяете. И так вам надо сделать для всех 3486784401 генерацией.

Поэтому не удивляйтесь, что так долго. Качественно быстро никогда не бывает. 🚬

P.S. Если будете пробовать - советую в качестве вариантов указывать не слова (как в моем примере), а куски или целиком предложения. Этим вы сможете повысить качество при меньшем кол-ве выборок ({}).

-Mouse-
На сайте с 26.03.2007
Offline
108
#20

Сделал новую версию. Поисправлял старые недочеты и добавил возможность просмотра отчетов, заполнение вашими ссылками, загрузка и сохранение проектов и тд. GUI слегка не доработанное, но те недочеты, что есть - пока что неважны. В настройках блоков работает максимальное кол-во ссылок, но не работает временно частный анализ уникальности среди всех блоков данного индекса во всем сгенерированных текстах. Поэтому пользуйтесь пока что только общим анализом на уникальность. Для генерации текстов (2-3к символов) лучше использовать не более 10 выборок ({}). Хотя на практике зависит от длинны текста, производительности машины и прочих ваших пожеланий. Помните, что каждая новая генерация сравнивается со всеми успешными до этого момента и если вам надо уникальность не мене 5%, то новая генерация будет уникальна от всех до этого успешных не менее указанного предела.

Качаем отсюда: http://webfile.ru/1393501

Хотелось бы от вас услышать еще возможные области применения, чтобы знать под что затачиваться. Если комуто интересно, и есть какието пожелания, то пишите. Дальше будет видно ... ;)

P.S. По лицу (репе) не бить. Я знаю, что есть коммерческие продукты которые получше работают, но помните, что не каждый может (хочет) покупать его. А как бесплатный - считаю что у этого генератора есть шансы на существование. ;)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий