Попробуйте поставить на ночь генерацию статьи с отбором 100 лучших вариантов - Doorways & Cloaking

Еще один генератор уникального текста.

-Mouse- · 2020-07-28T15:09:54.0000000Z

Навеяно топиком: /ru/forum/134237 Написал простенький генератор, который умеет выбирать лучшие N оригинальных вариантов. Интересно мнение спецов об этой программе. Что хорошо, что плохо, что желательно добавить и как именно? :smoke: GUI написано "на коленках", да и сама генерация происходит в том же потоке. Не ругайтесь сильно если он будет "подлагивать" - меня пока что интересует сама суть. Скачать можно по 1-й из 2-х ссылок: http://www.ifolder.ru/1751470 http://www.sharing.ru/dl/043539/Generator.rar.html Как запускать: Вводите текст в таком формате: Это {примитивный|простой|простенький} генератор, {созданный|предназначенный|разработан специально} для генерации {уникальных|оригинальных|неповторяющихся} текстов. Работает путем перебора {всевозможных|всех} вариантов и анализа каждого на {уникальность|оригинальность|не повторяемость}. {Отлично у|Терпимо у|Хорошо у|У}меет {выбирать|находить|определять} {лучшие|уникальные|оригинальные} варианты. При генерации "10 вариантов" с параметрами уникальности 10, 100 получаем: Это примитивный генератор, созданный для генерации уникальных текстов. Работает путем перебора всевозможных вариантов и анализа каждого на уникальность. Отлично умеет выбирать лучшие варианты. 100 Это примитивный генератор, разработан специально для генерации неповторяющихся текстов. Работает путем перебора всех вариантов и анализа каждого на уникальность. Отлично умеет находить оригинальные варианты. 19 Это примитивный генератор, созданный для генерации оригинальных текстов. Работает путем перебора всех вариантов и анализа каждого на не повторяемость. Терпимо умеет определять оригинальные варианты. 19 Это простой генератор, разработан специально для генерации неповторяющихся текстов. Работает путем перебора всевозможных вариантов и анализа каждого на не повторяемость. Хорошо умеет определять оригинальные варианты. 19 Это простой генератор, созданный для генерации неповторяющихся текстов. Работает путем перебора всех вариантов и анализа каждого на оригинальность. Умеет определять оригинальные варианты. 18 Это простой генератор, разработан специально для генерации уникальных текстов. Работает путем перебора всевозможных вариантов и анализа каждого на оригинальность. Отлично умеет выбирать оригинальные варианты. 18 Это простенький генератор, предназначенный для генерации уникальных текстов. Работает путем перебора всех вариантов и анализа каждого на оригинальность. Хорошо умеет выбирать оригинальные варианты. 18 Это простой генератор, созданный для генерации уникальных текстов. Работает путем перебора всевозможных вариантов и анализа каждого на не повторяемость. Умеет выбирать оригинальные варианты. 19 Это простенький генератор, разработан специально для генерации оригинальных текстов. Работает путем перебора всех вариантов и анализа каждого на не повторяемость. Умеет выбирать оригинальные варианты. 18 Это примитивный генератор, предназначенный для генерации неповторяющихся текстов. Работает путем перебора всех вариантов и анализа каждого на не повторяемость. Умеет выбирать оригинальные варианты. 18 Программа выбирает уникальные варианты и выводит подходящий вариант и его % уникальности. Время выполнения текущей генерации было 15 сек. При каждом просчете нового варианта идет сравнение со всеми отобранными при предыдущем сканировании. Цель программы не только генерировать коротенькие блоки, но и попробовать генерировать статьи. Собственно выслушаю ваши идеи и способы для уникальной генерации. Единственный минус (пережить можно ;) ) - при более сложных генерациях требуется побольше времени. P.S. Чур по лицу (репе) не бить, лучше завалите меня информацией и критикой. :smoke:

298

Григорий Селезнев

21 апреля 2007, 18:02

#11

что считается степенью уникальности? По идее, все генерации - успешны и уникальны... и когда всего возможных вариантов генерации 10 в 5-й, то выбрав 100 вариантов вы получите 100% уникальность, но если Вы используете тексты 10 в 6-й раз, то уникальность будет 1/10 , т.е. каждая уникальная текстовка будет использована 10 раз.

Как замерить скорость жесткого Яндекс кобласит Перенос ограничений старого сайта

108

-Mouse-

21 апреля 2007, 18:08

#12

Professor:
что считается степенью уникальности? По идее, все генерации - успешны и уникальны... и когда всего возможных вариантов генерации 10 в 5-й, то выбрав 100 вариантов вы получите 100% уникальность, но если Вы используете тексты 10 в 6-й раз, то уникальность будет 1/10 ...

По моим понятиям уникальность - разность по Левенштейну не менее нужного мне значения. Ведь текст может быть как угодно изменен. Либо это слова на синонимы поменяли, либо куски предложений ... либо абзац переписали. Но вы же не собираетесь вручную после обычного генератора выбирать нужные (наиболее уникальные) 100 из 100000000000000000 всевозможных варинтов (при этом каждый проверять на уникальность относительно остальных 99 "удачных" вариантов)? Для этого после перебора всех вариантов можно отбросить явные совпадения, далее наложить методы Кивы и Левенштейна. Согласны, что удобнее если программа сделает это дело за вас а вы всего лишь выберете % уникальности и нажмете "Старт". ;)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

298

Григорий Селезнев

21 апреля 2007, 18:16

#13

Задача при таком подходе будет сильно усложняться , чем больше текст - тем сложнее его "уникализировать" ... тем проще найти дубляжи ... но для доров пойдет ;))

108

-Mouse-

21 апреля 2007, 18:31

#14

Professor:
Задача при таком подходе будет сильно усложняться , чем больше текст - тем сложнее его "уникализировать"

Не спорю, но увеличив кол-во и сложность "выборок" (вариаций, перечисленных в {} через |) - можно опять получить нужную степень уникальности.

Professor:
тем проще найти дубляжи

При малом кол-ве выборок Вы получите меньше уникальных вариантов, которые подходят вашим критериям, но дубли программа не пропустит.

Но есть и другая сторона медали:

Эти алгоритмы (Кива и Левенштейн) достаточно сложны. Это большой +++ в том, что они практически не ошибаются, но есть и минус - достаточно сложный алгоритм выполняться дольше по времени. И чем больше текст и кол-во "выборок", тем дольше будет выполняться.

Но мне лично удобнее поставить на ночь генерацию статьи с отбором 100 лучших вариантов, нежели заплатить реврайтерам по 2-3уе за каждый из 100 вариантов статьи.

P.S. 100 вариантов статьи текстом ~2к знаков я генерировал почти 17 часов. Проц: Core 2 Duo E6400. Кол-во памяти для программы не важно. В итоге электричества по деньгам я спалил на несколько порядков меньше, чем заплатил бы реврайтерам. 🚬

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

21 апреля 2007, 21:15

#15

Расстояние Левенштейна - это минимальное количество вставок, замен и удалений символов, необходимое для преобразования str1 в str2. Сложность алгоритма равна O(m*n), где n и m - длины строк двух строк

А вообще идея приличная :) может быть когда и пригодится, автору респект...

И опять повторюсь, лучше всего синонимическая обработка текста...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

101

Xover

22 апреля 2007, 11:15

#16

P.S. 100 вариантов статьи текстом ~2к знаков я генерировал почти 17 часов.

дайте посмотреть эти статьи. и исходную.

Покупаю внутренние PR4 на sape.ru (http://www.sape.ru/r.f3cfb23480.php)

108

-Mouse-

22 апреля 2007, 13:52

#17

Xover:
дайте посмотреть эти статьи. и исходную.

Увы, но я никому никогда не "засвечиваю" свои сайты. Такой мой принцип. 🚬

Статьи добавлены с ссылками на сайт, на котором нету прочих работ уже в течении 3-х месяцев. Если важен результат - при очередном АП-е ТИЦ-а я могу сообщить "как сколько и насколько". ;)

101

Xover

22 апреля 2007, 18:47

#18

Увы, но я никому никогда не "засвечиваю" свои сайты. Такой мой принцип.
Статьи добавлены с ссылками на сайт, на котором нету прочих работ уже в течении 3-х месяцев. Если важен результат - при очередном АП-е ТИЦ-а я могу сообщить "как сколько и насколько".

неа, я чисто теоритически хотел посмотреть что получилось. 10 минут работы core2duo на одну статью все-таки.

108

-Mouse-

22 апреля 2007, 19:55

#19

Xover:
неа, я чисто теоритически хотел посмотреть что получилось

Увы, но я не любитель засвечивать свои сайты. Вот такой вот я конспиратор ;)

Но вы можете посмотреть на простенький пример в начале топика, а также сами попробовать на вашем тексте.

Xover:
10 минут работы core2duo на одну статью все-таки.

Это еще средняя статья была. При идеальном качестве должно быть дольше...

Вот давайте посчитаем. Допустим в вашей статье 20 выборок (блоков {}), каждая из которых может принимать один из 3-х вариантов. Легко посчитать всевозможные варианты: это будет 3 в 20 степени = 3486784401 генераций. Вам надо например выбрать 50 лучших.

Вы начали перебирать. Допустим вы условно посчитали (программа так не поступает) первые 50 лучшими. Далее вы берете 51-ю генерацию и сравниваете с 50 отобранными. Если какаято отобранная хуже, чем текущая, вы ее заменяете. И так вам надо сделать для всех 3486784401 генерацией.

Поэтому не удивляйтесь, что так долго. Качественно быстро никогда не бывает. 🚬

P.S. Если будете пробовать - советую в качестве вариантов указывать не слова (как в моем примере), а куски или целиком предложения. Этим вы сможете повысить качество при меньшем кол-ве выборок ({}).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

108

-Mouse-

2 мая 2007, 15:41

#20

Сделал новую версию. Поисправлял старые недочеты и добавил возможность просмотра отчетов, заполнение вашими ссылками, загрузка и сохранение проектов и тд. GUI слегка не доработанное, но те недочеты, что есть - пока что неважны. В настройках блоков работает максимальное кол-во ссылок, но не работает временно частный анализ уникальности среди всех блоков данного индекса во всем сгенерированных текстах. Поэтому пользуйтесь пока что только общим анализом на уникальность. Для генерации текстов (2-3к символов) лучше использовать не более 10 выборок ({}). Хотя на практике зависит от длинны текста, производительности машины и прочих ваших пожеланий. Помните, что каждая новая генерация сравнивается со всеми успешными до этого момента и если вам надо уникальность не мене 5%, то новая генерация будет уникальна от всех до этого успешных не менее указанного предела.

Качаем отсюда: http://webfile.ru/1393501

Хотелось бы от вас услышать еще возможные области применения, чтобы знать под что затачиваться. Если комуто интересно, и есть какието пожелания, то пишите. Дальше будет видно ... ;)

P.S. По лицу (репе) не бить. Я знаю, что есть коммерческие продукты которые получше работают, но помните, что не каждый может (хочет) покупать его. А как бесплатный - считаю что у этого генератора есть шансы на существование. ;)

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Еще один генератор уникального текста.