Поэтому-то и важно регламентировать степень детализации шаблона. На мой взгляд, оптимально: 3-4 синтаксические перестановки в предложениях + 4-5 синонимных переборов, преимущественно на одно слово при двухкратной вложенности шаблона. При многократной вложенности можно импровизировать, но синонимы подбирать все равно необходимо на 1, максимум 2 слова (если это устойчивое выражение). Тогда 4-словный шингл не проблема - статей получится достаточно много. При этом читаемость, как и в случае обычного копирайтинга - это искусство.
Согласитесь, что другие показатели субъективны (читабельность) или относительны (уникальность). Чтобы установить читабельность нужен корректор, который даже за те деньги, которые вам платят за шаблон не вычитает 200 текстов. А чтобы проверить уникальность нужен стандартный алгоритм - но все пользуются разными программами, так что по этому поводу можно лишь пожать плечами.
По своему опыту скажу, что при сохранении полной читаемости реально добиваться "увеличения объема" раз в 15 - если не считать всякие скобки (более, наверное, уже не имеет смысла) - но нужно хорошо поработать, - так как затраченное время растет в геометрической прогрессии с прибавлением каждого килознака. В этом основная трудность при определении цены на такую работу. Получается, что затраты на размножение трудно измерить килознаками. С одной стороны, коэффициент, связанный с количеством вариантов при одних и тех же условиях отбора текстов, всегда зависит от числа набранных знаков в формуле. С другой, чтобы получить максимальное число переборов, нужно много думать и рыться в справочниках синонимов. Поэтому определение цены работы за килознак исходника при размножении текстов, на мой взгляд, неуместно. Нужны более гибкие тарифы с регламентацией числа гарантированных переборов, и конечной оплатой за килознаки текста-формулы. В конечном счете, заказчик должен понимать, что он заказывает и платить соответственно.
Мне тоже кажется, что при оценке качества и для защиты от "склейки" нужно ориентироваться на маленький (желательно смещающийся) шингл и приемлемый процент схожести (до 5%), но только не за счет близлежащих шинглов. К сожалению, алгоритмы программ не афишируются, а разрабатывать свою систему оценки качества довольно затратно. Хотя, если с полной ответственностью размножать на заказ, наверное другого пути нет.
Вообще-то, я хотел спросить, бывают ли случаи, что тексты при 8-10 словном шингле склеиваются, например, если проверять copyscape?
А имеет ли смысл для проверки выбирать более жесткие условия, например, 4-6 словный шингл (и те же максимальные 2%)? Однажды встретил в блогах сообщение, что размноженные тексты, бывают склеиваются, и "отлавливает" этот факт пока только copyscape.com; ссылку к сожалению потерял...
И может ли цена на размноженный контент зависеть от параметров отбора (чем жестче, тем дороже) - или продать тексты реально только один раз - заказчику вместе с "формулой"?
А какие критерии читаемости для СДЛ? - ведь невозможно быстро отредактировать 100-150 текстов. Т. е. гарантия читаемости делается на этапе составления "формулы". Или есть какие-то специальные методы проверки?
Имеется ввиду 8 или 10 словный шингл? Со смещением на каждое слово или без? Какие оффлайн средства для проверки уникальности лучше использовать?
На мой взгляд, платными могут быть лишь функции мониторинга, причем как размещенных, так и не размещенных в сети текстов. Последнее - своеобразная лицензия на уникальность, которую можно демонстрировать заказчику контента (проверка должна осуществляться по каждому требованию - переход по уникальной ссылке, выдаваемой автору).
Из разнообразных задач - самое сложное выявление несхожести размноженного контента, но ее удобнее решать оффлайн методами.
Извините, я встряну...
Сам пользуюсь бесплатным генератором, где можно задавать процент и длину шингла на отсев, так же, как в pro-версии этой программы. Но то ли из-за встроенной леммеризации, то ли список стоп-слов хороший, при выставлении того же процента 3% неуникальности - приходится увеличивать длину шингла с 4 до 6, чтобы большая часть выборки прошла проверку.
Не факт, что все программы одинаково считают пресловутый процент несхожести текстов. На мой взгляд, надо задавать самую небольшую длину шингла - 4 и добиваться 2-3% несхожести, причем при том, что сходные шинглы хотябы не перекрываются.
Так как не знаю, как работает Shingles-Expert pro, то советовать ее не стану. Проще немного подумать и написать свой алгоритм отсева, гарантирующий несклейку современными плагиат-фильтрами.
Поскольку, только жесткие критерии отбора текстов могут защитить от склейки размножаемого контента (не сейчас, так в будущем), а параметры длина шингла и процент схожести зависят друг от друга, я решил для продаваемых статей задать изначально жесткий критерий отбора. А именно - порог 2% схожести при 4х-словном шингле. Эти критерии используются при генерации текстов программой Generating the web (текущей версии 2.2). Соответственно, генерация проводится только один раз, и текстов получается немного.
Кроме того, весь продаваемый в этой теме контент перед передачей заказчику будет проходить проверку сервисом copyscape.com. И поскольку тексты написаны для людей, то покупка небольшого их количества может быть очень даже выгодной с целью рекламы - для публикации в качестве объявлений на достойных ресурсах, где есть модерация.
По прежнему, в продаже размноженные тексты по теме "магазин мягкой мебели" - кто заинтересован, отписывайтесь.
Тогда вопрос к Вам: а каким инструментом (генератором) проводить подобный эксперимент? Это ведь тоже достаточно важно, на мой взгляд.
Но публиковать демо-вариант мне кажется неразумным - лучше, наверное, передавать его приватно заинтересованному покупателю. Иначе, ведь какие-то вновь генерируемые тексты могут случайно с ним склеиться.