Дописал первую версию генератора.
Требуется ли поддержка баз данных в следующих версиях софта (первая будет на днях) ? И если да то каких?
PS Сейчас все на файлах.
Сейчас отталкивается от минимальной длины 100 символов с пробелами, можно вынести эти насройки в панель управления. Над длиной перемешиваемых фрагментов еще буду работать, первый этап - это как раз сделать нарезку по знакам препинания и предлогам.
Я выше писал что данный алгоритм берет релевантные предложения по ссылкам из выдачи и перемешивает их с нерелевантными. Есть еще алгоритм морфологической перествновки, но он на данный момент дает нечитабельный контент.
В моем алгоритме нет синонимизации и есть определение релевантности и регулирование числа вхождений базового запроса. В будущем планирую снижать объем включаемого блока из одного источника, что должно повысить уникальность без снижения других значимых параметров текста.
ок, допилию немного позже..
оберзку можно добавить, остальное все в примере есть.
половина количества уникальных слов - это переспам сильный. процента 2-4% нужно. ---------- Добавлено 16.09.2016 в 10:29 ---------- "Разбавленный" нейтральными предложениями вариант:
---------- Добавлено 16.09.2016 в 10:35 ----------Пример с удвоенным количеством иррелевантных предложений:
Лучше разбавить предложениями, которые алгоритм посчитал иррелевантными, то есть без вхождения ключа в любой форме. Чем и занимаюсь..
Синонимайз палится по тому же Ципфу, только на более широкой выборке. Ну какова вероятность встречи в тексте слова "сущность", да еще и столько раз, это же сразу видно что распрделения завалены, синонимайз не вариант, однозначно.
* бренднейм -> звездочки чтобы не поднимать страницу по нецелевому запросу.
Новый алгоритм, собирает мозаику из релевантных предложений тематических статей. Пример работы: