AESCBC192

AESCBC192
Рейтинг
51
Регистрация
11.06.2016

Дописал первую версию генератора.

Требуется ли поддержка баз данных в следующих версиях софта (первая будет на днях) ? И если да то каких?

PS Сейчас все на файлах.

J-ran:
Есть возможность задать максимальную длину предложений?

Сейчас отталкивается от минимальной длины 100 символов с пробелами, можно вынести эти насройки в панель управления. Над длиной перемешиваемых фрагментов еще буду работать, первый этап - это как раз сделать нарезку по знакам препинания и предлогам.

Я выше писал что данный алгоритм берет релевантные предложения по ссылкам из выдачи и перемешивает их с нерелевантными. Есть еще алгоритм морфологической перествновки, но он на данный момент дает нечитабельный контент.

В моем алгоритме нет синонимизации и есть определение релевантности и регулирование числа вхождений базового запроса. В будущем планирую снижать объем включаемого блока из одного источника, что должно повысить уникальность без снижения других значимых параметров текста.

tanir23:
как говорится смотрю в книгу вижу фигу

ок, допилию немного позже..

tanir23:
слова обрезать до 4 знаков

оберзку можно добавить, остальное все в примере есть.

половина количества уникальных слов - это переспам сильный. процента 2-4% нужно.

---------- Добавлено 16.09.2016 в 10:29 ----------

"Разбавленный" нейтральными предложениями вариант:



---------- Добавлено 16.09.2016 в 10:35 ----------

Пример с удвоенным количеством иррелевантных предложений:

Рассмотрим подробнее структуру искусственных нейронных сетей (НС) и их применение в конкретных задачах. Следует отметить, что прогнозирование возможно только тогда, когда предыдущие изменения действительно в какой-то степени предопределяют будущие. Доказана обобщённая аппроксимационная теорема: с помощью линейных операций и каскадного соединения можно из произвольного нелинейного элемента получить устройство, вычисляющее любую непрерывную функцию с некоторой наперёд заданной точностью. В процессе обучения веса синапсов настраиваются таким образом, чтобы узлы решетки «располагались» в местах локальных сгущений данных, то есть описывали кластерную структуру облака данных, с другой стороны, связи между нейронами соответствуют отношениям соседства между соответствующими кластерами в пространстве признаков. Проводится следующее преобразование — выстраивается в ряд курс за сегодня, вчера, за позавчера. Например, прогнозирование котировок акций на основе котировок за прошлую неделю может оказаться успешным (а может и не оказаться), тогда как прогнозирование результатов завтрашней лотереи на основе данных за последние 50 лет почти наверняка не даст никаких результатов. В этом случае можно использовать многослойный перцептрон или сеть Ворда. В этой области приложений самым лучшим образом зарекомендовали себя так называемые нейронные сети – самообучающиеся системы, имитирующие деятельность человеческого мозга. Таким образом, если на проверочных данных ошибка уменьшается, то сеть действительно выполняет обобщение. Выбирать тип сети следует, исходя из постановки задачи и имеющихся данных для обучения. Это явление называется переобучением сети или оверфиттингом. Но тут возник вопрос у программиста - а где собственно прогнозируемое окно? если Result вычисляется используя Index0 для тестового массива, то в этом масиве уже есть фактические данные , а прогнозируемое окно на 24 свечи вперед, означает что этих фактических данных еще нет, а прогнозируемое окно уже должно показать что "будет". Ведь в известных результатах базы на этапе обучения есть только номер победителя. При обучении сети предлагаются различные образцы образов с указанием того, к какому классу они относятся. Нейронные сети в простом варианте Кохонена не могут быть огромными, поэтому их делят на гиперслои (гиперколонки) и ядра (микроколонки). Обучающие данные подаются сети для обучения, а проверочные используются для расчета ошибки сети (проверочные данные никогда для обучения сети не применяются).

Лучше разбавить предложениями, которые алгоритм посчитал иррелевантными, то есть без вхождения ключа в любой форме. Чем и занимаюсь..

Синонимайз палится по тому же Ципфу, только на более широкой выборке. Ну какова вероятность встречи в тексте слова "сущность", да еще и столько раз, это же сразу видно что распрделения завалены, синонимайз не вариант, однозначно.



* бренднейм -> звездочки чтобы не поднимать страницу по нецелевому запросу.

Новый алгоритм, собирает мозаику из релевантных предложений тематических статей. Пример работы:



Всего: 704