Вот как раз размножение и синонимайз палится алгоритмами, даже знаю как и по какому признаку, можно годами собирать базу, спалит все равно.
То что делает нейронка качественная не спаилит ни один поисковик, и человек тоже не спалит.---------- Добавлено 06.09.2016 в 20:43 ----------
за 1mb вменяемого текста сколько готов платить? навскидку.
Псевдонейронка без весовых коэффициентов ))))
Если удачно подобрать структуру нейронной сети и правильно обучить то в некотором приближении это будет похоже на исходный текст. Теоритически да, вопрос в том сколько слоев в нейронке будет и какой массив придется завести в нее, скорее всего одними стихами не ограничится, это целая исследовательская работа, для сайтов проще текст можно делать.
Плюс если расчитать мощность мозга в флопсах, объем накопленной информации, задействованной в синтезе, то задача для суперкомпьютера может оказаться предельной, опять же вопрос в приближении, нейронная сеть позволяет делать качественную имитиацию в некотором приближении, полный аналог получить скорее всего не удастся.
Нужно учитывать что структура нейронной сети, точнее ее математическая модель, для рядового автора индексируемого поисковиками контента существенно уступает в сложности и уровнях синтеза слогу выдающихся мастеров слова, потому в усредненном варианте задача ставится намного проще и она реализуема.
нейронная сеть, в случае генерации текста ее обучают на массивах тематического контента.
так я и работаю над генерацией текста, генератор сайтов это больше смежная разработка, что-то вроде движка под это дело.
чтобы сделать качественный текст нужно очень много чего перебрать, в итоге это практически нейро получается, его и нужно генерить нейро, а в нейро основная часть это обучение, есть промежуточные этапы, упрощающие процесс, вроде того что я выше привел.
PS с чистой нейро бред может сгенериться, придется добавлять еще одну ступень, очень навороченная система получается и внедрять ее нужно последовательно.
Это добавляет новый приоритет разработок.
Вопрос: морфогенератор текста в софт добавлять?
Суть алго генерации кратко состоит в том, что берется небольшой отрывок текста, например полученного парсингом, анализируется его структура а затем часть слов земещаются на другие относящиеся к той же части речи что и исходник, то есть на сходные морфологические единицы, причем с близкой к оригиналу частотой вхождения в базовый текст. То что получается на выходе читабельным можно назвать с натяжкой, но по мере роста объема выбрки исходного текста качество текста на выходе возрастает.
Нужен ли такой генератор в софте?
PS такой алго - это псевдонейронка, имитирующая работу нейро в некотром приближении, своего рода шаг на пути создания действительно качественного генератора читабельного текста, причем если добавить еще некотрые алго кроме нейро можно синтезировать даже семантические формы, то есть вести речь о появлении подобия осмысленности и новизны в полученных предложениях.
Код закрывать не буду, так что допилить реально будет. По регуляркам - лучше phpQuery - пару строк выдернуть нужный элемент.
по итогам теста - лучше использовать свои заготовленные тексты.
Парсеры статей в доргене нужны/пригодятся ?