Попробовал морфологическую генерацию одного текста из 10 и очень обломался поскольку кроме морфлогии в тексте нет ничего читабельного, уникальность достичь получилось, распределение похожее на нормальный текст - тоже получилось. Содержательность - нет.
Читабельность удалось получить на базе текста в 10Gb.
Кому интересно стуите в аську за примерами морфогенерации, может кому-то такое качество покажется приемлемым.
это как? мешанина слов уделывает белый текст?---------- Добавлено 09.09.2016 в 19:52 ----------bolyk, вы не просто дисперсию по стандартному распределению смотрите?
apt-get install libfann*
дальше
1. скармливаешь нейронке пачку текста отборного.
2. скармливаешь пачку плохого текста, который банится.
3. показываешь нейронке произвольный текст, смотришь какую вероятность похожести показывает.
вот и весь алго проверки.
FANN ? или питоний аналог
Что за софт? Нейронка?
Если не сложно, запостите примеры генераци текста, самого высокого качества из того, чт известно вам, достаточно 300-500 символов, то есть 2-3 предложения. необходим ориентир для настройки алгоритма.
Если стоит задача обойти признаки по которым идет бан, то почему не создать своего банбота, обучить его на уже имеющихся забаненых сайтах и им проверять, это сэкономит массу вермени и доменов тоже.
мануал под подобную систему это сложно..
начал уже кодить, допишу, по txt учёл.
Действительно интерфейс еще очень сырой и многие меню находятся на стадии разработки. Настройки по уровням в текущей версии, котрая сейчас дописывается, отключены, активно всего два уровня.
С парсерами меню вообще хочу убрать)), в нем нечего настраивать, автоматическая ротация, парсятся сразу все ПС, сниппеты выбираются впермешку из разных источников.