статью прочитайте.
Больше полугода пользуюсь https://gomockingbird.com/mockingbird/ очень удобно, попробуйте. До этого рисовал макеты в Inkscape, долго и нудно.
ну для настоящего мастера своего дела это не сложнее чем написать классификатор файлов по их расширению, vitali_y уже справился, жаль только что его поделка глубока альфа но все же потенциалом "попахивает" :)
насколько я знаю в МГУ раздавали первую версию анализатора она же была в свободном доступе, яндекс же купил версию 2+ отличаются они (со слов разработчиков) алгоритмом синтаксического разбора и расширенным набором связей в получаемом дереве.
первая версии после плясок с бубном запускается (и работает) в *nux. жаль конечно что исходников не достать...
алгоритм глуп и не универсален, жестко привязан к имеющейся базе.
Текст обработанный синонимайзером бьется на нграммы, частотность полученных nграмм сверяется с "эталонной" в БД.
Если частота в результирующем тексте близка к нулю полученная нграмма считается неестественной и либо откатывается к исходной либо подбирается другой синоним и все с начала.
прикинь щас лично сам медвед целую пару выносил нам моск в гз универа
# # прикинь 102 # прикинь щас 78 прикинь щас лично 6 щас лично сам 9 сам медвед целую 0 целую пару выносил 0 выносил нам моск 1 нам моск в 0 моск в гз 0 в гз универа 1
с увеличением размерности nграм растет объем БД, уменьшается количество замен. с 3-граммами будет еще хуже. по мне так это тупиковая ветвь в технологиях спама.
kapow_expert, дело не в объеме словарей или размерности нграмм, на качество в первую очередь влияет используемый алгоритм. под качеством подразумевается не количество замен а "человечность" получаемого текста.
Top for the good, наверное вот это имелось ввиду: http://ru.wikipedia.org/wiki/Scigen
vitali_y, к чему выносить свое невежество на показ? если вы считаете что все вокруг пользуются молотками, это не значит что так и есть.
проблема захламленности рунета генерированными текстами на данный момент не может быть решена полностью, глупо это отрицать.
Для продажи ссылок и манипуляции выдачей.
Думаю банальная экономия ресурсов.
При желании я мог бы генерить тысячи ГС с синонимизированным контентом автоматизировав процесс до нажатия одной кнопки. Я не жадны и продал свои наработки еще сотне умельцев. Допустим 500 человек по 3000 сайтов по 3000 страниц с 3000 тысячами знаков на каждой. ~12TB мусорного контента в день. сервера для обработки подобного объема информации стоят немалых денег а пользы от полученного результата нет.
вовсе не он. в вводной статье все расписано, я почти месяц сидел в настоящей бумажной библиотеке.
G00DMAN, спасибо, все вышеприведенное давно зачитано до дыр. Вы случайно не подскажите где коллекции с РОМИПа добыть?