Эксперименты с генерацией текста

12
Восток
На сайте с 27.09.2009
Offline
90
1653

Эксперементирую тут с генерацией текста, реализовал несколько алгоритмов.

№1 Вполнечитаемый текст, уникальность не очень


Борис выехал с раннего утра разнеслось известие, что должно отвернулся к своей дочери, выражавшееся знаменем. Кутузов презирал ум, и знал князь Андрей. Я знаю его с детства. Это был рослый мужчина, рыжеватый, с красным глупым лицом и оловянными глаза Александр, наклонив голову, чуть улыбнулся, рукой взял ее за плечи и толкнул ее к двери. Ступай, ступай, хотевший казаться грозным голосом запел Мальбрук в поход собрался.
Иди по своей пухлой белой шеи, направляясь на распространение просвещения в России, издание книг, воспитание духовных лиц, собрание библиотек и т. Сам он должен бы был вести произрастание, прошла за ним в горницу. Князь Андрей, я привезенный им императорским присутствия которые он один только раз приказывал, что здесь не нужно тонкостей, а он мне говоря ни слова, пошел из комнаты.

№2 Бесконечные предложения или речь шизофреника


Два месяца, сказал генерал, обращаясь к немцу, который украл какие то сапоги у ополченным главнокомандующим третьего округа, и единственное выражение, что все люди равны, и не раз внушал своей дочери и, чтобы развивать в ней обе главные добродетели деятельность, тем, чтобы сделать сцены ...

№1 с другими параметрами. Назовем это "Коротенькие предложения"


Месяц зашел за тучи. Уж не заехал ли я за цепь. Ему стало страшно, хотелось спросить у гусара и совестно. Убьют ни за грош. А не нынче убьют, завтра убьют. Однако спать хочется, ужасно хочется. Он с усилием открыл глаза. Месяц вышел из за туч. В левой стороне виднелся пологий освещенный скат и противоположный черный бугор, казавшийся крутым, как стена. На бугре этом было белое пятно, которого никак не мог понять Ростов поляна ли это в лесу, освещенная месяцем, или оставшийся снег, или белые дома. Ему показалось даже, что по этому белому пятну зашевелилось. Но месяц опять зашел. Выстрелит оттуда кто нибудь и убьет. Напрасно я поехал, думал Ростов. Вот тебе и не таш. Наташа, сестра, черные глаза. Вот удивится, когда я ей скажу, как увидал я государя. Нихт ферштейн, немец, да. И он, опустившись головой на перила.

Нечитаемая уникальщина:


Так что нибудь. Слишком больно для человека и программы, начертанным, главнокомандующей русской армии я не мог. Впереди гвардии, но по направление императору угодном, думал о том, широкого вниматери и взгляд Анны Павловна полиция их о их нуждах, убедили, и ему понято и правилась впереди.

Вопрос: Какую бы текстовку стали бы использоват вы? (Под яндекс, ибо гуглу вообще пох)

Источник: Война и Мир :)

S@shka
На сайте с 27.09.2009
Offline
157
#1

Попробуйте перемешать эти тексты, а по существу - не один, все эти варианты - крайности.

Восток
На сайте с 27.09.2009
Offline
90
#2

Все по перемешать а - один, Попробуйте тексты, - не крайности. варианты эти эти существу?

ziyt
На сайте с 27.03.2007
Offline
90
#3

Синдром на лицо.

Болен.

Отличный хостинг для молодых сайтов (http://timeweb.com/ru/?i=24129) | Купля продажа ссылок (http://sape.ru/r.f2e1160d6c.php) | Контекстная реклама Бегун (http://referal.begun.ru/partner.php?oid=92373137) | Контент для сайтов, форумов и блогов (http://advego.ru/8pP7QuRAU9)
Восток
На сайте с 27.09.2009
Offline
90
#4

Болен. лицо. Синдром на!

D
На сайте с 28.11.2008
Offline
33
#5

рукалицо.гиф

в поисках трактора...
[Удален]
#6

а смысл? все бьются над генерацией текста, но никто не может понять "зачем?"

Дeнис
На сайте с 14.05.2009
Offline
67
#7
monia:
а смысл? все бьются над генерацией текста, но никто не может понять "зачем?"

Как зачем? Чтоб СДЛ-ы небанящиеся лепить.

Надо например статью об устройстве пылесоса написать.

Что делаем? Лазим по интернету и на одном/двух/пяти сайтах узнаем полную информацию об устройстве пылесоса. А потом своими словами пишем статью, статью для людей.

Вот бы машина всё это умела делать.

А вообще интересно конечно, машина не может пока рассказать своими словами, а человеческий мозг может. Хотя мозг изначально не был запрограммирован на совершение такой операции, а развился как-то (х.з. как).

Короче, нужен самообучающийся парсер. И чтоб алгоритмы его работы сами апгрейдились и выходил на новый уровень. (фантастика, конечно)

И да, как мне представляется (я в этом деле лох) наш мозг мыслит не словами и предложениями, а образами, объектами и взаимодействиями одних объектов с другими. А уж потом интерпретирует это в разговорный язык его социальной группы, чтоб обмениваться информацией с себе подобными.

Наверное и информацию об объекте (том же пылесосе) в этом чудо-парсере-анализаторе надо собирать и структурировать на неком языке объекта/образа, а уже потом выдавать хоть на русском, хоть на английском.

зы: ну это конечно не уровень дорвейщика-одиночки, а уровень огромного института.

просто захотелось пофантазировать. :)

[]
danilweb26
На сайте с 13.07.2007
Offline
87
#8
Дeнис:
Как зачем? Чтоб СДЛ-ы небанящиеся лепить.
Надо например статью об устройстве пылесоса написать.
Что делаем? Лазим по интернету и на одном/двух/пяти сайтах узнаем полную информацию об устройстве пылесоса. А потом своими словами пишем статью, статью для людей.

Вот бы машина всё это умела делать.

А вообще интересно конечно, машина не может пока рассказать своими словами, а человеческий мозг может. Хотя мозг изначально не был запрограммирован на совершение такой операции, а развился как-то (х.з. как).

Короче, нужен самообучающийся парсер. И чтоб алгоритмы его работы сами апгрейдились и выходил на новый уровень. (фантастика, конечно)

И да, как мне представляется (я в этом деле лох) наш мозг мыслит не словами и предложениями, а образами, объектами и взаимодействиями одних объектов с другими. А уж потом интерпретирует это в разговорный язык его социальной группы, чтоб обмениваться информацией с себе подобными.
Наверное и информацию об объекте (том же пылесосе) в этом чудо-парсере-анализаторе надо собирать и структурировать на неком языке объекта/образа, а уже потом выдавать хоть на русском, хоть на английском.

зы: ну это конечно не уровень дорвейщика-одиночки, а уровень огромного института.
просто захотелось пофантазировать. :)

Еще сейчас начните про нейронные сети говорить!:)

Изготовление интернет-магазинов «под ключ» от 20000 рублей! (/ru/forum/839337)
response
На сайте с 01.12.2004
Offline
324
#9
Дeнис:

Наверное и информацию об объекте (том же пылесосе) в этом чудо-парсере-анализаторе надо собирать и структурировать на неком языке объекта/образа, а уже потом выдавать хоть на русском, хоть на английском.

высокие требования к исходной базе объектов, сильные заморочки в морфе скелетов предложений, большой объем ручной работы для худо-бедно заполненной базы скелетиков, способной на троечку описать хотя бы сотню объектов типа "пылесос" или "авто".

Когда речь идет не об адронном коллайдере, класс объекта имеет в среднем ну 10-15 полей характеристик (о методах/мессаджах и прочих взаимодействиях объектов не говорим). Эти цифры из довольно обширного опыта по сбору и обработке всех этих баз чудо-парсерами и анализаторами. Подавляющее большинство полей тех же бытовых приборов или автомобилей обладают малой вариативностью (например чайник выпускается всего в трех цветах, а у машины всего два подходящих варианта кондея: "есть" и "нет"). Это довод в пользу того, что прямым переносом значений полей в текст большого разнообразия не добьешься. Нужно ацки морфить структуру применяемых при описании заготовок. Например, есть 100 чайников. Надо описать их цвет. Допустим, 10 чайников обойдутся без описания цвета. 10 получат "заглушку", мол, цвет неизвестен или чайник очень красивый (заглушки, кстати, тоже не по щелчку пальцев берутся). Оставшиеся 80 чайников должны получить шатко-валко уникальное описание цвета. Сколько скелетов понадобится? Сколько скелетов можно сгенерить на основе базовых (введенных предварительно оператором)? Да тупо от руки попробовать накопирайтить 80 описаний цвета чайника - я пробовал (правда, с девочками 😂) - удовольствие воистину задротское.

Вывод: не забивайте голову. Грамотная работа с неуником куда продуктивнее изобретений генераторов контента.

Если строить систему с взаимодействующими объектами, получаем лавинообразный эффект, соотв. имеем множество состояний системы одних и тех же объектов. Упрощенно говоря, описав однажды Сашу и Машу и научив их различным телодвижениям, изменяющим состояние, получим широкие возможности по генерации контента, поступательно описывая изменения в состоянии системы. При таком раскладе скелетики сами по себе становятся более атомарными и меньшее их количество необходимо для получения большего числа уникальных текстов. Но готовы ли вы написать собственный смоллтолк, да еще научить его разнообразно документировать протекающие в сценариях взаимодействия объектов процессы?

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
Solo_by
На сайте с 19.06.2009
Offline
220
#10

response, а может ну их эти алгоритмы и проги, может лучше вот так?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий