По твоей ссылке:
Я разве не об этом выше говорил?
Кроме элизы знаешь сколько чатботов написано за всю историю?
Даже Siri не понимает о чем сообщает, хоть она и написана не в 1966 году
Не совсем.
Цепи Маркова применительно к генерации текста - это вероятностный выбор нового слова в цепи опираясь на Х предыдущих слов. В пандоре есть 2х и 3х словная длина цепи.
А пословная генерация нейросетью работает так: все слова текста заносятся в словарь. Получается что при побуквенной генерации как бы тоже есть словарь, только он состоит из букв и символов(суммарно 50..60 знаков в словаре получается).
А при пословной генерации получаются десятки тысяч слов в тексте, что как можно заметить гораздо больше). Словарь поэтому раздувается пипецки сильно. Обычно без настройки параметра -threshold тут тупо заканчивается оперативка внутри видяшки. Если через threshold обрезать словарь так чтобы были только часто упоминаемые слова, то тренировку сети все же удается запустить даже на слабеньких карточках, что я и сделал во 2м из 3х моих тестов.
Далее последовательность уходит на обучение сети. Сеть - это кучка искусственных нейронов со своей собственной памятью. Каждый нейрон "помнит" что через него прогонялось, какие были символы до него, на 2 шага до него, на 3 шага и тоже самое вперед, на 1 шаг, на два шага и т.д. Это задается настройками. Когда сеть запомнила что да как, можно дать ей всего 1 символ на вход и она начнет галлюцинировать ) То есть использовать свою накопленную память.
Важный момент, если слоев 2 или более то результаты галюнов первого слоя уходят на вход следующему слою и т.д.
Это то как я понимаю работу сети, не факт что правильно) Все имхо
Так что разница есть, похоже, но есть. Хоть ее и трудно объяснить
Вот тут офигенно описано то как работают сети. Не про генерацию текста, но вообще про сети.
---------- Добавлено 19.11.2016 в 23:58 ----------
Отбрось свои заблуждения
Серверная убунта - это ось "Ubunta Server".
А просто убунта - это просто обычная десктопная ось, такая же как и венда
Хочу пару мыслей добавить.
1. kxk, Надеюсь ты не понтануться решил просто? А то жеш есть и покруче карточки, например titan x
2. Ни на какой карточке и ни при каком размере сети/числе слоев между предложениями не начнет появляться смысл. Предложения в абзаце текста не станут логически связаны.
Выдуманные слова уйдут если юзать пословную генерацию, а не побуквенную. Теоретически, их и в побуквенной их станет очень мало на большом объеме входного массива текстов. И чтобы долго не ждать как раз тут помогла бы хорошая видяшка. Но все-таки..
Никак не получится сделать так, чтобы текст был осмысленным. Будут возможно лет через 20..30, одновременно с появлением настоящего искусственного интеллекта. Но не щас.
Если не ошибаюсь, то осмысление - это результат работы высшей нервной деятельности. А как она работает - до сих пор никто ниче не знает.
Ок, подбери, потом нам расскажешь. Давай примерно в таком формате
Я бы подсказал че и как под винду, но не видел наработок таких. Единственное что есть тут
Давай под убунтой. Ставь, прокинь мне тимвювер, а я помогу все остальное настроить
Ап ContentBox 2.2
Фикс парсинга проксей в проксичекере
Снипеты теперь при парсинге проверяются на успешность парсинга
Доработан парсинг бинга - число ошибок уменьшилось на паблик проксях
Добавлена опция дебага при парсинге: сохраняются страницы по которым получены BAD ответы
Обещанные результаты по torch-rnn: https://www.sendspace.com/file/w6gh38---------- Добавлено 16.11.2016 в 23:30 ----------
Можно, на вики сделайте поиск слова "анонс"
Еще попробую сегодня https://github.com/jcjohnson/torch-rnn
Результаты также выложу в топик
Развлекся с генерацией на основе нейросети.
Побуквенная генерация
Результат генерации нейронной сети http://pastebin.com/CLmeesLh
Входные данные: книжка "сказка о тройке" Стругацких, 600кб, сеть: 2 слоя, размер сети 256 и 512
Обучение шло полтора часа, использовалась видеокарта geeforce 730 gt
Еще вот результат побуквенной генерации 3х(3 слоя - получше) слойной нейросети: http://pastebin.com/jCRUkCdm
Что бы поиграться нужно: немного знать линух(например убунту) и не самая плохая видяшка
Как выбрать видяшку: https://developer.nvidia.com/cuda-gpus
Я тестил на nvidia geforce 730 gt ddr5
Инструкция по установке : https://github.com/karpathy/char-rnn
И еще попробовал пословную генерацию
Результат пословной генерации 3х слойной сетью в аттаче
Инструкция по установке : https://github.com/larspars/word-rnn
Видно что гораздо лучше
Сразу обрадую. Генератор на основе этих алгоритмов я писать не планирую, но вы, друзья, можете самостоятельно повторить мои эксперименты у себя дома, на своих машинах.
В результате у вас будет вот такая текстовка как в последнем примере. Практически неисчерпаемый запас и при этом уник. Хоть и бред )
Перезаливал почти сразу с фиксом этой ошибки
Если ошибка проявляется, то нужно перекачать вручную и заменить .exe файлы
И важно еще выключить переименование. Так как если страниц 5000, то значит и уникальных имен картинок будет 5000.