TopperHarley

TopperHarley
Рейтинг
350
Регистрация
24.03.2009

По твоей ссылке:

...увлечённый пользователь через несколько минут убеждался в отсутствии у машины понимания сути вопросов. Всё происходило из-за того, что человек придает каждому слову смысл, а машина интерпретирует слово как символьные данные.

Я разве не об этом выше говорил?

Кроме элизы знаешь сколько чатботов написано за всю историю?

Даже Siri не понимает о чем сообщает, хоть она и написана не в 1966 году

_Snake_:
По есть получается, та же самая морковка?

Не совсем.

Цепи Маркова применительно к генерации текста - это вероятностный выбор нового слова в цепи опираясь на Х предыдущих слов. В пандоре есть 2х и 3х словная длина цепи.

А пословная генерация нейросетью работает так: все слова текста заносятся в словарь. Получается что при побуквенной генерации как бы тоже есть словарь, только он состоит из букв и символов(суммарно 50..60 знаков в словаре получается).

А при пословной генерации получаются десятки тысяч слов в тексте, что как можно заметить гораздо больше). Словарь поэтому раздувается пипецки сильно. Обычно без настройки параметра -threshold тут тупо заканчивается оперативка внутри видяшки. Если через threshold обрезать словарь так чтобы были только часто упоминаемые слова, то тренировку сети все же удается запустить даже на слабеньких карточках, что я и сделал во 2м из 3х моих тестов.

Далее последовательность уходит на обучение сети. Сеть - это кучка искусственных нейронов со своей собственной памятью. Каждый нейрон "помнит" что через него прогонялось, какие были символы до него, на 2 шага до него, на 3 шага и тоже самое вперед, на 1 шаг, на два шага и т.д. Это задается настройками. Когда сеть запомнила что да как, можно дать ей всего 1 символ на вход и она начнет галлюцинировать ) То есть использовать свою накопленную память.

Важный момент, если слоев 2 или более то результаты галюнов первого слоя уходят на вход следующему слою и т.д.

Это то как я понимаю работу сети, не факт что правильно) Все имхо

Так что разница есть, похоже, но есть. Хоть ее и трудно объяснить

Вот тут офигенно описано то как работают сети. Не про генерацию текста, но вообще про сети.



---------- Добавлено 19.11.2016 в 23:58 ----------

kxk:
TopperHarley, Бунты и тп это серверное, нелюблю бунты на десктопах и никогда не пойму.

Отбрось свои заблуждения

Серверная убунта - это ось "Ubunta Server".

А просто убунта - это просто обычная десктопная ось, такая же как и венда

Хочу пару мыслей добавить.

1. kxk, Надеюсь ты не понтануться решил просто? А то жеш есть и покруче карточки, например titan x

2. Ни на какой карточке и ни при каком размере сети/числе слоев между предложениями не начнет появляться смысл. Предложения в абзаце текста не станут логически связаны.

Выдуманные слова уйдут если юзать пословную генерацию, а не побуквенную. Теоретически, их и в побуквенной их станет очень мало на большом объеме входного массива текстов. И чтобы долго не ждать как раз тут помогла бы хорошая видяшка. Но все-таки..

Никак не получится сделать так, чтобы текст был осмысленным. Будут возможно лет через 20..30, одновременно с появлением настоящего искусственного интеллекта. Но не щас.

Если не ошибаюсь, то осмысление - это результат работы высшей нервной деятельности. А как она работает - до сих пор никто ниче не знает.

Ок, подбери, потом нам расскажешь. Давай примерно в таком формате

Я бы подсказал че и как под винду, но не видел наработок таких. Единственное что есть тут

Давай под убунтой. Ставь, прокинь мне тимвювер, а я помогу все остальное настроить

Ап ContentBox 2.2

Фикс парсинга проксей в проксичекере

Снипеты теперь при парсинге проверяются на успешность парсинга

Доработан парсинг бинга - число ошибок уменьшилось на паблик проксях

Добавлена опция дебага при парсинге: сохраняются страницы по которым получены BAD ответы

Обещанные результаты по torch-rnn: https://www.sendspace.com/file/w6gh38

---------- Добавлено 16.11.2016 в 23:30 ----------

Максим Кизима:
Можно ли как-то реализовать? В посте есть картинка. Можно как-то добавить ее в анонс? На страницу раздела CAT, чтобы была релевантная посту картинка.

Можно, на вики сделайте поиск слова "анонс"

Еще попробую сегодня https://github.com/jcjohnson/torch-rnn

Результаты также выложу в топик

Развлекся с генерацией на основе нейросети.

Побуквенная генерация

Результат генерации нейронной сети http://pastebin.com/CLmeesLh

Входные данные: книжка "сказка о тройке" Стругацких, 600кб, сеть: 2 слоя, размер сети 256 и 512

Обучение шло полтора часа, использовалась видеокарта geeforce 730 gt

Еще вот результат побуквенной генерации (3 слоя - получше) слойной нейросети: http://pastebin.com/jCRUkCdm

Что бы поиграться нужно: немного знать линух(например убунту) и не самая плохая видяшка

Как выбрать видяшку: https://developer.nvidia.com/cuda-gpus

Я тестил на nvidia geforce 730 gt ddr5

Инструкция по установке : https://github.com/karpathy/char-rnn

И еще попробовал пословную генерацию

Результат пословной генерации слойной сетью в аттаче

Инструкция по установке : https://github.com/larspars/word-rnn

Видно что гораздо лучше

Сразу обрадую. Генератор на основе этих алгоритмов я писать не планирую, но вы, друзья, можете самостоятельно повторить мои эксперименты у себя дома, на своих машинах.

В результате у вас будет вот такая текстовка как в последнем примере. Практически неисчерпаемый запас и при этом уник. Хоть и бред )

txt 1.txt
Realtyman:
Сгенерил дор. В новой версии перестало переименовывать css классы и id

Перезаливал почти сразу с фиксом этой ошибки

Если ошибка проявляется, то нужно перекачать вручную и заменить .exe файлы

Mish-ka:
Чувствую, что решение очень простое, но что-то нервы сдают, в поисках.

И важно еще выключить переименование. Так как если страниц 5000, то значит и уникальных имен картинок будет 5000.

Всего: 2916