Сейчас генерирую на такой конфигурации (старенький MacMini)
2,5 GHz Intel Core i5 - двухъядерный + HT до 4х виртуальных ядер как обычно.
8 GB 1333 MHz DDR3
диск обычный SSD, часто свопит из-за недостатка RAM.
Видеокарта на этом компьютере слабая и разбираться с вычислениями на ней было некогда, использую CPU.
Буду признателен за комментарии.
Продавать доргены не планирую. Интересно сделать именно "виртуального блогера", больше для литературного вдохновения.
Тема в этом разделе потому, что здесь есть специалисты и можно получить профессиональные ответы, а на форуме филологов мало кто понимает технические и алгоритмические вопросы.
На "прорыв в нейронке" и игру на уровне Яндекса замысел этой темы, к счастью не претендует.
Пока в процессе базовая задача начального уровня, о будущем говорить рано.
За прошедшие несколько дней я немного улучшил алгоритм. Тексты стали немного правильнее и генерируются быстрее. Теперь на 1000 знаков уходит 5-7 секунд. Но в планах добавление дополнительного функционала, который скорее всего снова увеличит это время до 10-15 секунд.
Сейчас базовый сайт для эксперимента уже развернут. До запуска эксперимента остались как минимум четыре серьезные задачи:
1. Сбор коллекции материалов для дообучения сети и несколько запусков этого обучения с разными параметрами.
2. Поиск и выбор ключевых фраз.
3. Поиск способов естественного внедрения ключевых фраз в нужном количестве в title, description и текст "статьи".
4. Механизм автоматической перелинковки статей сайта.
Как только на сайте появится приемлемый текстовый контент, еще до открытия сайта для поисковых систем, опубликую URL, если кому-то будет интересно посмотреть.
J-ran
Во многом я согласен. Поэтому приходится либо сдаваться и бросать, либо попробовать найти микроскопическую нишу и сделать что-то. Мне ближе второй вариант. Хотя бы потому, что это интересно.
Tecak
Иногда в интернете встречаю тексты, с виду правильные, но остается ощущение, что либо у копирайтера нечеловеческий литературный стиль, либо это точно ИИ
5LJRRP
Тема выглядит перспективной для большого бизнеса. При этом у меня нет иллюзий о возможности конкурировать с ними. Но создание своего электронного блогера, надеюсь, осилю.
Слава Богам! Сам великий Халиф NumNum снизошел до моего скромного топика.
Приветствую Вас, Учитель.
(... с видом Джека Воробья делает жест треуголкой ...)
Воистину так!
Между хобби и коммерческим продуктом огромные различия.
Но на то и хобби, чтобы делать и обсуждать что-нибудь в свободное время.
Спасибо всем за ответы.
У тебя неправильное представление об ИИ.
А если заглядывал бы в википедию, то знал бы что ИИ это в том числе
"свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека"
Творчество в написании текстов не подразумевает, что оно понравится тебе, Lastwarrior.
Постоянное обучение - это хорошо и я хотел бы реализовать такое в программной части.
Но, как мне известно на этом этапе, русский язык очень сложен,
и чтобы полностью обучить ему программу нужно либо добавлять поддержку сенсоров вида
как минимум:
1. микрофонов с софтом распознавания содержания, интонаций и эмоциональной окраски речи
2. видеокамер с софтом анализа ситуаций, выражения лиц, артикуляции и жестикуляции
то есть обучать его как ребенка несколько лет на примерах из жизни.
либо вручную описывать правила грамматики, лексики, фразеологии, синонимов, этикета (и многого другого) русского языка, для которых не существует даже словарей или формализованных законов. Этот вариант я оценил бы в пять тысяч человеколет. То есть тысяча человек лет за десять может справиться. Пример частичной реализации - алгоритмы Яндекса, хотя они из другой области.
Как видишь, оба варианта мне недоступны. Но захотелось генерировать тексты. Потому делаю это теми способами, которые мне доступны.
А здесь некоторые пишут мне полезные, дельные вещи.
Хотя даже ты, Lastwarrior, мне помог.
Это верно и полезно будет добавить дополнительный тип самостоятельного дообучения на необработанных текстах. Как ты наверно понимаешь, это очень сложно, потому еще не сделано. Но идея хорошая, спасибо.
Нах, дорогой мой хороший ((с), Вольнов Валерий Павлович), здесь нужен только ты. Почему бы тебе туда и не проследовать и не загрязнять мне тему комментариями не по делу и карму минусами?
extruder
Если это возможно автоматизировать, то было бы полезно.
Работать может по тому же принципу, что и в Google WM tools -> посмотреть как Google bot -> запросить индексирование.
Если бот зашел на страницу, вполне возможно, что полученные данные могут пойти в индекс.
Точно. С детства мечтал сделать ИИ. Но конкретно здесь может подойти что-нибудь попроще. Главное, чтобы выглядело приемлемо и было интересно почитать.
Тематика супер. Но я в ней совсем не разбираюсь.
Мне ближе литература или общие разговоры о том, как заработать, ведь статьи на эту тему тоже тоже часто ищут.
Сгенерировал десяток длинных текстов. Среди них действительно не нашлось двух идущих подряд предложений, по которым можно было бы точно сказать, что они написаны человеком.
Логика связи слов работает на очень базовом уровне.
Морфологии, Маркова, статистики весов n-грамм и других подобных наборов недостаточно, чтобы фразы выглядели человеческими.
Но это не мешает им иногда быть оригинальными и интересными.
Если бы удалось сделать текст более человечным и при этом сохранить нечеловеческую оригинальность оборотов, задачу можно было бы считать решенной.
Возможно, получится перед генерацией текста, подобно мозгу генерировать мини-основную-мысль, содержащую главный смысл и последовательность развития логики текста.
Вижу, в теме уже появились ответы.
KLKL и tanir23 - благодарю за реальные варианты. При обучении буду использовать именно их.
Хитросовокупленный Додик - мимо. Похоже твои идеи интересуют только тебя.
Ringozo
Когда я начал делать проект, то даже не читал темы в этом разделе этого форума. И вообще на SE заходил редко. Изначально хотел сделать виртуального блоггера, которого было бы интересно почитать.
Сюда пришел потому, что на некоторые вопросы не нашел ответ сам.
Сайт, о котором идет речь в топике, не планировалось обвешивать рекламой. Мне интересны качество и естественность текстов. Такое у меня увлечение в свободное время.
Lastwarrior
Версия сети, используемая сейчас, еще очень далека от релиза. И лично мне бывает интересно почитать, что она там понапишет. Как ценитель литературы тебе говорю. Иногда такое выдает.
Сайты в этом для меня не на первом месте. Сама технология не планировалась для использования в дорах.
_Snake_
Совершенно точное замечание, что часть логики сети является в своей сущности вариантом Маркова. Как, подозреваю, и в речевом аппарате мозга. Но это не вся технология.
Продавать что-то за копейки на таком небольшом рынке не в моих планах.
Замысел был простой и честный.
С вашей стороны
напоминания мне, чтобы я не забрасывал работу над основным проектом
обратная связь и комментарии по улучшению качества текстов
может быть узнаю что-нибудь интересное о SEO
С моей стороны
информация о том, как индексируются подобные тексты на конкретном сайте, который вы сможете посмотреть лично
некоторые особенности реализации, без деталей
примеры текстов, динамика их изменения и, возможно, оценка результатов таких изменений
Если есть люди, которым будет интересно почитать такое, ок.
Если нет - то, надеюсь, в этом посте есть основные ответы.
В гугле не ищется, видимо уник 100%.
Ответка от нейронов.