Именно. Если делать чистую нейро-генерацию, результат может удивить заказчика еще больше.
Генератор сказок посмотрел, генерирует связно. Похоже на заполнение составленных человеком шаблонов.
Сама генерирующая структура, если писать так же кратко, обучается так:
"предложение" -> "соседние предложения" -> "преобразование получившихся данных в хеш(массив) слово/параметры/флаги" -> "собственно обучение по одному такому слову-параметру" -> "переход к следующему предложению".
То есть абзац и статья в целом не учитываются.
У тебя есть идеи, как можно учесть параметры текста на уровне хотя бы абзаца?
Определять тематику и "оттенок" по ключевым словам или байесом, а затем добавлять их к каждому слову предложения как параметр/флаг?
Если бы у меня был отдел программистов :kozak:🤪🤪🤪🤪 и полгода на достаточный для этого анализ русского языка.
Или лучше сделать по-другому?
Если делать 10 000 текстов по 2000 символов, то при двух секундах на тысячу генерация займет больше десяти часов.
В реальности релизная версия может тратить и 10 секунд на тысячу букв.
Тогда генерация тех же текстов займет до 60 часов.
Можно купить под эти цели старый системный блок и поставить на балкон.
Но это все планы. Пока еще делать и делать основную генерацию.
Почти марковка и есть. С небольшими отличиями и дополнительными возможностями.
Тот же анализ предыдущих слов, только эта "сеть" позволяет взвешивать варианты по множеству "флагов", а не только по набору предыдущих слов.
Серв (домашний комп) грузит в основном при обучении. Обработка небольшой обучающей выборки в 10-15Мб занимает около 40 минут на 2х ядерном Core-i5 и 8GB RAM. Генерацию сейчас оптимизировал с 10ти до 2х секунд на 1000 символов, но в планах добавление дополнительного анализа 4-5-6-грамм. При пробном подключинии этого модуля время сразу взлетело до 15 секунд на 1000, пока отключил.
Отлично, что текст держится в индексе. Значит, поисковые системы нормально относятся к таким текстам.
Пример читается хорошо и весело. Его можно дополнительно обработать, чтобы убрать лишние пробелы, но это дело вкуса.
Благодарю, что посмотрел.
После предыдущего сообщения от J-ran до меня стало доходить как мало я знаю о теме в целом. Нужно будет подумать подробнее о тематике и о том, как вообще все это делается.
Это просто мега-сообщение, J-ran. И про выбор тематики, и про технологии.
Создал отдельную заметку и сохранил текст, чтобы перечитывать для просветления.
По результатам опроса тематика получилась
Заработок в интернете с добавлением транспортной тематики.
Название домена связано с финансами, поэтому любые околофинансовые темы должны подойти.
Ценю твое экспертное мнение, Vitalliano.
Как думаешь, по какому варианту пойдут события:
1. Робот не будет обходить сайт
2. Будет обходить, но в индекс страницы не попадут
3. Страницы попадут в индекс, но траффика не будет вообще.
4. Будет индекс и будет траффик, но все-равно "что-то не так"
5. Будет индекс, но потом бан (через какое время?)
Совершенно правильное замечание.
Смысл того, что делается сейчас – проверить параметры индексации сгенерированных таким алгоритмом текстов.
Этой информации я не нашел и лично мне интересно узнать, как они поведут себя на среднем сайте.
1. С какой скоростью и в каком количестве страниц проиндексируются Yandex&&Google
2. Будет ли хоть какой-нибудь траффик
3. Сколько пробудут в индексе
Тексты сгенерировались случайно, куда какой попал, так и остались.
Я по возможности не цензурирую и не выбираю их, чтобы не портить чистоту эксперимента.
Те, что на сайте, сгенерированы более новой версией системы и могут немного отличаться.
Алгоритм генерации "excerpt" (краткого содержания) из текста тоже не сделан. Поэтому на главной тексты с другими параметрами, чем полное содержимое статьи.
Ключевиков у меня нет. И нет опыта работы с ними.
На днях планирую заняться парсингом вордстата.
Размер модели огромен, а крайний вес ужасает. 🤪
Мне непонятно, что вы имеете в виду. Наверно потому, что я мало знаю о нейронных сетях.
Размер обучающей выборки сейчас около 15Мб, а номер эпохи всегда равен единице.
Веса после обучения проходят дополнительную обработку для сглаживания распределения.
Мои эксперименты показали, что дополнительные итерации обучения ухудшают результат.
Вообще вопросы интересные. Вы могли бы написать, что означают эти термины - Размер модели и Крайний вес?
И, если вас не затруднит, описать подход к генерации, который считаете наиболее правильным.
Примерно так же можно подойти к скульптору за работой и спросить его
"Это именно та скульптура, которую Вы говорите можно с интересом посмотреть?".
Если у меня будет время и желание доделать этот проект, то рано или поздно степень интересности станет видна.
Больше всего в ситуации с вашим, Алвель, вопросом, мне хотелось бы увидеть полностью сгенерированный достаточно длинный русскоязычный текст, который был бы лучше этого. Пока мне не удалось найти такого. Может быть вы его встречали?
И, отвечая на вопрос. Это тот самый текст. В этой теме умные уважаемые люди уже прочли его и высоко оценили.
И если тебе, Алвель, не интересно, значит ты просто не понимаешь всю его глубину и мудрость. Иди, читай другие тексты.
Зарелизился шаблон сайта, который будет использоваться для эксперимента.
https://fintext. ru/?access
Чтобы зайти на сайт, нужно убрать пробел после точки и использовать в URL параметр ?access
Это сделано для того, чтобы сохранить чистоту эксперимента и не показать контент ботам раньше времени.
Тексты, которые размещены сейчас НЕ релизные, а добавлены для наглядности.
Также не сделаны ссылки, перелинковка, постраничная навигация и прочие мелочи.
+1
Тем временем сеть прошла первый этап обучения на текстах по заработку. Еще есть, что улучшить, но заданная тематика уже прослеживается.