- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Очень тяжелый, однако.
Если делать 10 000 текстов по 2000 символов, то при двух секундах на тысячу генерация займет больше десяти часов.
В реальности релизная версия может тратить и 10 секунд на тысячу букв.
Тогда генерация тех же текстов займет до 60 часов.
Можно купить под эти цели старый системный блок и поставить на балкон.
Но это все планы. Пока еще делать и делать основную генерацию.
Почти марковка и есть. С небольшими отличиями и дополнительными возможностями.
Тот же анализ предыдущих слов, только эта "сеть" позволяет взвешивать варианты по множеству "флагов", а не только по набору предыдущих слов.
Да зафигачиваешь по маркову не слово, а слово+часть речи и уже гуд. Если текст собираешь по тематике, то на выходе получишь подобный уникальный тематический бредо-текст.
А множество флагов это на усмотрение, но это уже пост обработка готового текста.
Если хочешь генерить "осмысленную" статью, то анализ и обучение должен быть "статья" -> "абзац" -> "предложение" -> "слова" или еще сложнее.
Или типа как генератор сказок ))
У тебя как процесс обучения сети проходит?
Если хочешь генерить "осмысленную" статью, то анализ и обучение должен быть "статья" -> "абзац" -> "предложение" -> "слова" или еще сложнее.
Или типа как генератор сказок ))
У тебя как процесс обучения сети проходит?
Генератор сказок посмотрел, генерирует связно. Похоже на заполнение составленных человеком шаблонов.
Сама генерирующая структура, если писать так же кратко, обучается так:
"предложение" -> "соседние предложения" -> "преобразование получившихся данных в хеш(массив) слово/параметры/флаги" -> "собственно обучение по одному такому слову-параметру" -> "переход к следующему предложению".
То есть абзац и статья в целом не учитываются.
У тебя есть идеи, как можно учесть параметры текста на уровне хотя бы абзаца?
Определять тематику и "оттенок" по ключевым словам или байесом, а затем добавлять их к каждому слову предложения как параметр/флаг?
Если бы у меня был отдел программистов :kozak:🤪🤪🤪🤪 и полгода на достаточный для этого анализ русского языка.
Или лучше сделать по-другому?
5 ил 6 ле нзд такую технологию использовал. с 10 гиг массивом текста по усредненным общим тематикам, несколько не то что мне сейчас нужно..
5 ил 6 ле нзд такую технологию использовал. с 10 гиг массивом текста по усредненным общим тематикам, несколько не то что мне сейчас нужно..
А сколько по времени проходило обучение этими 10Гб?
В этом есть проблема, потому что для полного обучения нужна большая выборка текста, но дожидаться ее обработки получается долго.
Переобучать желательно хотя бы раз в несколько дней, чтобы посмотреть что получилось в результате правок кода.
Поэтому приходится использовать мини-выборки в 10-15Мб.
неделю где-то камп грелся, а 10-15метров это почти рандом
у тебя сколькислойная она?
А может быть текст должен составляться так же как пишутся любые произведения?
Тематика -> Ядро текста из блоков, как писали сочинение в школе: пролог, завязка, фабула, развязка, заключение (или как оно там я уже не помню) -> Составление тематических фраз -> Облагораживание предложений с помощью воды и общеупотребительных предложений.
Просто когда ты уже всему этому научен, ты пишешь сразу, но на подсознании ты уже продумываешь следующие фразы. А когда пишешь следующие фразы то помнишь о чем написал раньше.
Скрипт должен обучаться как ребенок в начальных классах. От простого к сложному. Просто машине не нужно тратить время на запоминание...
Но сам алгоритм: простое -> проверка -> усложнение простого -> проверка -> еще большее усложнение -> проверка -> наливание воды -> проверка.
А может быть текст должен составляться так же как пишутся любые произведения?
Тематика -> Ядро текста из блоков, как писали сочинение в школе: пролог, завязка, фабула, развязка, заключение
Глубоко копаешь...
Если удастся получить тематичность и согласованность отдельных предложений между собой в рамках небольшого абзаца из трёх-четырёх предложений - это уже будет прорыв ☝.
А то, о чём ты написал, проще реализовать на спарсенном копипасте. Скриптом искать в выдаче статьи по определённой тематике, укладывающиеся в заданный диапазон символов (3-4 тыс. зн/без пр., например). Дёргать первые 1000 знаков, последние и соответственно середину. Перемешать каждую из групп отдельно. Стыкануть по знакам препинания длинные предложения, короткие и так сойдут. И слепить статью. Вполне читаемо и тематично получится. И будет прослеживаться (должно :)) вступление, тело статьи и заключение.
Скриптом искать в выдаче статьи по определённой тематике, укладывающиеся в заданный диапазон символов (3-4 тыс. зн/без пр., например). Дёргать первые 1000 знаков, последние и соответственно середину. Перемешать каждую из групп отдельно. Стыкануть по знакам препинания длинные предложения, короткие и так сойдут. И слепить статью. Вполне читаемо и тематично получится. И будет прослеживаться (должно ) вступление, тело статьи и заключение.
Это я и так знаю. Делал так...
Всегда было интересно именно написание с нуля.
Если удастся получить тематичность и согласованность отдельных предложений между собой в рамках небольшого абзаца из трёх-четырёх предложений - это уже будет прорыв
это не так сложно как ты представляешь.. вы многие просто не видите определенных вещей..