Эксперимент с индексацией автонаполненного сайта

200Online
На сайте с 22.01.2017
Offline
86
#91
sidorka:
Очень тяжелый, однако.

Если делать 10 000 текстов по 2000 символов, то при двух секундах на тысячу генерация займет больше десяти часов.

В реальности релизная версия может тратить и 10 секунд на тысячу букв.

Тогда генерация тех же текстов займет до 60 часов.

Можно купить под эти цели старый системный блок и поставить на балкон.

Но это все планы. Пока еще делать и делать основную генерацию.

LM
На сайте с 01.07.2006
Offline
79
#92
200Online:
Почти марковка и есть. С небольшими отличиями и дополнительными возможностями.
Тот же анализ предыдущих слов, только эта "сеть" позволяет взвешивать варианты по множеству "флагов", а не только по набору предыдущих слов.

Да зафигачиваешь по маркову не слово, а слово+часть речи и уже гуд. Если текст собираешь по тематике, то на выходе получишь подобный уникальный тематический бредо-текст.

А множество флагов это на усмотрение, но это уже пост обработка готового текста.

Если хочешь генерить "осмысленную" статью, то анализ и обучение должен быть "статья" -> "абзац" -> "предложение" -> "слова" или еще сложнее.

Или типа как генератор сказок ))

У тебя как процесс обучения сети проходит?

200Online
На сайте с 22.01.2017
Offline
86
#93
little_man:
Если хочешь генерить "осмысленную" статью, то анализ и обучение должен быть "статья" -> "абзац" -> "предложение" -> "слова" или еще сложнее.
Или типа как генератор сказок ))
У тебя как процесс обучения сети проходит?

Генератор сказок посмотрел, генерирует связно. Похоже на заполнение составленных человеком шаблонов.

Сама генерирующая структура, если писать так же кратко, обучается так:

"предложение" -> "соседние предложения" -> "преобразование получившихся данных в хеш(массив) слово/параметры/флаги" -> "собственно обучение по одному такому слову-параметру" -> "переход к следующему предложению".

То есть абзац и статья в целом не учитываются.

У тебя есть идеи, как можно учесть параметры текста на уровне хотя бы абзаца?

Определять тематику и "оттенок" по ключевым словам или байесом, а затем добавлять их к каждому слову предложения как параметр/флаг?

Если бы у меня был отдел программистов :kozak:🤪🤪🤪🤪 и полгода на достаточный для этого анализ русского языка.

Или лучше сделать по-другому?

AESCBC192
На сайте с 11.06.2016
Offline
51
#94

5 ил 6 ле нзд такую технологию использовал. с 10 гиг массивом текста по усредненным общим тематикам, несколько не то что мне сейчас нужно..

200Online
На сайте с 22.01.2017
Offline
86
#95
AESCBC192:
5 ил 6 ле нзд такую технологию использовал. с 10 гиг массивом текста по усредненным общим тематикам, несколько не то что мне сейчас нужно..

А сколько по времени проходило обучение этими 10Гб?

В этом есть проблема, потому что для полного обучения нужна большая выборка текста, но дожидаться ее обработки получается долго.

Переобучать желательно хотя бы раз в несколько дней, чтобы посмотреть что получилось в результате правок кода.

Поэтому приходится использовать мини-выборки в 10-15Мб.

AESCBC192
На сайте с 11.06.2016
Offline
51
#96

неделю где-то камп грелся, а 10-15метров это почти рандом

у тебя сколькислойная она?

T
На сайте с 15.11.2011
Offline
120
#97

А может быть текст должен составляться так же как пишутся любые произведения?

Тематика -> Ядро текста из блоков, как писали сочинение в школе: пролог, завязка, фабула, развязка, заключение (или как оно там я уже не помню) -> Составление тематических фраз -> Облагораживание предложений с помощью воды и общеупотребительных предложений.

Просто когда ты уже всему этому научен, ты пишешь сразу, но на подсознании ты уже продумываешь следующие фразы. А когда пишешь следующие фразы то помнишь о чем написал раньше.

Скрипт должен обучаться как ребенок в начальных классах. От простого к сложному. Просто машине не нужно тратить время на запоминание...

Но сам алгоритм: простое -> проверка -> усложнение простого -> проверка -> еще большее усложнение -> проверка -> наливание воды -> проверка.

Дешевые VDS - Дешевле некуда! (http://0ll0.ru/4Ta9y)
J-ran
На сайте с 24.06.2012
Offline
262
#98
Tecak:
А может быть текст должен составляться так же как пишутся любые произведения?
Тематика -> Ядро текста из блоков, как писали сочинение в школе: пролог, завязка, фабула, развязка, заключение

Глубоко копаешь...

Если удастся получить тематичность и согласованность отдельных предложений между собой в рамках небольшого абзаца из трёх-четырёх предложений - это уже будет прорыв ☝.

А то, о чём ты написал, проще реализовать на спарсенном копипасте. Скриптом искать в выдаче статьи по определённой тематике, укладывающиеся в заданный диапазон символов (3-4 тыс. зн/без пр., например). Дёргать первые 1000 знаков, последние и соответственно середину. Перемешать каждую из групп отдельно. Стыкануть по знакам препинания длинные предложения, короткие и так сойдут. И слепить статью. Вполне читаемо и тематично получится. И будет прослеживаться (должно :)) вступление, тело статьи и заключение.

T
На сайте с 15.11.2011
Offline
120
#99
J-ran:
Скриптом искать в выдаче статьи по определённой тематике, укладывающиеся в заданный диапазон символов (3-4 тыс. зн/без пр., например). Дёргать первые 1000 знаков, последние и соответственно середину. Перемешать каждую из групп отдельно. Стыкануть по знакам препинания длинные предложения, короткие и так сойдут. И слепить статью. Вполне читаемо и тематично получится. И будет прослеживаться (должно ) вступление, тело статьи и заключение.

Это я и так знаю. Делал так...

Всегда было интересно именно написание с нуля.

AESCBC192
На сайте с 11.06.2016
Offline
51
#100
J-ran:
Если удастся получить тематичность и согласованность отдельных предложений между собой в рамках небольшого абзаца из трёх-четырёх предложений - это уже будет прорыв

это не так сложно как ты представляешь.. вы многие просто не видите определенных вещей..

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий