200Online

200Online
Рейтинг
86
Регистрация
22.01.2017

после скольки вариантов текста по одному ключу уникальность будет падать, хотя бы порядок(10-100-1000)

Вот в таких вещах вроде способов измерения уникальности текста я не разобрался еще.

Если правильно понимаю, то при текущем объеме данных сеть может сгенерировать 25000 уникальных текстов по 1000 знаков.

При этом не полностью уникальный текст может появиться случайным образом на любом этапе, потому что генерация происходит случайно.

Также количество потенциально уникальных текстов быстро снижается с ростом длины и количества заданных ключей.

Примерный ответ - около 500 текстов для одной ключевой фразы из двух слов.

Lifemaster:
Кек, ты видимо халифа труды не внимательно читал, он неоднократно писал, что программистам в дорах не светит, потому что тяма нету, в предметной области не шарят 😂

Кек-кек, Lifemaster

Я изучал алмазы мудрости великого гуру в режиме многолетнего ритрита в горах Тибета. Те слова от меня не ускользнули и стало понятно, что нужно быть больше, чем программистом. Я же не писал, что я программист по жизни. Просто есть такие навыки.

---------- Добавлено 12.04.2017 в 23:05 ----------

tanir23:
про нейронику просвети с каким объёмом данных она работает в мб( в твоих готовых примерах и с готовым обучением)
в каком виде находятся обученные данные?

Сначала работал с многогигабайтными архивами библиотек. Ждал по нескольку дней, пока пройдет обучение и на выходе получался ужасный мусор.

Сейчас обучение проводится в основном на статьях из блогов прилично пишущих людей. Получается современнее и более человечно, чем по литературе.

Объем обучающих материалов около 20Мб, сейчас. Их точно не посчитать. Используется несколько видов обучения разными материалами.

Размер после обучения на базовых материалах без дополнительных тематик примерно 49Мб.

Форматы хранения данных делал сам, чтобы возможна была работа без сервера с 64Gb RAM. В перспективе планирую выложить часть на гитхаб, но само-собой не все.

Скажу лишь, что сделать даже основу системы было адским трудом. Заново это я не хотел бы проходить. Теперь думаю что делать дальше с тем, что получилось.

twiprogon:
в синего кита поиграй, дойди до последнего уровня, избавь нас от этих вопросов.

А ты, как вижу, недоиграл, но осадочек остался 🤪

Не в моих интересах это.

Понятно, что работающие направления никто писать не будет. Но лучше спросить, чем не спросить.

iph0ne:
Да с чего ты взял что в дорах вообще деньги есть

Поверил на слово Халифу НумНуму 😎

И не нашел, где еще можно применить программистские знания при отсутствии знаний по остальным разделам вроде SEO. Очень уж на работу не хочется выходить.

А есть альтернатива в похожем направлении?

vastmanager:
Покупай сосуды Дьюара..🤪

Пока не накоплю на дорах денег :2cents: на 4-ядерный Core-i7, видимо придется так и делать 😆

tanir23:
зачем стараться охватить необъятное?
проще надо подходить и учить по конкретной тематике, всякие н-граммы будут в статистической погрешности.

Сейчас работа зашла в тупик, потому что объем того, что нужно сделать выглядит на два-три месяца труда, а сфера применения непонятна.

Может быть действительно будет правильнее запустить что-то конкретное, а потом допиливать техническую часть по мере необходимости.

tanir23:
почему тексты генерите по таким не приземлённым ключам, какой смысл в этом?

Это базово обученная сеть.

Поверх ее снимка может проводиться дополнительное обучение по любой тематике.

Также нужно будет делать внедрение конкретных для каждого текста ключевых фраз на одной из стадий постпроцессинга.

Продвинуться дальше можно только когда будет отлажена базовая нейтральная генерация.

Система сейчас очень сырая.

Tecak:
корпус русского языка

4-5-6-граммы это вещь. Благодарю.

Tecak:
Нормальные тексты, кстати, получаются.
ТС, давай докручивай производительность. И успехов!

У ТС, как я понял, с производительностью все в порядке.

Медленно работает моя система генерации, пример текста которой я публиковал выше.

---------- Добавлено 12.04.2017 в 16:02 ----------

Очередное творение.


[title] => Мотивация, должен каждый.
[slug] => motivaciya-dolzhen-kazhdyj
[description] => Кто попался на сегодня будет в своих детях и их начальники они думали о поведениях, которые жгут, пока Биткоин себе все. Кроме компьютера на каждый работающий предприниматель должен встать на ваше собственное мнение о реагировании.
[text] => <p>Другими видами деятельности, в частности, вы только осваиваете работу любого возраста. Ключ к доллару, при этом смысл ты должен. Даже два бакса. Вот только две переменные дорогу и путевки, что случается после выхода на пути. Работайте над толпой народу на улице.</p> <p>Самое на тренинг вы приходите ко мне. Все ваше внимание прессы, которые вошли в таком порядке уменьшения этих этапов. Они опрашивают на предмет твоего обожания к тебе подлизаться из них было абсолютно новыми путями и пожеланиям. В сутки можно в ключе должны определить направление тренда. Последняя часть своей сущности. Вместе работали на вас пока ноги сильно, при этом их не преуспевает ли компания достигла кульминации октября. На нее собственное мнение, то есть они проходят сквозь пальцы от этих макетов.</p> <p>Каждый предприниматель начиная свою деятельность на расширенной основе свидетельствует о медвежьем тренде. Вашими деньгами, если вы говорите. Повторим заведите этот цветок чернеют листья. О своих каютах было скучно сайты погода что будет.</p>
[keywords] => выхода, тренда, вашими, уменьшения, достигла, доллару, приходите, преуспевает, часть, работу, свидетельствует, предприниматель, октября, опрашивают, дорогу, погода, улице, направление, заведите, мнение
AESCBC192:

страницы должны быстро генерироваться, такой вариант делал страницу одну минуту.

Точно, время генерации получается слишком большим. От 15 секунд до двух минут на текст.

Плюс время если ставить переобучать веса.

Всего: 515