200Online

200Online
Рейтинг
86
Регистрация
22.01.2017
Tecak:
кому и какое дело как генерируется текст если он будет заходить в индекс и давать траф?

Именно. Если делать чистую нейро-генерацию, результат может удивить заказчика еще больше.

Нейросет:
Вот еще подтверждение сказанного выше перечисленный перечень этапов действия приведен ниже. Дело, чуваки.
little_man:
Если хочешь генерить "осмысленную" статью, то анализ и обучение должен быть "статья" -> "абзац" -> "предложение" -> "слова" или еще сложнее.
Или типа как генератор сказок ))
У тебя как процесс обучения сети проходит?

Генератор сказок посмотрел, генерирует связно. Похоже на заполнение составленных человеком шаблонов.

Сама генерирующая структура, если писать так же кратко, обучается так:

"предложение" -> "соседние предложения" -> "преобразование получившихся данных в хеш(массив) слово/параметры/флаги" -> "собственно обучение по одному такому слову-параметру" -> "переход к следующему предложению".

То есть абзац и статья в целом не учитываются.

У тебя есть идеи, как можно учесть параметры текста на уровне хотя бы абзаца?

Определять тематику и "оттенок" по ключевым словам или байесом, а затем добавлять их к каждому слову предложения как параметр/флаг?

Если бы у меня был отдел программистов :kozak:🤪🤪🤪🤪 и полгода на достаточный для этого анализ русского языка.

Или лучше сделать по-другому?

sidorka:
Очень тяжелый, однако.

Если делать 10 000 текстов по 2000 символов, то при двух секундах на тысячу генерация займет больше десяти часов.

В реальности релизная версия может тратить и 10 секунд на тысячу букв.

Тогда генерация тех же текстов займет до 60 часов.

Можно купить под эти цели старый системный блок и поставить на балкон.

Но это все планы. Пока еще делать и делать основную генерацию.

sidorka:
на марковку сильно похоже, на мой взгляд. Серв сильно грузит?

Почти марковка и есть. С небольшими отличиями и дополнительными возможностями.

Тот же анализ предыдущих слов, только эта "сеть" позволяет взвешивать варианты по множеству "флагов", а не только по набору предыдущих слов.

Серв (домашний комп) грузит в основном при обучении. Обработка небольшой обучающей выборки в 10-15Мб занимает около 40 минут на 2х ядерном Core-i5 и 8GB RAM. Генерацию сейчас оптимизировал с 10ти до 2х секунд на 1000 символов, но в планах добавление дополнительного анализа 4-5-6-грамм. При пробном подключинии этого модуля время сразу взлетело до 15 секунд на 1000, пока отключил.

sidorka:
Тематика "ногти". Глобальный синонимайз. Трафа мало, но в индексе держится.

Отлично, что текст держится в индексе. Значит, поисковые системы нормально относятся к таким текстам.

Пример читается хорошо и весело. Его можно дополнительно обработать, чтобы убрать лишние пробелы, но это дело вкуса.


Это пример для *nix, по крайней мере работает в OSX
sed "s/ \([\.\?\,\;\!]\)/\1/g" your_text_file.txt > new_text_file.txt

Но даже замотав все, что у меня было, я не смог провести и малой школы расплавленного.
Однажды в нем появился мужской воздыхатель. Кусочек розоватый был небольшой мяты.
........
Ringozo:
200Online, из околофинансовой есть только кредиты и форекс. Заработка в интернете нету. Тематики, в смысле :)

Благодарю, что посмотрел.

После предыдущего сообщения от J-ran до меня стало доходить как мало я знаю о теме в целом. Нужно будет подумать подробнее о тематике и о том, как вообще все это делается.

J-ran:
... long text ...

Это просто мега-сообщение, J-ran. И про выбор тематики, и про технологии.

Создал отдельную заметку и сохранил текст, чтобы перечитывать для просветления.

Ringozo:
200Online, по ключам - вордстат так себе вариант. Лучше скажи нишу, может есть что нормальное в загашнике.
Не могу вспомнить, на какую тематику сеть обучаешь. Мельком сообщения пробежал, не нашел. Ты же вроде говорил, или ошибаюсь?

По результатам опроса тематика получилась

Заработок в интернете с добавлением транспортной тематики.

Название домена связано с финансами, поэтому любые околофинансовые темы должны подойти.

Vitalliano:
Не получится, Яндекс и Google такие тексты не пропустят – забанят.* Да и вряд ли найдутся люди, тем более экономисты и юристы, которые будут это читать.

Ценю твое экспертное мнение, Vitalliano.

Как думаешь, по какому варианту пойдут события:

1. Робот не будет обходить сайт

2. Будет обходить, но в индекс страницы не попадут

3. Страницы попадут в индекс, но траффика не будет вообще.

4. Будет индекс и будет траффик, но все-равно "что-то не так"

5. Будет индекс, но потом бан (через какое время?)

Tecak:
Для людей, естественно, такие тексты не подойдут. Такие только для ботов (возможно).

Совершенно правильное замечание.

Смысл того, что делается сейчас – проверить параметры индексации сгенерированных таким алгоритмом текстов.

Этой информации я не нашел и лично мне интересно узнать, как они поведут себя на среднем сайте.

1. С какой скоростью и в каком количестве страниц проиндексируются Yandex&&Google

2. Будет ли хоть какой-нибудь траффик

3. Сколько пробудут в индексе

Ringozo:
Мне кажется, или на сайте текста другие по качеству, чем в примере в этом топике на этой странице?
И почему под нормальные ключевики статьи не генерируешь?

Тексты сгенерировались случайно, куда какой попал, так и остались.

Я по возможности не цензурирую и не выбираю их, чтобы не портить чистоту эксперимента.

Те, что на сайте, сгенерированы более новой версией системы и могут немного отличаться.

Алгоритм генерации "excerpt" (краткого содержания) из текста тоже не сделан. Поэтому на главной тексты с другими параметрами, чем полное содержимое статьи.

Ключевиков у меня нет. И нет опыта работы с ними.

На днях планирую заняться парсингом вордстата.

bolyk:
Можно узнать о размере модели, сколько эпох прошла и какой крайний вес у вас получился?

Размер модели огромен, а крайний вес ужасает. 🤪

Мне непонятно, что вы имеете в виду. Наверно потому, что я мало знаю о нейронных сетях.

Размер обучающей выборки сейчас около 15Мб, а номер эпохи всегда равен единице.

Веса после обучения проходят дополнительную обработку для сглаживания распределения.

Мои эксперименты показали, что дополнительные итерации обучения ухудшают результат.

Вообще вопросы интересные. Вы могли бы написать, что означают эти термины - Размер модели и Крайний вес?

И, если вас не затруднит, описать подход к генерации, который считаете наиболее правильным.

Алвель:
Это именно тот текст, который Вы говорите "можно с интересом почитать"?

Примерно так же можно подойти к скульптору за работой и спросить его

"Это именно та скульптура, которую Вы говорите можно с интересом посмотреть?".

Если у меня будет время и желание доделать этот проект, то рано или поздно степень интересности станет видна.

Больше всего в ситуации с вашим, Алвель, вопросом, мне хотелось бы увидеть полностью сгенерированный достаточно длинный русскоязычный текст, который был бы лучше этого. Пока мне не удалось найти такого. Может быть вы его встречали?

И, отвечая на вопрос. Это тот самый текст. В этой теме умные уважаемые люди уже прочли его и высоко оценили.

И если тебе, Алвель, не интересно, значит ты просто не понимаешь всю его глубину и мудрость. Иди, читай другие тексты.

Зарелизился шаблон сайта, который будет использоваться для эксперимента.

https://fintext. ru/?access

Чтобы зайти на сайт, нужно убрать пробел после точки и использовать в URL параметр ?access

Это сделано для того, чтобы сохранить чистоту эксперимента и не показать контент ботам раньше времени.

Тексты, которые размещены сейчас НЕ релизные, а добавлены для наглядности.

Также не сделаны ссылки, перелинковка, постраничная навигация и прочие мелочи.

Thommy:
Капитана Джека Воробья!

+1

Тем временем сеть прошла первый этап обучения на текстах по заработку. Еще есть, что улучшить, но заданная тематика уже прослеживается.

[text] => <p>Представьте, успешный проект это время выполнили еще социальное взаимодействие, принятие на путь людей в каждой семьей, сотрудниками. Самое худшее позади, письма доходят его за подтверждение встречи. Стоит прилагать никаких особенных усилий, чтоб знать интересующимся группам людей и следите за современными предложениями, то первый способ получить солидный выигрыш. Опять необходимо вникать в работу, уже с удивлением обнаружить для себя. Лучше но живется удобно это не успев как следует. Деньги являются поддержкой, прежде всего лишь веры. Честно говоря даже девушка дразнит вас нет. У девушки важнее жилища. Стоит поразмыслить над собственными сотрудниками. То, на позитивный в некоторых из твоих коллег. Стоит подождать не моя судьба была моей система такая активность во время второго курса заработали.</p>

<p>Эти доли своего портфеля, и инвесторов, пока вы добьетесь, тем энергичнее экономика сама компания более 80 лет двадцать минимум шесть сентября. Об отношении ваших финансов, но уже семейный бюджет четко, идеально подходит при игре, съеме и процессы производства. Один работы и лучших западных ресурсов. Возникает куча, у банковских вкладов. Хорошо заботятся, не так далее, все ваше знание может, у меня это настолько вне их целевой группы. По телефону голос матери, в общем, задача есть, а некоторые платят, и с другими. Делается фильтр или иным причинам бывает первичной и вторичной.</p>

<p>Самое первое, что вы решили уж мелкота, как считалось, влияют те миллионы актов купли-продажи, которую они применяли для копирования и никогда в то утро сидел с самим собой. Потом осмотрел у двух людей работает лучше а получается циклическая модель, которая необходима. То, на Вконтакте и Фейсбук это разные проекции одного брокера к этой девушке. Чаще чем среднестатистический человек проводит сорок пять, последние двадцать процентов вложенных времени общаться, то разговор перейдет именно о любой глупости при пользовании. Некоторые инвесторы активно играют на них. Но помните кто не так же товар только от нас.</p>
Всего: 515