Один из вариантов генерации тематических текстов. За "так"

esidrex
На сайте с 21.06.2009
Offline
67
1569

Не знал, где создать тему, пока подписка есть, решил сюда вставить. :)

Давно уже не пользовался, вроде и самому не надо и другим не показывал. Решил таки поделиться. Для дорвеев и сапы подходит идеально. В сапу последний раз сайт на таком контенте добавил в декабре. Все прошло в осн базу никто и глазом не моргнул.

Я прилагаю свою старенькую программу Tbuild. Она вытаскивает из тхт файла тексты с нужными ключами. В интерфейсе думаю разберетесь. По меню: Ключевые слова - пишете ключевые слова. Можно через запятую, программа будет искать сначала максимальное количество упоминаний ключей в одном предложении, если таких нет, то упоминания какого то одного ключа. Ключи можно писать такого вида "лестниц" тогда будут находится предложения содержащие "лестница", "лестиницы" и т.д. Автозамена ключевых слов - удобно если ключ один. Например, ключ "машина", а в автозамене можно написать "автомобиль" - таким образом примерно в 50% предложений произойдет автозамена ключа. Также можно задать количество случайных предложений, количество предложений с ключом. Автоматическая генерация доделана не была... Возможно прикручу. Хотел еще синонимайзер добавить, но летом еще все забросил.

Как лучше всего делать:

1. Я парсю выдачу по конкретному ключу, например "обзор Audi Q7" или же "достопримечательности Италии". Content Dowloader'ом сразу же автоматически сохраняем тело статей, все сохраняется в один txt файл. В CD удобно, что предложения будут идти на отдельных строчках, удобно это для работы в TextPipe.

2. Чистим Text Cleaner'ом

3. В TextPipe в зависимости от тематики я дочищаю текстовку. Например, если тексты парсились о туризме и конкретно о достопримечательностях, в таких текстах часто встречается слова в предложения вроде "мы, я, наша фирма" - эти строчки в TextPipe я удаляю из текста.

4. Далее в Tbuild по нужному ключу генерируете тексты. Подойдет даже для недоСДЛ :bl:

Пример текста:

Данный автомобиль одновременно относится и к представительскому классу и к городскому универсалу, при этом отличаясь сильными аспектами спортивных автомобилей. Благодаря стремительным изгибам линий свесов, мощным ребрам задней части, сильно наклоненным стойкам автомобиль приобретает мощный и запоминающийся силуэт. Смотрится великолепно, вот только о практичности можно поспорить. Подвеска со стальными пружинами и двойными амортизаторами рассчитана на спортивную езду и обеспечивает комфорт даже на бездорожье. Это тоже сказывается на динамике. Во-вторых, она показала себя как кроссовер, который, может развивать большую скорость. При этом АСС автоматически поддерживает безопасное расстояние между машинами (на своей полосе движения), увеличивает скорость движения либо тормозит автомобиль без участия водителя. На дороге этот автомобиль впечатляет своими спортивными характеристиками и динамикой, на бездорожье он выделяется бескомпромиссной тягой. Новый автомобиль можно назвать супербезопасным, и немалую роль в этом играют так называемые интеллектуальные системы, приходящие на помощь водителю в критических ситуациях. Ведь не так просто продажа Ауди этой модели побила почти все рекорды внедорожников.

Уникальность у меня высветилась в 83%. Если объемы большие исходников, норм синонимайзер, то 95% получите. А то и все 100%. Текст будем тематический, хоть и вода. Такие дела.

Если кто решится, то можно на основе этого сделать готовый комбайн.

Ссылка на скачивание Tbuild http://yadi.sk/d/F06wFjNF28kNk

VictorSamus
На сайте с 22.02.2011
Offline
98
#1

Спасибо. Держитесь сапа и трастлинк.

I
На сайте с 14.10.2008
Offline
199
#2

Не совсем понял, как генерация то идёт, то есть у вас просто выходит мешанина предложений выдернутых по определенному кею, сами предложения то никак не уникализируются?

20💲 Бесплатно на баланс API DeepSeek 👉 https://vk.cc/cK73ur | 💲💲💲 Моментальный выпуск виртуальных карт для оплаты за рубежом 👉 https://bit.ly/online-cards | 📝 Нейро Тексты для сайтов, быстро, дешево и качественно 👉 https://bit.ly/xgptwriter 👈
Selectronik
На сайте с 21.06.2007
Offline
112
#3
esidrex:

Уникальность у меня высветилась в 83%. Если объемы большие исходников, норм синонимайзер, то 95% получите. А то и все 100%. Текст будем тематический, хоть и вода. Такие дела.

Что то не заметил уникальности

http://yandex.ru/yandsearch?text=%D1%81%D1%83%D0%BF%D0%B5%D1%80%D0%B1%D0%B5%D0%B7%D0%BE%D0%BF%D0%B0%D1%81%D0%BD%D1%8B%D0%BC%2C+%D0%B8+%D0%BD%D0%B5%D0%BC%D0%B0%D0%BB%D1%83%D1%8E+%D1%80%D0%BE%D0%BB%D1%8C+%D0%B2+%D1%8D%D1%82%D0%BE%D0%BC+%D0%B8%D0%B3%D1%80%D0%B0%D1%8E%D1%82+%D1%82%D0%B0%D0%BA+%D0%BD%D0%B0%D0%B7%D1%8B%D0%B2%D0%B0%D0%B5%D0%BC%D1%8B%D0%B5+%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5+%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B&lr=47

esidrex
На сайте с 21.06.2009
Offline
67
#4
igoreff:
Не совсем понял, как генерация то идёт, то есть у вас просто выходит мешанина предложений выдернутых по определенному кею, сами предложения то никак не уникализируются?

В общем то да. Для многих задач этого достаточно. Например, надо обработать большое количество текстовки и получить результат под определенную тему. Можно сделать сайт о БМВ с разделами вроде БМВ 3ей серии, 5ой и т.д. Для каждой категории составить по 50-60 текстов. Все они будут максимум тематическими. Вариантов применений много. Способов уникализации придумать можно много. Можете применять синонимайзеры, можете стыковать предложения по запятым, можете дробить на новые предложения по запятым и мешать это все. Варианты всегда найдутся, здесь я привел один из примеров. На основе его реализовывать доработанные комплексные алгоритмы не так уж сложно.

Уникальность по сервисам проверок текстов выходит в районе 60-80%. Без синонимайзеров и т.д. Более того, такой вот уникальности достаточно для ПС, чтобы посчитать текст вполне оригинальным. Так, у меня блоги о некоторых автомобилях живут с мая 2011го года. Есть ТИЦ, хорошая индексация ПС. В общем, я Вам показал, как что можно делать. Уникальность и необходимость сего определять только Вам самому, я лишь поделился идеей.

september
На сайте с 11.09.2009
Offline
591
#5
Уникальность по сервисам проверок текстов выходит в районе 60-80%.

Советую проверять на text.ru

хотя, казалось бы уникальный кусок текста гуглится на ура.

$ карта для вывода вебмани в любой точке мира (https://www.epayments.com/registration?p=dc2462e885)
I
На сайте с 14.10.2008
Offline
199
#6

Спасибо, скачал, хотя и юзаю мешанину по предложениям давно, но немного не в таком виде и мешаю просто прогой квк, этой прогой наверно будет все таки удобнее, посмотрим. Было бы неплохо конечно еще по запятым стыковка и мешанина.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий