- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Принцип работы генератора текста
Исходный текст разбивается на предложения. Для каждого предложения проводится грамматический анализ, далее для каждого члена предложения достраиваются новые зависимые члены предложения, с учетом тематики, и естественно морфологии. Полученный подобным образом текст увеличивается в объеме на 50-60%.
Также проводятся некоторые другие процедуры с базовым текстом для полного разрушения шинглов.
Определение тематики
За основу был взят алгоритм опубликованный яндексом. В качестве базы для оценки тематики была взята вся русскоязычная часть каталога DMOZ. С каждого сайта бралась главная страница, половина страниц второго, и около 20% третьего уровней, но не более 200 страниц. Со страниц удалялись элементы дизайна, копирайты, и т.д. Затем каждой темы собиралась статистика по словам.
После соответствующей обработки, получена БД на 8000 тем (включаю вложенные темы), где для каждой темы для слов встречаемых во всей базе более 400 раз, соответствовал коэффициент, характеризующий вероятность отношения страницы к теме, при условии нахождения в нем искомого слова.
Выделяется список слов весьма характерных для темы, и слов общих для всех тем, полученное множество и подставляется как тематическое множество в генераторе.
В результате побочным продуктом получилась база для определения тематики текста, но пока как определитель она не применяется, из-за отсутствия соответствующего модуля.
Примеры полученных текста:
Дубль 2:
Есть примеры находящиеся в индексе уже 3 месяца, но там очень старый способ генерации.
Доступные темы:
Лекарственные растения в народной медицине 410К 200RU
Здоровье: полезные советы 420К 200RU
Здоровый образ жизни 660К 330RU
Цигун 340К 170RU
Каждая тема размножена до 5 раз, и представлена в виде одного файла(формат книги), для последующего парсинга.
Скидка 50% первым 3 заказчикам за развернутый отзыв, казалось бы куда еще дешевле, но мне нужны мнения со стороны, чтобы понять в какую сторону проводить улучшения контента.
Список тем будет вскоре дополнен, возможен заказ текста на определенные темы, и размножение текста заказчика по описанной технологии.
Вопросы по заказам, уточнениям заказов, показать {кусок текста|содержание}, пожалуйста только через личку.
личка пока не работает
куплю лекарственные растения за 50% (100 р)
Не был в курсе подобных ограничений на этом форуме, всех заинтересовавшихся прошу писать в ICQ 906909
Купил тексты за полцены, заказ выполнен быстро.
Здоровье: полезные советы 420К 200RU
Здоровый образ жизни 660К 330RU
Автор сам заметил, что текста меньше заявленного и тут же вернул лишние деньги.
Качество первого текста ужасно. Распознавание выполнено очень плохо. Оставлены номера страниц (ладно, хоть разрывы есть), жёсткие переносы, лишние неподчищенные символы и т.д.
Второй текст распознан получше, хотя кавычки обрамлены с двух сторон пробелами, как-то придётся удалять лишние слева или справа.
Оба текста - книги в формате txt.
Думаю, можно распарсить автоматом на статьи.
По читаемости достаточно взглянуть на тексты примеров. Хоть и бред, но тематический и более-менее связный. На сайте пока не размещал.
судя по примерам текст совсем нечитаемый. имхо
судя по примерам текст совсем нечитаемый. имхо
Полностью с вами согласен.
XeMuL добавил 17.07.2009 в 00:03
Нет ничего лучше человеческой мысли и его мозга. ТС, лучше посидеть пару часиков и написать текст своей рукой и головой, чем за пару секунд иметь на 10К текста. Если пишешь сам, то убиваешь 3-х зайцев сразу: и у самого развитие неплохое будет, и заказчику приятней будет, и денюшку заработаешь своим умом. Ведь так гораздо приятней самому.:) А проги это не дело. Удачи!:)
Возможно, это проблемы исходного текста, но:
Кавычки отделяются с " двух сторон " пробелами.
Часто повторяются слова, предлоги "к к". Бывают несочетаемые сочетания предлогов " в за ". Предлоги "об", "о" не согласованы со следующим словом.
Какие-то 00нолики добавились к некоторым словам.
Посидел, вычистил, попробую залить.
Всё-таки автору лучше бы "рерайтить" и продавать более оформленный текст - чтобы заголовки можно было выделить быстрее автоматом и разбить тексты на отдельные файлы.
Кавычки отделяются с " двух сторон " пробелами.
Это баг генератора, его пока еще не поправил.
Какие-то 00нолики добавились к некоторым словам.
Связь предлог-существительное, полностью обсчитываемый по новому алгоритму, в соответствии с правилами русского языка, несогласованность "в"-"во", "с-со","о-об-обо" исправлена:), двойных предлогов нет.
Нолики были скорее всего в исходном тексте, сейчас тоже изменил механизм их получения.
Теперь готовые тесты выглядят именно так.
Да это так, он не для людей
Нет ничего лучше человеческой мысли и его мозга. ТС, лучше посидеть пару часиков и написать текст своей рукой и головой, чем за пару секунд иметь на 10К текста. Если пишешь сам, то убиваешь 3-х зайцев сразу: и у самого развитие неплохое будет, и заказчику приятней будет, и денюшку заработаешь своим умом. Ведь так гораздо приятней самому. А проги это не дело. Удачи!
Согласен с вами что текст написанный человеком лучше, но тут немного другие цели.
Изначальной целью генератора не было, и не будет,создание теста читаемого человеком. Как раз задача была создать механизм, способный генерировать тексты максимально соответствующие грамматике русского языка, при это читабельность в принципе не рассматривается. Это текст для роботов, и он им нравится судя по тому как он держится в индексах поисковиков.
Боже мой, чем сайты забивают... Жуть однозначно.
тематику утилизация аккумуляторв, ремонт аккумуляторов можете сделать, статей 20 по 2к на пробу взял бы. Исходный сайт предоставлю.
тематику утилизация аккумуляторв, ремонт аккумуляторов можете сделать, статей 20 по 2к на пробу взял бы. Исходный сайт предоставлю.
Соответствие тематики достигается, путем насыщения теста словами характерными для темы, все темы я беру из каталога DMOZ. Аккумуляторов там нет, и в любом случае это слишком узкая тематика, а в узких тематиках сложно получить высокую уникализацию, рекомендую тематику /Бизнес/Электроника_и_электротехника/Источники_питания/ - если же вам нужны ключевые слова то могу оставить часть слов исходного текста. Например:
Источник:
Успешно завоевывая потребителей, компания расширяет перечень предлагаемой продукции.
Результат:
Мы рады над оборотом коммуникаций сообщить удобный конструктор, что аккумуляторы xxx также успешно продолжают в работе свое по проведению забастовок беспокойном рынке и на конструктивной позиции.
Чрезвычайно успешно завоевывая потребителей, компания расширяет с одним из активистов перечень по запросу о балансе в проекте предлагаемой продукции в оформлении обрядов поклонения.