MD5sys

Рейтинг
7
Регистрация
29.07.2008
Squick:
Люди, проснитесь! Да генерация текста - это элементарная вещь. Просто нужны базы, базы и еще раз базы. И не обязательно их ручками собирать.
Это как синонимайзинг. Скрипт простой, пишется руками. Главное - база.
И генерация контента - это тоже мощнейшие базы с учетом морфологии и особенностей строения предложений, а как это все в единое целое связать - среднего уровня пхпешник скрипт напишет.
Не верите мне, поверьте Вацлаву.
Тут умного ничего нету, тут лишь объемы баз, и все.
Если интересно, тему разовью.

Хм, а в чём собственно говоря базы? :) Можно немножко подробнее и какова сама суть генерации качественного контента ;)

К kevindark: Прошу прощения случайно вставил Вашу цитату, уже убрал...

Уважаемые участники форума!

Я создал этот топик совсем не для инвестирования, обсуждения участия в каком-либо проекте и т.п. Смысл был в другом - я, как начинающий "SEO-промоутер", хотел просто услышать мнение профессионалов. :)

А попутно сказать возможно полезные мысли другим пользователям, которые также работают в этой сфере. Значение этой разработки (которую я уже сам начинаю делать) пока что главным образом творческое.

Я не нуждаюсь на данный момент в инвесторах и совсем не призываю к этому, странно почему вообще этот вопрос стал... Пока что у меня есть свой источник и его должно хватить на первые затраты.

Потому задача этого топика была обсудить саму идею, и рад что услышал, к моему удивлению, много мнений по этому поводу...

За что всех искренне благодарю и хочу сказать "Спасибо"!

P.S. Если будут ещё мысли - пишите ;)

G00DMAN:
MD5sys, если Вы качественно реализуете п.6 и будете выдавать хороший рерайт для людей, то с остальным можете не заморачиваться - на форуме найдется достаточно желающих с нужными знаниями, финансами и другими ресурсами, которые помогут сделать все остальное при долевом участии в будущей прибыли. Я бы например с удовольствием поучавствовал, люблю автономные системы. :)

Только как-то не особо верится в создание такого полу-ИИ на общие темы. В узких темах - да, возможно, у меня один коллектив сделал такое в финансовой тематике, причем тексты не рерайтятся, ежедневно может выдаваться теоретически неограниченное количество уникального копирайта.

Понятно.

Ну цель всегда надо ставить выше, а там как получится. Основную идея та, что я высказал в первом посте - нужен пассивный источник из SEO, но качественный ;) Что-то сделается, что-то будет работать, на каком-то этапе и мой труд над ней приостановится.

В любом случае, варианты дор-генов и синонимизаторов мало кого утсраивают. Потому и возникла потребность в более качественном, в тоже время более автоматическом. И это даёт шанс пробиться среди большого количества мусорных сайтов. Причём вариант с такой системой выгоден как для пользователя-читателя, так и для вебмастера :)

X-Master:
Вы уверенны что это все сможете потянуть ? Это работа не для одного человека, целая бригада нужна 🚬

+ надо большой бюджет

Я не уверен или абсолютно всё смогу потянуть сам, но главная задача вначале продумать алгоритмы, как развивать в дальнейшем систему и т.п. Базовые знания + Инет составят основу...

Вначале упор будет делаться на самостоятельную разработку основы. Бюджет для этого большой не нужен - несколько сотен долларов вполне покроют на первое время расходы (на оплату ресурсов - сервера и на возможную покупку программного обеспечения (хотя в Рунете это понятие не очень актуально :) ), в дальнейшем закупка доменов и прочих возможных SEO-расходов).

А дальше будет видно по ситуации - если стоящая переспектива в этом есть, то будет приниматься решение о "человекоресурсах" и дальнейших действиях.

ИМХО - учитывая определённую ограниченность задумки, вполне реально её воплотить и в небольшой срок (несколько месяцев) и без больших затрат.

seraphim:
Как раз это было бы сделать проще, чем решить вашу задачу :) Еще лет 20 (если не больше) назад в MIT создали алгоритм "Эльза" (или "Элиза"), который имитировал работу психотерапевта-"роджерианца". Да так удачно, что даже обслуга машины через некоторое время начала забываться и с машиной беседовать.

Ну если говорить не просто про беседу, а "воссоздать мышление" - это глобальная вряд ли достижимая цель, которую я даже не ставлю.

seraphim:
Если интересно, поищите книгу Джозефа Вейценбаума "Возможности машин и человеческий разум" - полный текст в рунете я видел в открытом доступе...

Ок, спасибо, поищу и посмотрю ;)

seraphim:
Этот пример - это нечто большее, чем "просто пересказ". Эти фразы построены из исходной с пониманием контекста проблемы (причинно-следственных связей реального мира). Ведь никакой морфологический или синтаксический разбор не поможет машине понять, что факт "отмена страховки" может иметь определенные последствия. Да, на отдельной узкой теме машину можно научить, набив ручками базу знаний, но для произвольного текста на неизвестную тему - сомнительно...

Пример который я привёл, кстати, взят из реальных заголовков одной новости из разных новостных сайтов. Естественно их составляли люди.

Насчёт причинно-следственных связей - естественно для абсолютно произвольного текста это очень сложно. Я планирую заготовить вначале базу для определённых тематик, чтобы там где можно - они будут использоваться (хотя бы те что есть в базе), а где нет - будет без причинно-следственных. Продумать обучаемость этим связям если удастся.

То есть должен получиться компромис между бессмысленным доргеновским текстом и малополезными синонимизаторами ;)

Arhangel66:
MD5sys, то что вы говорите и задумали, думаю приходило в голову любому програмисту, который писал статьи... я с детства мечтаю о ИИ, умных сайтах, сайтах которые отслеживая поведение пользователя бы менялись для увеличения продаж...
Но не-во-змо-жно заставить машину ПОНЯТЬ абзац текста и ПЕРЕСКАЗАТЬ его... это будет в лучшем случае перестановка фраз, комбинирование коротких и разбивка длинных предложений...

Да, лет 10 назад я так же думал об ИИ :), но сейчас совсем не так. Такую глобальную цель - создать умную систему, которая будет беседовать как человек я не ставлю.

Задача отточить систему для конкретной относительно узкой цели. В какой-то степени это будет то что Вы сказали - перестановка, комбинирование и т.п. И при правильном анализе это уже будет начало выдачи качественного контента.

Насчёт "понять" - речь немножко не об этом.

Приведу простой пример: в любом предложении есть грамматическая основа + пару других слов несущих основной смысл.

К примеру, есть новость, озаглавленная:

Обязательную страховку по ипотеке отменят

Анализируя её (морфологический, синтаксический и тематический разбор) - система должна определить главные мысли (в данном случае - отмена обязательной страховки при ипотеке) и формировать например такие заголовки:

"Отмена обязательной страховки для заёмщиков по ипотеке"

"Ипотека может подешеветь из-за отмены обязательной страховки"

"Отмена обязательной страховки для заёмщиков по ипотеке"

"Ипотечный кредит можно будет взять без страховки"

"Будет отменено обязательное страхование пользователей ипотечных кредитов"

"Ипотека без страховки: возможность или опасность?"

Вот такие разнообразия заголовков отличают одни новостные сайты от других. У каждого корреспондента свой стиль и он сказывается на заголовках. Эти "разные стили" и делают уникальность, а не уникальность самой информации. И это читать интересно. ;)

MD5sys добавил 30.07.2008 в 11:17

Vanj:
И как же по Вашему будет "выделятся главный смысл" текста?

Это то что я называю "морфологический, синтаксический, тематический и смысловой разбор".

А именно:

1. Морфологический разбор.

Идёт определение частей речи, их характеристик, начальной и всех других словоформ. Для этого уже есть готовые разработки.

2. Синтаксический разбор.

На основе данных морфологического разбора определяются основные составляющие предложения - грамматическая основа (подлежащее, сказуемое) и прилегающие к нему несущие смысл части (дополнения, определения и т.п.).

Т.е. какую роль играет какая фраза. Естественно фразы будуть браться с предлогами "не пришёл" и т.п., дабы не исказить смысл. Раздельно определяются малозначимые части (вводные слова и т.п.), которые можно даже заменить при надобности - и на синонимы.

Сложные предложения к примеру также предварительно грамотно разбиываются на простые перед синтаксическим анализом.

3. Тематический разбор.

Чётко определять тему. Беда многих прог-синонимизаторов - нет тематической подмены. Они часто суют слова "сей", "воеже", которые в описание какой-то Hi-Tech новинки совсем не клеятся.

Определение темы также даст плюс в построении новых предложений.

4. Смысловой анализ

Это наиболее сложная часть. Она заключается в том, чтобы увидеть связи между словами в предложении или даже между предложениями в абзаце. Вот эту часть и стоит возможно подвергнуть "самообучаемости" на основе даже анализа нескольких текстов.

И в конечном итоге система формирует новые предложения, абзацы, связанный текст - при этом система обучается разным стилям (естественно одна статья - в одном стиле, как будто её пишет один уникальный человек) - и в результате, по идее, должен получаться качественный полезный контент.

Другими словами, если уже получена смысловая фраза (как я привёл пример с ипотекой) - задать стили написания по каким-то схемам уже проще.

Должно получится серьёзное отличие от синонимайзеров (которые вообще не заботятся о сохранении стиля после подстановки синонимов, а потому не дают читабельного текста) и от дор-генов (которые не несут смысла, даже если дают качественный текст). ;)

P.S. Если у читателей данного форума будет желание и интерес к обсуждению алгоритмов получения уникального текста, я возможно потом сделаю на сайте временный доступ (через форму) для тестирования такого преобразователя (т.е. на этапе его создания и улучшения). Может быть это поможет и мне и другим понять лучше какой должна быть такая система и по каким алгоритмам действовать ;)

Сорри за офтоп, просто уже во втором или третьем посте об этом упоминается - хотел объяснить почему именно здесь тема :) :)

Ruba777:
Не фига себе новичок! Именно такие новички и тырят контент с моих блогов и сайтов используя RSS-каналы. И судя по всему неплохо у них получается. но и я не в обиде - ссылки тоже умножаются. Так что идея вполне жизнеспособная

Как уже сказал, я "почти новичок в SEO". Почему я так назвал? Потому что у меня есть некоторые теоретические знания в сфере SEO, полученные особенно в последний месяц активного чтения книг и форумов по поисковой оптимизации. Но практики в раскрутке сайтов - у меня ноль. И это отличает начинающего пользователя от опытного SEO-шника, в советах которых я очень нуждаюсь...

В PHP-программировании (да и других некоторых языках), справедливо скажу, что я далеко не новичок (потому вопросы программирования поднимать здесь нет смысла). Именно поэтому возникают такие задумки и цели - применить свои знания на практике с пользой.

А идея с "тыреньем" блогоконтента думаю не очень актуальна - таких скриптов хватает. И моя задумка изначально не в этом.

Одно дело - свиснуть Ваш контент даже с обратной ссылокой. Другое дело - провести анализ Ваших и других мыслей, выделить главное и пересказать их своими словами. То же делают журналисты, рерайтеры и другие люди. И я не вижу в этом преступления, если вдруг "машина" сможет поступать так же и достаточно качественно.

Конечно, сразу создание такой мега вещи представляется нереальным. Но чёткое продумывание алгоритмов, значительный труд и разумное использование уже готовых разработок в идеале может привести к получению подобного результата. ;)

Solmyr:
Тут вот все говорят про то что "если сделать такую систему рерайтинга" то все будет пучком.

Позволю себе не согласиться. Автор предполагает использовать самую простую структуру связи между отдельными текстами - линейную. Т.е. его сайты это тематические новостные сайты. В то же время известно что для новостного сайта как таковая уникальность контента особо и не требуется. Новостные сайты живут и процветают на в основном неуникальном контенте.

А вот сделать не новостной сайт, автор со своей системой не сможет.

Я имел ввиду "информационно-новостные" (может не очень удачный термин) в плане что они содержат и информацию (наполнение статьями, материалами и т.п.), и возможно с содержанием тематических новостей (которые по идее могут излагаться в другом стили или на анализе нескольких источников).

Solmyr:
Т.е. я хочу сказать, что супер-мега-рерайт-система - это не есть в СЕО аналог кнопки "бабло". Аналогом кнопки "бабло" был бы только полноценный искуственный интеллект, который мог бы не только делать "человекочитаемые тексты", но и устанавливать смысловые связи между отдельными текстами и формировать общую информационную структуру сайта.

Цель не стоит сделать совсем полнценный AI, но даже несмотря на ограниченность и заточенность под конкретные нужды - можно сказать система будет иметь элементы такого "интеллекта". Хотя бы за счёт того чтобы делался смысловой анализ текста (а может и нескольких), возможно и дальнейшая самообучаемость системы.

Это конечно большой мега-труд, но во-первых - при продуманности алгоритмов (той же самообучаемости) его можно сократить, во-вторых, к моему удивлению, - уже есть немало проделанных другими людьми программных разработок (тех же скриптов), модулей, баз и т.п., способных заменить рутинную работу ;)

Solmyr:
По сути предлагается создать некий мега-дорген. С очень качественными текстами. ИМХО такой дор все равно можно распознать невзирая на качество текста.

Может быть и так, но той разницей - что дор-гены выдают выдуманную информацию, а задумка стоит в том - чтобы черпать РЕАЛЬНЫЕ факты и реальных источников. И новый текст формировать на основе фактов. Тогда качество будет роль играть и будет интересно для пользователя ;)

Но пока это только идея :)

Благодарю всех за советы и отзывы!

OPTIMER:
MD5sys И прибыль можно получать не только с контекста, сколько от самой сути получения прибыли с сетки. Главное - это уникальное наполнение и максимальная автоматизация процесса, грамотно созданная.
В итоге получится грамотная качественная сетка.

Понятно. Ну в начале думал просто попытаться создать эту систему, и начать с продумывания и разработки именно алгоритмов уникализации другого контента ;) Благо, в этой сфере есть уже немало готовых модулей (те же анализаторы морфологии, хорошие словари тех же синонимов, если их использовать с умом). Это значительно сократит труды в такой сфере.

А что делать дальше с системой, трафом - думаю можно решать по ситуации ;)

OPTIMER:
Дизайн сейчас да, не проблема, можно заливать множество вариантов, уже имеющихся которые будут экспортироваться. Создать систему создания (на максимально автоматически действующем принципе) ресурсов.

Насчёт дизайна так как раз хорошо будет реализовать, правда пока не изучал что и как в этом вопросе. Это ещё больше усилит вопрос автоматизации, на которую и пытаюсь сделать ставку :)

К сожалению, пока НЕТ никакого опыта в SEO (именно практического). Вот лишь не так давно прочитал общую теорию, немножко разобрался с терминологией, но надеюсь если со временем юзать данный форум и тестировать вещи на практике - можно достичь каких-то результатов...

OPTIMER:
зы есть одна тема, которая уже автоматически позволяет клепать много ресурсов, но проблема опять же, в том, что она парсит информацию, уже имеющуюся на других ресурсах, в результате получается множество низкокачественных ресурсов :)
Главный конек тут - качество, на нем можно и нужно сыграть.

Читал немножко про такие автосистемы, да действительно их проблема в низкокачественности ;) Ктому же их как правило не уважают поисковики за неуникальный контент.

Именно потому думаю сразу делать упор на качество для пользователя, чтобы плодить читабельные ресурсы, чтобы они выглядели будто их делает человек. Пускай даже за счёт того, что качественно пересказывает существующую информацию (а ведь именно так и выглядят многие сайты - вопрос лишь в том как это рассказывается ;)

OPTIMER:
Технически все реализуемо. И будет все это дело очень востребовано :). Но дело в том, что сделать все это можете не только Вы :) А так интересно :).

Да, не только я, но даже если удатся "урвать" небольшой кусочек общего пирога будет также неплохо. ;) Запросы у меня не очень большие, известности также не ищу, самая главная идея - это автоматизация и пассивность такого источника. Ну и сам по себе процесс творчества - стоит того, чтобы пытаться сделать такую вещь...

softsafer:

Сколько ресурсов нужно, чтобы сделать систему, которая будет сама делать читабельный
уникальный контент?

Пока не знаю, вообще здесь всё зависит от технологии (в моём случае - PHP+MySQL, а сам этот язык ресурсоёмкий), но пока ограничусь арендой небольшого сервака (50-100$ в месяц). Тем более если экономно распределять ресурсы - именно на импорт контента, а посещения уже особых ресурсов не требуют ;).

softsafer:

Сколько времени нужно поисковикам, чтобы научиться определять вторичность вашего контента?

Вот тут может возникнуть побочная проблема. Если моя система (в иделе) выдавать будет контент путём КАЧЕСТВЕННОГО пересказа, то вряд ли это противоречит политике тех же поисковиков (качественных рерайтеров, журналистов вроде они не обвиняют).

Но есть большая вероятносто, что такой новый контент уже могут "сграбить" другие люди. И он за счёт этого становится неуникальным. И дальше всё зависит от поисковика - чей контент он посчитает первоисточником в таком случае.

Впрочем, такая же проблема стоит даже если писать свой уникальный контент - судя по отзывам, некоторые поисковики здесь ведут себя непредсказуемо...

12
Всего: 19