Хм, а в чём собственно говоря базы? :) Можно немножко подробнее и какова сама суть генерации качественного контента ;)
К kevindark: Прошу прощения случайно вставил Вашу цитату, уже убрал...
Уважаемые участники форума!
Я создал этот топик совсем не для инвестирования, обсуждения участия в каком-либо проекте и т.п. Смысл был в другом - я, как начинающий "SEO-промоутер", хотел просто услышать мнение профессионалов. :)
А попутно сказать возможно полезные мысли другим пользователям, которые также работают в этой сфере. Значение этой разработки (которую я уже сам начинаю делать) пока что главным образом творческое.
Я не нуждаюсь на данный момент в инвесторах и совсем не призываю к этому, странно почему вообще этот вопрос стал... Пока что у меня есть свой источник и его должно хватить на первые затраты.
Потому задача этого топика была обсудить саму идею, и рад что услышал, к моему удивлению, много мнений по этому поводу...
За что всех искренне благодарю и хочу сказать "Спасибо"!
P.S. Если будут ещё мысли - пишите ;)
Понятно.
Ну цель всегда надо ставить выше, а там как получится. Основную идея та, что я высказал в первом посте - нужен пассивный источник из SEO, но качественный ;) Что-то сделается, что-то будет работать, на каком-то этапе и мой труд над ней приостановится.
В любом случае, варианты дор-генов и синонимизаторов мало кого утсраивают. Потому и возникла потребность в более качественном, в тоже время более автоматическом. И это даёт шанс пробиться среди большого количества мусорных сайтов. Причём вариант с такой системой выгоден как для пользователя-читателя, так и для вебмастера :)
Я не уверен или абсолютно всё смогу потянуть сам, но главная задача вначале продумать алгоритмы, как развивать в дальнейшем систему и т.п. Базовые знания + Инет составят основу...
Вначале упор будет делаться на самостоятельную разработку основы. Бюджет для этого большой не нужен - несколько сотен долларов вполне покроют на первое время расходы (на оплату ресурсов - сервера и на возможную покупку программного обеспечения (хотя в Рунете это понятие не очень актуально :) ), в дальнейшем закупка доменов и прочих возможных SEO-расходов).
А дальше будет видно по ситуации - если стоящая переспектива в этом есть, то будет приниматься решение о "человекоресурсах" и дальнейших действиях.
ИМХО - учитывая определённую ограниченность задумки, вполне реально её воплотить и в небольшой срок (несколько месяцев) и без больших затрат.
Ну если говорить не просто про беседу, а "воссоздать мышление" - это глобальная вряд ли достижимая цель, которую я даже не ставлю.
Ок, спасибо, поищу и посмотрю ;)
Пример который я привёл, кстати, взят из реальных заголовков одной новости из разных новостных сайтов. Естественно их составляли люди.
Насчёт причинно-следственных связей - естественно для абсолютно произвольного текста это очень сложно. Я планирую заготовить вначале базу для определённых тематик, чтобы там где можно - они будут использоваться (хотя бы те что есть в базе), а где нет - будет без причинно-следственных. Продумать обучаемость этим связям если удастся.
То есть должен получиться компромис между бессмысленным доргеновским текстом и малополезными синонимизаторами ;)
Да, лет 10 назад я так же думал об ИИ :), но сейчас совсем не так. Такую глобальную цель - создать умную систему, которая будет беседовать как человек я не ставлю.
Задача отточить систему для конкретной относительно узкой цели. В какой-то степени это будет то что Вы сказали - перестановка, комбинирование и т.п. И при правильном анализе это уже будет начало выдачи качественного контента.
Насчёт "понять" - речь немножко не об этом.
Приведу простой пример: в любом предложении есть грамматическая основа + пару других слов несущих основной смысл.
К примеру, есть новость, озаглавленная:
Обязательную страховку по ипотеке отменят
Анализируя её (морфологический, синтаксический и тематический разбор) - система должна определить главные мысли (в данном случае - отмена обязательной страховки при ипотеке) и формировать например такие заголовки:
"Отмена обязательной страховки для заёмщиков по ипотеке"
"Ипотека может подешеветь из-за отмены обязательной страховки"
"Ипотечный кредит можно будет взять без страховки"
"Будет отменено обязательное страхование пользователей ипотечных кредитов"
"Ипотека без страховки: возможность или опасность?"
Вот такие разнообразия заголовков отличают одни новостные сайты от других. У каждого корреспондента свой стиль и он сказывается на заголовках. Эти "разные стили" и делают уникальность, а не уникальность самой информации. И это читать интересно. ;)
MD5sys добавил 30.07.2008 в 11:17
Это то что я называю "морфологический, синтаксический, тематический и смысловой разбор".
А именно:
1. Морфологический разбор.
Идёт определение частей речи, их характеристик, начальной и всех других словоформ. Для этого уже есть готовые разработки.
2. Синтаксический разбор.
На основе данных морфологического разбора определяются основные составляющие предложения - грамматическая основа (подлежащее, сказуемое) и прилегающие к нему несущие смысл части (дополнения, определения и т.п.).
Т.е. какую роль играет какая фраза. Естественно фразы будуть браться с предлогами "не пришёл" и т.п., дабы не исказить смысл. Раздельно определяются малозначимые части (вводные слова и т.п.), которые можно даже заменить при надобности - и на синонимы.
Сложные предложения к примеру также предварительно грамотно разбиываются на простые перед синтаксическим анализом.
3. Тематический разбор.
Чётко определять тему. Беда многих прог-синонимизаторов - нет тематической подмены. Они часто суют слова "сей", "воеже", которые в описание какой-то Hi-Tech новинки совсем не клеятся.
Определение темы также даст плюс в построении новых предложений.
4. Смысловой анализ
Это наиболее сложная часть. Она заключается в том, чтобы увидеть связи между словами в предложении или даже между предложениями в абзаце. Вот эту часть и стоит возможно подвергнуть "самообучаемости" на основе даже анализа нескольких текстов.
И в конечном итоге система формирует новые предложения, абзацы, связанный текст - при этом система обучается разным стилям (естественно одна статья - в одном стиле, как будто её пишет один уникальный человек) - и в результате, по идее, должен получаться качественный полезный контент.
Другими словами, если уже получена смысловая фраза (как я привёл пример с ипотекой) - задать стили написания по каким-то схемам уже проще.
Должно получится серьёзное отличие от синонимайзеров (которые вообще не заботятся о сохранении стиля после подстановки синонимов, а потому не дают читабельного текста) и от дор-генов (которые не несут смысла, даже если дают качественный текст). ;)
P.S. Если у читателей данного форума будет желание и интерес к обсуждению алгоритмов получения уникального текста, я возможно потом сделаю на сайте временный доступ (через форму) для тестирования такого преобразователя (т.е. на этапе его создания и улучшения). Может быть это поможет и мне и другим понять лучше какой должна быть такая система и по каким алгоритмам действовать ;)
Сорри за офтоп, просто уже во втором или третьем посте об этом упоминается - хотел объяснить почему именно здесь тема :) :)
Как уже сказал, я "почти новичок в SEO". Почему я так назвал? Потому что у меня есть некоторые теоретические знания в сфере SEO, полученные особенно в последний месяц активного чтения книг и форумов по поисковой оптимизации. Но практики в раскрутке сайтов - у меня ноль. И это отличает начинающего пользователя от опытного SEO-шника, в советах которых я очень нуждаюсь...
В PHP-программировании (да и других некоторых языках), справедливо скажу, что я далеко не новичок (потому вопросы программирования поднимать здесь нет смысла). Именно поэтому возникают такие задумки и цели - применить свои знания на практике с пользой.
А идея с "тыреньем" блогоконтента думаю не очень актуальна - таких скриптов хватает. И моя задумка изначально не в этом.
Одно дело - свиснуть Ваш контент даже с обратной ссылокой. Другое дело - провести анализ Ваших и других мыслей, выделить главное и пересказать их своими словами. То же делают журналисты, рерайтеры и другие люди. И я не вижу в этом преступления, если вдруг "машина" сможет поступать так же и достаточно качественно.
Конечно, сразу создание такой мега вещи представляется нереальным. Но чёткое продумывание алгоритмов, значительный труд и разумное использование уже готовых разработок в идеале может привести к получению подобного результата. ;)
Я имел ввиду "информационно-новостные" (может не очень удачный термин) в плане что они содержат и информацию (наполнение статьями, материалами и т.п.), и возможно с содержанием тематических новостей (которые по идее могут излагаться в другом стили или на анализе нескольких источников).
Цель не стоит сделать совсем полнценный AI, но даже несмотря на ограниченность и заточенность под конкретные нужды - можно сказать система будет иметь элементы такого "интеллекта". Хотя бы за счёт того чтобы делался смысловой анализ текста (а может и нескольких), возможно и дальнейшая самообучаемость системы.
Это конечно большой мега-труд, но во-первых - при продуманности алгоритмов (той же самообучаемости) его можно сократить, во-вторых, к моему удивлению, - уже есть немало проделанных другими людьми программных разработок (тех же скриптов), модулей, баз и т.п., способных заменить рутинную работу ;)
Может быть и так, но той разницей - что дор-гены выдают выдуманную информацию, а задумка стоит в том - чтобы черпать РЕАЛЬНЫЕ факты и реальных источников. И новый текст формировать на основе фактов. Тогда качество будет роль играть и будет интересно для пользователя ;)
Но пока это только идея :)
Благодарю всех за советы и отзывы!
Понятно. Ну в начале думал просто попытаться создать эту систему, и начать с продумывания и разработки именно алгоритмов уникализации другого контента ;) Благо, в этой сфере есть уже немало готовых модулей (те же анализаторы морфологии, хорошие словари тех же синонимов, если их использовать с умом). Это значительно сократит труды в такой сфере.
А что делать дальше с системой, трафом - думаю можно решать по ситуации ;)
Насчёт дизайна так как раз хорошо будет реализовать, правда пока не изучал что и как в этом вопросе. Это ещё больше усилит вопрос автоматизации, на которую и пытаюсь сделать ставку :)
К сожалению, пока НЕТ никакого опыта в SEO (именно практического). Вот лишь не так давно прочитал общую теорию, немножко разобрался с терминологией, но надеюсь если со временем юзать данный форум и тестировать вещи на практике - можно достичь каких-то результатов...
Читал немножко про такие автосистемы, да действительно их проблема в низкокачественности ;) Ктому же их как правило не уважают поисковики за неуникальный контент.
Именно потому думаю сразу делать упор на качество для пользователя, чтобы плодить читабельные ресурсы, чтобы они выглядели будто их делает человек. Пускай даже за счёт того, что качественно пересказывает существующую информацию (а ведь именно так и выглядят многие сайты - вопрос лишь в том как это рассказывается ;)
Да, не только я, но даже если удатся "урвать" небольшой кусочек общего пирога будет также неплохо. ;) Запросы у меня не очень большие, известности также не ищу, самая главная идея - это автоматизация и пассивность такого источника. Ну и сам по себе процесс творчества - стоит того, чтобы пытаться сделать такую вещь...
Пока не знаю, вообще здесь всё зависит от технологии (в моём случае - PHP+MySQL, а сам этот язык ресурсоёмкий), но пока ограничусь арендой небольшого сервака (50-100$ в месяц). Тем более если экономно распределять ресурсы - именно на импорт контента, а посещения уже особых ресурсов не требуют ;).
Вот тут может возникнуть побочная проблема. Если моя система (в иделе) выдавать будет контент путём КАЧЕСТВЕННОГО пересказа, то вряд ли это противоречит политике тех же поисковиков (качественных рерайтеров, журналистов вроде они не обвиняют).
Но есть большая вероятносто, что такой новый контент уже могут "сграбить" другие люди. И он за счёт этого становится неуникальным. И дальше всё зависит от поисковика - чей контент он посчитает первоисточником в таком случае.
Впрочем, такая же проблема стоит даже если писать свой уникальный контент - судя по отзывам, некоторые поисковики здесь ведут себя непредсказуемо...