- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
MD5sys, то что вы говорите и задумали, думаю приходило в голову любому програмисту, который писал статьи... я с детства мечтаю о ИИ, умных сайтах, сайтах которые отслеживая поведение пользователя бы менялись для увеличения продаж...
Но не-во-змо-жно заставить машину ПОНЯТЬ абзац текста и ПЕРЕСКАЗАТЬ его... это будет в лучшем случае перестановка фраз, комбинирование коротких и разбивка длинных предложений...
Да, лет 10 назад я так же думал об ИИ :), но сейчас совсем не так. Такую глобальную цель - создать умную систему, которая будет беседовать как человек я не ставлю.
Задача отточить систему для конкретной относительно узкой цели. В какой-то степени это будет то что Вы сказали - перестановка, комбинирование и т.п. И при правильном анализе это уже будет начало выдачи качественного контента.
Насчёт "понять" - речь немножко не об этом.
Приведу простой пример: в любом предложении есть грамматическая основа + пару других слов несущих основной смысл.
К примеру, есть новость, озаглавленная:
Обязательную страховку по ипотеке отменят
Анализируя её (морфологический, синтаксический и тематический разбор) - система должна определить главные мысли (в данном случае - отмена обязательной страховки при ипотеке) и формировать например такие заголовки:
"Отмена обязательной страховки для заёмщиков по ипотеке"
"Ипотека может подешеветь из-за отмены обязательной страховки"
"Отмена обязательной страховки для заёмщиков по ипотеке"
"Ипотечный кредит можно будет взять без страховки"
"Будет отменено обязательное страхование пользователей ипотечных кредитов"
"Ипотека без страховки: возможность или опасность?"
Вот такие разнообразия заголовков отличают одни новостные сайты от других. У каждого корреспондента свой стиль и он сказывается на заголовках. Эти "разные стили" и делают уникальность, а не уникальность самой информации. И это читать интересно. ;)
MD5sys добавил 30.07.2008 в 11:17
И как же по Вашему будет "выделятся главный смысл" текста?
Это то что я называю "морфологический, синтаксический, тематический и смысловой разбор".
А именно:
1. Морфологический разбор.
Идёт определение частей речи, их характеристик, начальной и всех других словоформ. Для этого уже есть готовые разработки.
2. Синтаксический разбор.
На основе данных морфологического разбора определяются основные составляющие предложения - грамматическая основа (подлежащее, сказуемое) и прилегающие к нему несущие смысл части (дополнения, определения и т.п.).
Т.е. какую роль играет какая фраза. Естественно фразы будуть браться с предлогами "не пришёл" и т.п., дабы не исказить смысл. Раздельно определяются малозначимые части (вводные слова и т.п.), которые можно даже заменить при надобности - и на синонимы.
Сложные предложения к примеру также предварительно грамотно разбиываются на простые перед синтаксическим анализом.
3. Тематический разбор.
Чётко определять тему. Беда многих прог-синонимизаторов - нет тематической подмены. Они часто суют слова "сей", "воеже", которые в описание какой-то Hi-Tech новинки совсем не клеятся.
Определение темы также даст плюс в построении новых предложений.
4. Смысловой анализ
Это наиболее сложная часть. Она заключается в том, чтобы увидеть связи между словами в предложении или даже между предложениями в абзаце. Вот эту часть и стоит возможно подвергнуть "самообучаемости" на основе даже анализа нескольких текстов.
И в конечном итоге система формирует новые предложения, абзацы, связанный текст - при этом система обучается разным стилям (естественно одна статья - в одном стиле, как будто её пишет один уникальный человек) - и в результате, по идее, должен получаться качественный полезный контент.
Другими словами, если уже получена смысловая фраза (как я привёл пример с ипотекой) - задать стили написания по каким-то схемам уже проще.
Должно получится серьёзное отличие от синонимайзеров (которые вообще не заботятся о сохранении стиля после подстановки синонимов, а потому не дают читабельного текста) и от дор-генов (которые не несут смысла, даже если дают качественный текст). ;)
P.S. Если у читателей данного форума будет желание и интерес к обсуждению алгоритмов получения уникального текста, я возможно потом сделаю на сайте временный доступ (через форму) для тестирования такого преобразователя (т.е. на этапе его создания и улучшения). Может быть это поможет и мне и другим понять лучше какой должна быть такая система и по каким алгоритмам действовать ;)
Вы уверенны что это все сможете потянуть ? Это работа не для одного человека, целая бригада нужна 🚬
+ надо большой бюджет
Да, лет 10 назад я так же думал об ИИ :), но сейчас совсем не так. Такую глобальную цель - создать умную систему, которая будет беседовать как человек я не ставлю...
Как раз это было бы сделать проще, чем решить вашу задачу :) Еще лет 20 (если не больше) назад в MIT создали алгоритм "Эльза" (или "Элиза"), который имитировал работу психотерапевта-"роджерианца". Да так удачно, что даже обслуга машины через некоторое время начала забываться и с машиной беседовать. Если интересно, поищите книгу Джозефа Вейценбаума "Возможности машин и человеческий разум" - полный текст в рунете я видел в открытом доступе...
...Задача отточить систему для конкретной относительно узкой цели. В какой-то степени это будет то что Вы сказали - перестановка, комбинирование и т.п. И при правильном анализе это уже будет начало выдачи качественного контента.
К примеру, есть новость, озаглавленная:
Обязательную страховку по ипотеке отменят
Анализируя её (морфологический, синтаксический и тематический разбор) - система должна определить главные мысли (в данном случае - отмена обязательной страховки при ипотеке) и формировать например такие заголовки:
"Отмена обязательной страховки для заёмщиков по ипотеке"
"Ипотека может подешеветь из-за отмены обязательной страховки"
"Отмена обязательной страховки для заёмщиков по ипотеке"
"Ипотечный кредит можно будет взять без страховки"
"Будет отменено обязательное страхование пользователей ипотечных кредитов"
"Ипотека без страховки: возможность или опасность?"
...
Этот пример - это нечто большее, чем "просто пересказ". Эти фразы построены из исходной с пониманием контекста проблемы (причинно-следственных связей реального мира). Ведь никакой морфологический или синтаксический разбор не поможет машине понять, что факт "отмена страховки" может иметь определенные последствия. Да, на отдельной узкой теме машину можно научить, набив ручками базу знаний, но для произвольного текста на неизвестную тему - сомнительно...
Четыре года назад я был таким же наивным :)))
Вы уверенны что это все сможете потянуть ? Это работа не для одного человека, целая бригада нужна 🚬
+ надо большой бюджет
Я не уверен или абсолютно всё смогу потянуть сам, но главная задача вначале продумать алгоритмы, как развивать в дальнейшем систему и т.п. Базовые знания + Инет составят основу...
Вначале упор будет делаться на самостоятельную разработку основы. Бюджет для этого большой не нужен - несколько сотен долларов вполне покроют на первое время расходы (на оплату ресурсов - сервера и на возможную покупку программного обеспечения (хотя в Рунете это понятие не очень актуально :) ), в дальнейшем закупка доменов и прочих возможных SEO-расходов).
А дальше будет видно по ситуации - если стоящая переспектива в этом есть, то будет приниматься решение о "человекоресурсах" и дальнейших действиях.
ИМХО - учитывая определённую ограниченность задумки, вполне реально её воплотить и в небольшой срок (несколько месяцев) и без больших затрат.
Как раз это было бы сделать проще, чем решить вашу задачу :) Еще лет 20 (если не больше) назад в MIT создали алгоритм "Эльза" (или "Элиза"), который имитировал работу психотерапевта-"роджерианца". Да так удачно, что даже обслуга машины через некоторое время начала забываться и с машиной беседовать.
Ну если говорить не просто про беседу, а "воссоздать мышление" - это глобальная вряд ли достижимая цель, которую я даже не ставлю.
Если интересно, поищите книгу Джозефа Вейценбаума "Возможности машин и человеческий разум" - полный текст в рунете я видел в открытом доступе...
Ок, спасибо, поищу и посмотрю ;)
Этот пример - это нечто большее, чем "просто пересказ". Эти фразы построены из исходной с пониманием контекста проблемы (причинно-следственных связей реального мира). Ведь никакой морфологический или синтаксический разбор не поможет машине понять, что факт "отмена страховки" может иметь определенные последствия. Да, на отдельной узкой теме машину можно научить, набив ручками базу знаний, но для произвольного текста на неизвестную тему - сомнительно...
Пример который я привёл, кстати, взят из реальных заголовков одной новости из разных новостных сайтов. Естественно их составляли люди.
Насчёт причинно-следственных связей - естественно для абсолютно произвольного текста это очень сложно. Я планирую заготовить вначале базу для определённых тематик, чтобы там где можно - они будут использоваться (хотя бы те что есть в базе), а где нет - будет без причинно-следственных. Продумать обучаемость этим связям если удастся.
То есть должен получиться компромис между бессмысленным доргеновским текстом и малополезными синонимизаторами ;)
Хочу попробовать реализовать такую идею: написать систему рерайтинга, максимально приближённую по качеству к человеческому. Идеальной системы конечно не получится, но я попытаюсь обучить её так, чтобы она именно пересказывала смысл.
Это УГ, а не уникальный контент.
Продумать обучаемость этим связям если удастся
Не удастся.
MD5sys, если Вы качественно реализуете п.6 и будете выдавать хороший рерайт для людей, то с остальным можете не заморачиваться - на форуме найдется достаточно желающих с нужными знаниями, финансами и другими ресурсами, которые помогут сделать все остальное при долевом участии в будущей прибыли. Я бы например с удовольствием поучавствовал, люблю автономные системы. :)
Только как-то не особо верится в создание такого полу-ИИ на общие темы. В узких темах - да, возможно, у меня один коллектив сделал такое в финансовой тематике, причем тексты не рерайтятся, ежедневно может выдаваться теоретически неограниченное количество уникального копирайта.
MD5sys, если Вы качественно реализуете п.6 и будете выдавать хороший рерайт для людей, то с остальным можете не заморачиваться - на форуме найдется достаточно желающих с нужными знаниями, финансами и другими ресурсами, которые помогут сделать все остальное при долевом участии в будущей прибыли. Я бы например с удовольствием поучавствовал, люблю автономные системы. :)
Только как-то не особо верится в создание такого полу-ИИ на общие темы. В узких темах - да, возможно, у меня один коллектив сделал такое в финансовой тематике, причем тексты не рерайтятся, ежедневно может выдаваться теоретически неограниченное количество уникального копирайта.
Понятно.
Ну цель всегда надо ставить выше, а там как получится. Основную идея та, что я высказал в первом посте - нужен пассивный источник из SEO, но качественный ;) Что-то сделается, что-то будет работать, на каком-то этапе и мой труд над ней приостановится.
В любом случае, варианты дор-генов и синонимизаторов мало кого утсраивают. Потому и возникла потребность в более качественном, в тоже время более автоматическом. И это даёт шанс пробиться среди большого количества мусорных сайтов. Причём вариант с такой системой выгоден как для пользователя-читателя, так и для вебмастера :)
Интересно, найдутся на этом сайте инвесторы, способные вложиться в данный генератор уникального текста?
Если есть, добро пожаловать в личку.