Идея Фикс или велосипед? - Мысль об автоматическом источнике хлеба с маслом ;)

M
На сайте с 29.07.2008
Offline
7
#21
Arhangel66:
MD5sys, то что вы говорите и задумали, думаю приходило в голову любому програмисту, который писал статьи... я с детства мечтаю о ИИ, умных сайтах, сайтах которые отслеживая поведение пользователя бы менялись для увеличения продаж...
Но не-во-змо-жно заставить машину ПОНЯТЬ абзац текста и ПЕРЕСКАЗАТЬ его... это будет в лучшем случае перестановка фраз, комбинирование коротких и разбивка длинных предложений...

Да, лет 10 назад я так же думал об ИИ :), но сейчас совсем не так. Такую глобальную цель - создать умную систему, которая будет беседовать как человек я не ставлю.

Задача отточить систему для конкретной относительно узкой цели. В какой-то степени это будет то что Вы сказали - перестановка, комбинирование и т.п. И при правильном анализе это уже будет начало выдачи качественного контента.

Насчёт "понять" - речь немножко не об этом.

Приведу простой пример: в любом предложении есть грамматическая основа + пару других слов несущих основной смысл.

К примеру, есть новость, озаглавленная:

Обязательную страховку по ипотеке отменят

Анализируя её (морфологический, синтаксический и тематический разбор) - система должна определить главные мысли (в данном случае - отмена обязательной страховки при ипотеке) и формировать например такие заголовки:

"Отмена обязательной страховки для заёмщиков по ипотеке"

"Ипотека может подешеветь из-за отмены обязательной страховки"

"Отмена обязательной страховки для заёмщиков по ипотеке"

"Ипотечный кредит можно будет взять без страховки"

"Будет отменено обязательное страхование пользователей ипотечных кредитов"

"Ипотека без страховки: возможность или опасность?"

Вот такие разнообразия заголовков отличают одни новостные сайты от других. У каждого корреспондента свой стиль и он сказывается на заголовках. Эти "разные стили" и делают уникальность, а не уникальность самой информации. И это читать интересно. ;)

MD5sys добавил 30.07.2008 в 11:17

Vanj:
И как же по Вашему будет "выделятся главный смысл" текста?

Это то что я называю "морфологический, синтаксический, тематический и смысловой разбор".

А именно:

1. Морфологический разбор.

Идёт определение частей речи, их характеристик, начальной и всех других словоформ. Для этого уже есть готовые разработки.

2. Синтаксический разбор.

На основе данных морфологического разбора определяются основные составляющие предложения - грамматическая основа (подлежащее, сказуемое) и прилегающие к нему несущие смысл части (дополнения, определения и т.п.).

Т.е. какую роль играет какая фраза. Естественно фразы будуть браться с предлогами "не пришёл" и т.п., дабы не исказить смысл. Раздельно определяются малозначимые части (вводные слова и т.п.), которые можно даже заменить при надобности - и на синонимы.

Сложные предложения к примеру также предварительно грамотно разбиываются на простые перед синтаксическим анализом.

3. Тематический разбор.

Чётко определять тему. Беда многих прог-синонимизаторов - нет тематической подмены. Они часто суют слова "сей", "воеже", которые в описание какой-то Hi-Tech новинки совсем не клеятся.

Определение темы также даст плюс в построении новых предложений.

4. Смысловой анализ

Это наиболее сложная часть. Она заключается в том, чтобы увидеть связи между словами в предложении или даже между предложениями в абзаце. Вот эту часть и стоит возможно подвергнуть "самообучаемости" на основе даже анализа нескольких текстов.

И в конечном итоге система формирует новые предложения, абзацы, связанный текст - при этом система обучается разным стилям (естественно одна статья - в одном стиле, как будто её пишет один уникальный человек) - и в результате, по идее, должен получаться качественный полезный контент.

Другими словами, если уже получена смысловая фраза (как я привёл пример с ипотекой) - задать стили написания по каким-то схемам уже проще.

Должно получится серьёзное отличие от синонимайзеров (которые вообще не заботятся о сохранении стиля после подстановки синонимов, а потому не дают читабельного текста) и от дор-генов (которые не несут смысла, даже если дают качественный текст). ;)

P.S. Если у читателей данного форума будет желание и интерес к обсуждению алгоритмов получения уникального текста, я возможно потом сделаю на сайте временный доступ (через форму) для тестирования такого преобразователя (т.е. на этапе его создания и улучшения). Может быть это поможет и мне и другим понять лучше какой должна быть такая система и по каким алгоритмам действовать ;)

X-Master
На сайте с 12.01.2008
Offline
118
#22

Вы уверенны что это все сможете потянуть ? Это работа не для одного человека, целая бригада нужна 🚬

+ надо большой бюджет

Дизайн и верстка сайтов: Telegram: @Bartyura | Скайп: xmaster-se | Е-мейл: xmasteer [х] gmail.com (сразу присылайте ТЗ на оценку)
S
На сайте с 14.04.2008
Offline
60
#23
MD5sys:
Да, лет 10 назад я так же думал об ИИ :), но сейчас совсем не так. Такую глобальную цель - создать умную систему, которая будет беседовать как человек я не ставлю...

Как раз это было бы сделать проще, чем решить вашу задачу :) Еще лет 20 (если не больше) назад в MIT создали алгоритм "Эльза" (или "Элиза"), который имитировал работу психотерапевта-"роджерианца". Да так удачно, что даже обслуга машины через некоторое время начала забываться и с машиной беседовать. Если интересно, поищите книгу Джозефа Вейценбаума "Возможности машин и человеческий разум" - полный текст в рунете я видел в открытом доступе...

MD5sys:
...Задача отточить систему для конкретной относительно узкой цели. В какой-то степени это будет то что Вы сказали - перестановка, комбинирование и т.п. И при правильном анализе это уже будет начало выдачи качественного контента.

К примеру, есть новость, озаглавленная:

Обязательную страховку по ипотеке отменят

Анализируя её (морфологический, синтаксический и тематический разбор) - система должна определить главные мысли (в данном случае - отмена обязательной страховки при ипотеке) и формировать например такие заголовки:

"Отмена обязательной страховки для заёмщиков по ипотеке"
"Ипотека может подешеветь из-за отмены обязательной страховки"
"Отмена обязательной страховки для заёмщиков по ипотеке"
"Ипотечный кредит можно будет взять без страховки"
"Будет отменено обязательное страхование пользователей ипотечных кредитов"
"Ипотека без страховки: возможность или опасность?"
...

Этот пример - это нечто большее, чем "просто пересказ". Эти фразы построены из исходной с пониманием контекста проблемы (причинно-следственных связей реального мира). Ведь никакой морфологический или синтаксический разбор не поможет машине понять, что факт "отмена страховки" может иметь определенные последствия. Да, на отдельной узкой теме машину можно научить, набив ручками базу знаний, но для произвольного текста на неизвестную тему - сомнительно...

[Удален]
#24

Четыре года назад я был таким же наивным :)))

M
На сайте с 29.07.2008
Offline
7
#25
X-Master:
Вы уверенны что это все сможете потянуть ? Это работа не для одного человека, целая бригада нужна 🚬

+ надо большой бюджет

Я не уверен или абсолютно всё смогу потянуть сам, но главная задача вначале продумать алгоритмы, как развивать в дальнейшем систему и т.п. Базовые знания + Инет составят основу...

Вначале упор будет делаться на самостоятельную разработку основы. Бюджет для этого большой не нужен - несколько сотен долларов вполне покроют на первое время расходы (на оплату ресурсов - сервера и на возможную покупку программного обеспечения (хотя в Рунете это понятие не очень актуально :) ), в дальнейшем закупка доменов и прочих возможных SEO-расходов).

А дальше будет видно по ситуации - если стоящая переспектива в этом есть, то будет приниматься решение о "человекоресурсах" и дальнейших действиях.

ИМХО - учитывая определённую ограниченность задумки, вполне реально её воплотить и в небольшой срок (несколько месяцев) и без больших затрат.

seraphim:
Как раз это было бы сделать проще, чем решить вашу задачу :) Еще лет 20 (если не больше) назад в MIT создали алгоритм "Эльза" (или "Элиза"), который имитировал работу психотерапевта-"роджерианца". Да так удачно, что даже обслуга машины через некоторое время начала забываться и с машиной беседовать.

Ну если говорить не просто про беседу, а "воссоздать мышление" - это глобальная вряд ли достижимая цель, которую я даже не ставлю.

seraphim:
Если интересно, поищите книгу Джозефа Вейценбаума "Возможности машин и человеческий разум" - полный текст в рунете я видел в открытом доступе...

Ок, спасибо, поищу и посмотрю ;)

seraphim:
Этот пример - это нечто большее, чем "просто пересказ". Эти фразы построены из исходной с пониманием контекста проблемы (причинно-следственных связей реального мира). Ведь никакой морфологический или синтаксический разбор не поможет машине понять, что факт "отмена страховки" может иметь определенные последствия. Да, на отдельной узкой теме машину можно научить, набив ручками базу знаний, но для произвольного текста на неизвестную тему - сомнительно...

Пример который я привёл, кстати, взят из реальных заголовков одной новости из разных новостных сайтов. Естественно их составляли люди.

Насчёт причинно-следственных связей - естественно для абсолютно произвольного текста это очень сложно. Я планирую заготовить вначале базу для определённых тематик, чтобы там где можно - они будут использоваться (хотя бы те что есть в базе), а где нет - будет без причинно-следственных. Продумать обучаемость этим связям если удастся.

То есть должен получиться компромис между бессмысленным доргеновским текстом и малополезными синонимизаторами ;)

6666
На сайте с 10.01.2005
Offline
505
#26
MD5sys:
Хочу попробовать реализовать такую идею: написать систему рерайтинга, максимально приближённую по качеству к человеческому. Идеальной системы конечно не получится, но я попытаюсь обучить её так, чтобы она именно пересказывала смысл.

Это УГ, а не уникальный контент.

Каждое мое сообщение проверила и одобрила Елена Летучая. (c) Для меня очень важно все что Вы говорите! (http://surrealism.ru/123.mp3) .
[Удален]
#27
MD5sys:
Продумать обучаемость этим связям если удастся

Не удастся.

G00DMAN
На сайте с 19.04.2008
Offline
122
#28

MD5sys, если Вы качественно реализуете п.6 и будете выдавать хороший рерайт для людей, то с остальным можете не заморачиваться - на форуме найдется достаточно желающих с нужными знаниями, финансами и другими ресурсами, которые помогут сделать все остальное при долевом участии в будущей прибыли. Я бы например с удовольствием поучавствовал, люблю автономные системы. :)

Только как-то не особо верится в создание такого полу-ИИ на общие темы. В узких темах - да, возможно, у меня один коллектив сделал такое в финансовой тематике, причем тексты не рерайтятся, ежедневно может выдаваться теоретически неограниченное количество уникального копирайта.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
M
На сайте с 29.07.2008
Offline
7
#29
G00DMAN:
MD5sys, если Вы качественно реализуете п.6 и будете выдавать хороший рерайт для людей, то с остальным можете не заморачиваться - на форуме найдется достаточно желающих с нужными знаниями, финансами и другими ресурсами, которые помогут сделать все остальное при долевом участии в будущей прибыли. Я бы например с удовольствием поучавствовал, люблю автономные системы. :)

Только как-то не особо верится в создание такого полу-ИИ на общие темы. В узких темах - да, возможно, у меня один коллектив сделал такое в финансовой тематике, причем тексты не рерайтятся, ежедневно может выдаваться теоретически неограниченное количество уникального копирайта.

Понятно.

Ну цель всегда надо ставить выше, а там как получится. Основную идея та, что я высказал в первом посте - нужен пассивный источник из SEO, но качественный ;) Что-то сделается, что-то будет работать, на каком-то этапе и мой труд над ней приостановится.

В любом случае, варианты дор-генов и синонимизаторов мало кого утсраивают. Потому и возникла потребность в более качественном, в тоже время более автоматическом. И это даёт шанс пробиться среди большого количества мусорных сайтов. Причём вариант с такой системой выгоден как для пользователя-читателя, так и для вебмастера :)

[Удален]
#30

Интересно, найдутся на этом сайте инвесторы, способные вложиться в данный генератор уникального текста?

Если есть, добро пожаловать в личку.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий