Идея Фикс или велосипед? - Мысль об автоматическом источнике хлеба с маслом ;)

[Удален]
#41
kevindark:
basterr, ходил. У тебя есть есть хоть 1 доказательство того, что это сгенерированный текст, а не понты типа "вот какой у меня генератор"?

Так там ТС предлагает списаться с ним в личке и обсудить, можете попробовать.

basterr
На сайте с 24.11.2005
Offline
719
#42
kevindark:
У тебя есть есть хоть 1 доказательство того, что это сгенерированный текст, а не понты типа "вот какой у меня генератор"?

нет конечно. из того топика их не видно. но насколько я знаю этот вацлав достаточно известный чел, врядли бы так тупо пиариться стал. хотя черт их всех знает.

Nominder
На сайте с 09.01.2008
Offline
125
#43

Идея очень даже реальная, сам нераз прокручивал это в своих мозгах.

Пункт 6 реализуем, но тяжело. Видел асечный бот с нормальными ответами и на вконтакте была флешка с которой я разговаривал примерно ПОЛ-ЧАСА!!! Он не тупил до того момента, пока я не начал говорить одно и то же слово *** кучу раз. Он отвечал ...

Эти системы ословываются на первичном разборе предложения на смысловые части, выделяют основу предложения: подлежащее, сказуемое. Смотрят на местоимения. Работают с окончаниями, суффиксами и приставками прилагательных, существительных, наречий и т. п.

Сам думал о реализации, но подумал, что моих мозгов на это не хватит. Какой-нибудь человек с кафедры может помоч разложить все по пунктам и наметить реализацию пункта номер 6.

либо этот проект так и не будет закончен, либо не окупится, т.к. как-нибудь и это прикроют, хотя х.з. как...

попытка не пытка.

[Удален]
#44

bratka_panya, basterr, все существующие генераторы основываются на предварительной подготовке массива шаблонов, внутри которых потом проходит рандомизация - опять же, на основе массива данных. Засада в том, что в небольших масштабах это работает, а в промышленных - слишком большое сходство, и ПС палят на ура (((

Современные компьютеры умеют только вычислять. Это важно понимать, прежде чем думать о генераторах текста)

sun
На сайте с 22.10.2005
Offline
81
sun
#45

Все не осилил, но идея больше применима к буржунету, английский более легче в синанемайзинге.

devmen.com (http://devmen.com/)
S
На сайте с 14.04.2008
Offline
60
#46
MD5sys:


P.S. Если будут ещё мысли - пишите ;)

Ага, их есть у нас :)

Основная мысль - ваша система будет бесполезной без умения обучаться в незнакомых ей контекстах. Поэтому лучше сосредоточьтесь на системе, которая бы применяла весь упомянутый инструментарий (морфологию, синтаксис, семантику) и генерировала базы знаний о предметных областях на основании скормленных ей "образцовых" текстов.

Если такое осилите - то "решить" пересказ текста будет более простой задачей. Если не осилите - то не стоит и париться с очередным тысячепервым "продвинутым синонимайзером"... Хотя, конечно, абсурдна сама идея - строить адронный коллайдер чтобы разогнанными частицами жаб глушить :)

kevindark:
Современные компьютеры умеют только вычислять. Это важно понимать, прежде чем думать о генераторах текста)

Ну это вы тоже зря упрощаете. Вычисления вычислениям рознь. Исследователи ИИ хоть и медленно, но движутся вперед. Применительно к теме: "создать текст" и "пересказать текст" - это принципиально разные задачи. Вторая как раз не требует творчества, а требует вычислений. Проблема - создать базу для вычислений.

Другое дело, что ТС, похоже, о существующих направлениях в исследовании ИИ не в курсе, и таки будет изобретать велик...

Vanj
На сайте с 24.10.2007
Offline
19
#47
MD5sys:


MD5sys добавил 30.07.2008 в 11:17


1. Морфологический разбор.

2. Синтаксический разбор.

3. Тематический разбор.

4. Смысловой анализ

Должно получится серьёзное отличие от синонимайзеров

Это на столько же реально, на сколько п/с придумают новый фильтр!

Вся проблема заключается в одном – алгоритм, который можно вычислить.

Тут наверное действительно нужен аля "искусственный интеллект", а это уже нано технологии. :)(шутка)

Уверен в одном, что Ваша идея заработает (если конечно будете много над ней работать), но о тех масштабах, о которых говорится выше – забудьте, по любому, гайки закрутят.

SJ
На сайте с 16.03.2008
Offline
78
#48
kevindark:
bratka_panya, basterr, все существующие генераторы основываются на предварительной подготовке массива шаблонов, внутри которых потом проходит рандомизация - опять же, на основе массива данных.

Слова человека, который явно работал в этом направлении ;)

И текст на армаде вполне может быть генерированным. По шаблону. Да, в шаблоне 100 переменных, каждая может принимать 10 значений, у шаблона переставляются предложения с согласованием рода, числа, времени...

Но он остается шаблоном. Которые хорошо только человек может подготовить.

У меня например все уперлось в "метаправила". Это когда система знает, что блок такой-то (словосочетания разных групп, предложения и т.д.) можно трансформировать так-то. Ясное дело, что морфология и разбор предложений активно юзались. Вот только эти "метаправила" придумывать мне... И я устал :) Это просто очередной шаблон. Да, очень "широкий" - но просто шаблон.

А научить "понимать"... Совсем тяжко. Но! Почитайте это:

http://newis.livejournal.com/

/ru/forum/232093

А потестить можно кстати тут (английский пока очень хорошо, русский - не знаю):

http://www.newisearch.com

Сравните выдачу с гугловой ;)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
[Удален]
#49
Хочу попробовать реализовать такую идею: написать систему рерайтинга, максимально приближённую по качеству к человеческому. Идеальной системы конечно не получится, но я попытаюсь обучить её так, чтобы она именно пересказывала смысл.

То есть, проводить сложный морфологический, синтаксический, тематический анализ, затем пытаться выбрать смысловые части и из них строить новые предложения. Где-то упрощать, где-то наоборот, усложнять, использовать качественный синониминг и т.п.

Конек в этом. Все остальное уже сделано.

Как близкий к лингвистике человек, скажу, что это очень сложно.

Смотрите, почему синонимайзеры не работают? Вернее, работают не так, как надо? Программулину даже я на пхп напишу, главное - базы.

Есть конкретный текст, его можно посмотреть, выделить слова для синонимизации и составить базу.

Но все тексты разные, и универсальной базы не получится.

Даже возьмем тематику медицина. Ну и что? Это очень обширно. Надо брать примерно такую тематику: Медицина - стоматология - строение зубов - и собирать базу под особенности зубов.

Но надо ли? Ведь таких тематик миллионы, и собирать под каждую базу - нецелесообразно.

Посему синонимайзинг - дело, конечно, хорошее, но сложное именно из-за отсутствия баз.

Вот те, кто утверждает, что существуют хорошие синонимайзеры, возьмите и пропустите мой пост (только так чтоб действительно текст почти уникальным стал) - и почитайте. Бред.

А вообще, в части уникального контента вопрос уже решен. Есть тема, и она активно применяется, и очень хорошо, что ее не палят. Миллион знаков уникального контента по любой тематике добываются в качестве вечернего отдыха. Уникальность - 100%, читабельность - 100%, смысловая нагрузка - 100%
Так что никаких велосипедов изобретать не надо, уже изобретено :)

[Удален]
#50

Squick, а что ж квартиры с машиной еще нет? :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий