- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
basterr, ходил. У тебя есть есть хоть 1 доказательство того, что это сгенерированный текст, а не понты типа "вот какой у меня генератор"?
Так там ТС предлагает списаться с ним в личке и обсудить, можете попробовать.
У тебя есть есть хоть 1 доказательство того, что это сгенерированный текст, а не понты типа "вот какой у меня генератор"?
нет конечно. из того топика их не видно. но насколько я знаю этот вацлав достаточно известный чел, врядли бы так тупо пиариться стал. хотя черт их всех знает.
Идея очень даже реальная, сам нераз прокручивал это в своих мозгах.
Пункт 6 реализуем, но тяжело. Видел асечный бот с нормальными ответами и на вконтакте была флешка с которой я разговаривал примерно ПОЛ-ЧАСА!!! Он не тупил до того момента, пока я не начал говорить одно и то же слово *** кучу раз. Он отвечал ...
Эти системы ословываются на первичном разборе предложения на смысловые части, выделяют основу предложения: подлежащее, сказуемое. Смотрят на местоимения. Работают с окончаниями, суффиксами и приставками прилагательных, существительных, наречий и т. п.
Сам думал о реализации, но подумал, что моих мозгов на это не хватит. Какой-нибудь человек с кафедры может помоч разложить все по пунктам и наметить реализацию пункта номер 6.
либо этот проект так и не будет закончен, либо не окупится, т.к. как-нибудь и это прикроют, хотя х.з. как...
попытка не пытка.
bratka_panya, basterr, все существующие генераторы основываются на предварительной подготовке массива шаблонов, внутри которых потом проходит рандомизация - опять же, на основе массива данных. Засада в том, что в небольших масштабах это работает, а в промышленных - слишком большое сходство, и ПС палят на ура (((
Современные компьютеры умеют только вычислять. Это важно понимать, прежде чем думать о генераторах текста)
Все не осилил, но идея больше применима к буржунету, английский более легче в синанемайзинге.
P.S. Если будут ещё мысли - пишите ;)
Ага, их есть у нас :)
Основная мысль - ваша система будет бесполезной без умения обучаться в незнакомых ей контекстах. Поэтому лучше сосредоточьтесь на системе, которая бы применяла весь упомянутый инструментарий (морфологию, синтаксис, семантику) и генерировала базы знаний о предметных областях на основании скормленных ей "образцовых" текстов.
Если такое осилите - то "решить" пересказ текста будет более простой задачей. Если не осилите - то не стоит и париться с очередным тысячепервым "продвинутым синонимайзером"... Хотя, конечно, абсурдна сама идея - строить адронный коллайдер чтобы разогнанными частицами жаб глушить :)
Современные компьютеры умеют только вычислять. Это важно понимать, прежде чем думать о генераторах текста)
Ну это вы тоже зря упрощаете. Вычисления вычислениям рознь. Исследователи ИИ хоть и медленно, но движутся вперед. Применительно к теме: "создать текст" и "пересказать текст" - это принципиально разные задачи. Вторая как раз не требует творчества, а требует вычислений. Проблема - создать базу для вычислений.
Другое дело, что ТС, похоже, о существующих направлениях в исследовании ИИ не в курсе, и таки будет изобретать велик...
MD5sys добавил 30.07.2008 в 11:17
1. Морфологический разбор.
2. Синтаксический разбор.
3. Тематический разбор.
4. Смысловой анализ
Должно получится серьёзное отличие от синонимайзеров
Это на столько же реально, на сколько п/с придумают новый фильтр!
Вся проблема заключается в одном – алгоритм, который можно вычислить.
Тут наверное действительно нужен аля "искусственный интеллект", а это уже нано технологии. :)(шутка)
Уверен в одном, что Ваша идея заработает (если конечно будете много над ней работать), но о тех масштабах, о которых говорится выше – забудьте, по любому, гайки закрутят.
bratka_panya, basterr, все существующие генераторы основываются на предварительной подготовке массива шаблонов, внутри которых потом проходит рандомизация - опять же, на основе массива данных.
Слова человека, который явно работал в этом направлении ;)
И текст на армаде вполне может быть генерированным. По шаблону. Да, в шаблоне 100 переменных, каждая может принимать 10 значений, у шаблона переставляются предложения с согласованием рода, числа, времени...
Но он остается шаблоном. Которые хорошо только человек может подготовить.
У меня например все уперлось в "метаправила". Это когда система знает, что блок такой-то (словосочетания разных групп, предложения и т.д.) можно трансформировать так-то. Ясное дело, что морфология и разбор предложений активно юзались. Вот только эти "метаправила" придумывать мне... И я устал :) Это просто очередной шаблон. Да, очень "широкий" - но просто шаблон.
А научить "понимать"... Совсем тяжко. Но! Почитайте это:
http://newis.livejournal.com/
/ru/forum/232093
А потестить можно кстати тут (английский пока очень хорошо, русский - не знаю):
http://www.newisearch.com
Сравните выдачу с гугловой ;)
То есть, проводить сложный морфологический, синтаксический, тематический анализ, затем пытаться выбрать смысловые части и из них строить новые предложения. Где-то упрощать, где-то наоборот, усложнять, использовать качественный синониминг и т.п.
Конек в этом. Все остальное уже сделано.
Как близкий к лингвистике человек, скажу, что это очень сложно.
Смотрите, почему синонимайзеры не работают? Вернее, работают не так, как надо? Программулину даже я на пхп напишу, главное - базы.
Есть конкретный текст, его можно посмотреть, выделить слова для синонимизации и составить базу.
Но все тексты разные, и универсальной базы не получится.
Даже возьмем тематику медицина. Ну и что? Это очень обширно. Надо брать примерно такую тематику: Медицина - стоматология - строение зубов - и собирать базу под особенности зубов.
Но надо ли? Ведь таких тематик миллионы, и собирать под каждую базу - нецелесообразно.
Посему синонимайзинг - дело, конечно, хорошее, но сложное именно из-за отсутствия баз.
Вот те, кто утверждает, что существуют хорошие синонимайзеры, возьмите и пропустите мой пост (только так чтоб действительно текст почти уникальным стал) - и почитайте. Бред.
А вообще, в части уникального контента вопрос уже решен. Есть тема, и она активно применяется, и очень хорошо, что ее не палят. Миллион знаков уникального контента по любой тематике добываются в качестве вечернего отдыха. Уникальность - 100%, читабельность - 100%, смысловая нагрузка - 100%
Так что никаких велосипедов изобретать не надо, уже изобретено :)
Squick, а что ж квартиры с машиной еще нет? :)