Как работают Яндекс.Рефераты?

Antony69
На сайте с 16.09.2004
Offline
146
1321

Мне интересно, как все-таки работают Яндекс.Рефераты. Мне кажется, что имеется некоторый набор тематической лексики + для каждого слова известно, что это за часть речи, в каком падеже и т.д. Собственно говоря на основе этой информации и генерятся тексты. Или может быть Марковские цепи?

Заметки SEO аналитика (http://www.seonotes.ru)
S
На сайте с 18.11.2005
Offline
32
#1

Ну, я бы не стал противопоставлять марковские цепи и описанный в начале способ. И то, и то можно представить как марковские цепи, скорее всего они и используются.

Что-то вроде такого (навскидку, сырая гипотеза, конечно): для каждой тематики тренируется цепь на текстах из неё, с учетом стемминга, может быть отдельных состояний для учета частей речи и предложения, благо их немного и это только линейно увеличит число состояний. Порядок -- слов штук 5. Может еще навернули пару уровней для генерации сложноподчиненных предложений. Генерация текста происходит по натренированной цепи с модификатором выхода, учитывающим текущий (тренируемый или нет) род, падеж, whatever для данного словосочетания/подлежащего. Последнее - это, в принципе, шаг генерации выхода по скрытому состоянии HMM, т.е. с самого начала можно тренировать и эти параметры, но, наверное, не нужно.

Думаю, там основная работа - это не тренировка цепи, а ручной подбор множества состояний и правила для учета особых ситуаций, работа над качеством тренировочной выборки, и т.п. и т.д.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий