Облачная платформа Yandex Cloud представила сервис Brand Voice Call Center для генерации голосов для виртуальных операторов колл-центров.
Алгоритм позволяет компаниям практически в режиме реального времени синтезировать голос, которым можно озвучивать персонализированные ответы для клиентов. Он обрабатывает один аудиошаблон и на его основе синтезирует сотни таких же фраз, но при этом по скрипту может менять в них отдельные слова.
Синтезированная речь в Brand Voice Call Center звучит естественно и передает все детали речи живого человека из шаблона: эмоции, интонации, изменения громкости. В качестве шаблонов компании могут использовать фрагменты телефонных записей реальных операторов своих колл-центров.
Робота в колл-центре можно быстрее научить, например, обращаться к клиентам по именам или согласовывать адреса и названия товаров в заказе.
Как сообщили в компании, для обучения алгоритма Brand Voice Call Center специалисты Yandex Cloud использовали тысячи часов записей русскоязычных дикторов. Это позволяет работать практически с любым голосом без предварительной подготовки.
Чтобы речь звучала более естественно, для обучения моделей в сервисе использовали трансформерную архитектуру. В отличие от других нейронных сетей, трансформеры позволяют обучать ML-модели параллельно на современных видеокартах (GPU) и концентрироваться на важных частях текста, что повышает качество синтеза.
Это первый подобный сервис на русском языке, выпущенный для коммерческого использования. Brand Voice Call Center уже доступен для компаний и предоставляется по запросу.
Напомним, летом прошлого года разработчики из Yandex Cloud представили нейросеть, которая умеет распознавать более 10 иностранных языков одновременно: от английского до датского, финского и турецкого.