Разработчики из Yandex Cloud представили нейросеть, которая умеет распознавать более 10 иностранных языков одновременно: от английского до датского, финского и турецкого.
Модель распознает речь на любую тему и в разных форматах: короткие и длинные фразы, а также имена, адреса, даты и числа. Она умеет распознавать язык автоматически в одном потоке: нейросеть может в любой момент переключаться между языками. При этом есть возможность давать ей «подсказки», чтобы улучшить качество распознавания.
Нейросеть работает на базе архитектуры Transformer — обрабатывает вводные слова параллельно и независимо друг от друга, поэтому быстро обучается. Кроме того, языковую модель обучали на массивах данных из сервисов и приложений Яндекса для того, чтобы при переходе на другой язык качество текста оставалось связным и грамматически верным.
По словам руководителя разработки Yandex SpeechKit Василия Ершова, подобные разработки позволят компании расширить сферу взаимодействия с бизнес-клиентами. Предполагается, что нейросеть пригодится для мультиязычных голосовых ассистентов и роботов в колл-центрах.
Многоязычная модель работает в сервисе синтеза и распознавания речи Yandex SpeechKit. Его используют больше 1000 клиентов, например, X5 Group и «Додо Пицца». Настроить ее можно стандартными средствами в API.
Напомним, осенью 2021 года Яндекс начал предлагать пользователям автоматический перевод англоязычных видеороликов в интернете. Технология закадрового перевода была интегрирована в обновленную версию Яндекс.Браузера, а чуть позже появился закадровый перевод еще для трех языков - французского, испанского и немецкого.
В марте текущего года в Яндекс Браузере для компьютеров появились интерактивные субтитры к видео на четырех языках — английском, французском, немецком и испанском.