Компания Meta* представила мультимодальную модель искусственного интеллекта, которая умеет распознавать речь и переводить ее почти на 100 языков.
Кроме этого нейросеть SeamlessM4T умеет создавать из текста речь на 35 языках. А также распознавать, когда человек переходит с одного языка на другой или использует в речи сразу несколько.
SeamlessM4T опирается на результаты большого количества языковых проектов, обеспечивая многоязычный и мультимодальный перевод на основе единой модели, построенной на широком спектре устных источников и показывает невероятные результаты. Нейросеть поддерживает:
- Распознавание речи почти на 100 языках;
- Преобразование речи в текст почти для 100 языков ввода и вывода;
- Преобразование речи в речь, поддержка почти 100 языков ввода и 36 (включая английский и русский) языков вывода;
- Текстовый перевод почти на 100 языков;
- Преобразование текста в речь, поддержка почти 100 языков ввода и 35 языков вывода.
На данный момент момент SeamlessM4T доступна исследователям и разработчикам под соответствующей лицензией. Увидеть работу нейросети можно здесь.
Также компания опубликовала метаданные SeamlessAlign, крупнейшего открытого набора данных для мультимодального перевода, включающего 270 000 часов согласования речи и текста.
Подробнее – в блоге Meta AI.
*Компания Meta признана экстремистской организацией и запрещена на территории РФ