Сбер открывает доступ к датасету Golos

Сбер открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных. Также в Golos входит модель распознавания речи, которая демонстрирует точность, сравнимую с человеческой.

Данные Golos могут быть использованы для распознавания и синтеза речи. Сбер предоставит их по лицензии, допускающей использование в исследовательских и коммерческих целях.

Датасет уже можно скачать на GitHubНад ним работала команда SberDevices. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Датасет Golos составляют обезличенные записи, прослушанные и размеченные вручную.

Помимо аудиоданных, Сбер выкладывает обученную на них модель распознавания речи. Она проходила обучение с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos.

Денис Филиппов, CTO SberDevices:

«Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в Сбере рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом.  Мы верим, что датасет Golos даст возможность научному сообществу России двигаться еще быстрее в совершенствовании русскоязычных речевых технологий».

Ранее в апреле стало известно, что Сбер разрабатывает свой сервис видеоконференций, рассчитанный на пользователей корпоративного сектора. Сейчас сервис проходит финальный этап тестирования, конкретные сроки запуска пока неизвестны.

Источник: rb.ru
preview Глава Apple Тим Кук дал показания по иску Epic Games

Глава Apple Тим Кук дал показания по иску Epic Games

Которые не удовлетворили судью
preview Facebook представила систему распознавания речи – wav2vec-U

Facebook представила систему распознавания речи – wav2vec-U

Не требующую размеченных данных
preview В Госдуме РФ раскритиковали YouTube за размещение рекламы во всех видеороликах

В Госдуме РФ раскритиковали YouTube за размещение рекламы во всех видеороликах

Это является нарушением прав пользователей платформы
preview Роскомнадзор начнет вести реестр иностранных лиц в рунете

Роскомнадзор начнет вести реестр иностранных лиц в рунете

Чья аудитория составляет 500 тыс. человек
preview Яндекс.Дзен добавил рекламные пиксели в настройки видеокампаний

Яндекс.Дзен добавил рекламные пиксели в настройки видеокампаний

Для отслеживания post-view/post-read конверсий
preview YouTube закрепил за собой право монетизировать все материалы на платформе

YouTube закрепил за собой право монетизировать все материалы на платформе

Апдейт затронет всех пользователей за пределами США