Как на Python сделать скрипт расшифровки аудио в текст в реал-тайм?

86

rownong4

21 сентября 2024, 23:33

478

Здравствуйте.

Хочу на Python реализовать расшифровку аудио в текст в реал-тайм на созвонах (например, Google Meet и другие сервисы), через библиотеку Picovoice.

Необходимо программе подавать на вход аудио в реальном времени.

Подскажите:

1. Как сделать так, чтобы скрипт прослушивал и звук с микрофона, и звук, выводимый системой (например, браузером)?

2. Вся эта схема может работать через Google Colab?

S3

391

Sly32

22 сентября 2024, 05:52

#1

rownong4 :

Хочу на Python реализовать расшифровку аудио в текст в реал-тайм на созвонах (например, Google Meet и другие сервисы), через библиотеку Picovoice.

Необходимо программе подавать на вход аудио в реальном времени.

Задавай конкретные вопросы, а не как сделать. Есть pyaudio для захвата и преобразования. Бьешь входной поток на чанки и получаешь транслит.

Для захвата используешь системные драйвера или виртуальные, а можно прямо через Pyaudio захватывать

Вот это все не вопрос и выглядит как - сделайте за меня. Помочь в непонятных местах - пожалуйста. Покажи что не получается, подумаем вместе как решить. Если за тебя - ищи кто за деньги все сделает.

1

Входящий маркетинг или традиционное GoogleBrowser, графический интерфейс в Как сделать сайт липким

R4

86

rownong4

22 сентября 2024, 09:40

#2

Sly32 #:

Задавай конкретные вопросы, а не как сделать. Есть pyaudio для захвата и преобразования. Бьешь входной поток на чанки и получаешь транслит.

Для захвата используешь системные драйвера или виртуальные, а можно прямо через Pyaudio захватывать

Вот это все не вопрос и выглядит как - сделайте за меня. Помочь в непонятных местах - пожалуйста. Покажи что не получается, подумаем вместе как решить. Если за тебя - ищи кто за деньги все сделает.

Я два конкретных вопроса задал в теме. Тебе они не кажутся конкретными?

Подскажите:
1. Как сделать так, чтобы скрипт прослушивал и звук с микрофона, и звук, выводимый системой (например, браузером)?

2. Вся эта схема может работать через Google Colab?

Google анонсировал новые функции Google Bard научился программировать В Google Chrome появится

19

Cpt.Smollet

22 сентября 2024, 11:30

#3

rownong4 #:
1. Как сделать так, чтобы скрипт прослушивал и звук с микрофона, и звук, выводимый системой (например, браузером)?

- Получаем список аудиоустройств.

- Выбираем для одного потока - микрофон в качестве устройства для аудиозахвата, для другого - "звук выводимый системой"*
* например, получаем его с виртуального аудиоустройства типа VAC

- далее обрабатываем в соответствии с задачами.

Как-то так.

161

Kwik

22 сентября 2024, 15:08

#4

S3

391

Sly32

22 сентября 2024, 17:50

#5

rownong4 #:

Я два конкретных вопроса задал в теме. Тебе они не кажутся конкретными?

Подскажите:
1. Как сделать так, чтобы скрипт прослушивал и звук с микрофона, и звук, выводимый системой (например, браузером)?

2. Вся эта схема может работать через Google Colab?

1. Ответил выше. Используй системные драйвера или pyaudio

2. Может

Open AI тестирует память для ChatGPT

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта