Implementar Whisper no NVIDIA Jetson Orin para conversão de fala em texto em tempo real

Introdução

Sistemas de conversão de fala em texto (STT) em tempo real desempenham um papel vital em aplicações modernas, desde assistentes de voz até serviços de transcrição. Aqui estão alguns modelos STT populares: Whisper, Riva, DeepSpeech, Google Cloud Speech-to-Text API, Microsoft Azure Speech Service, IBM Watson Speech to Text, Kaldi, Wit.ai e assim por diante. O NVIDIA Jetson Orin, conhecido por seu alto desempenho e eficiência energética, oferece uma plataforma promissora para implementar esse tipo de aplicação exigente na borda.

Whisper, um sistema STT avançado que aproveita o aprendizado profundo, se destaca em precisão e eficiência. Riva é um framework abrangente e multimodal de IA conversacional desenvolvido pela NVIDIA. Ao implementar Whisper ou Riva no Jetson Orin, os desenvolvedores podem aproveitar sua poderosa GPU e núcleos de CPU, juntamente com tecnologias de aceleração de hardware como Tensor Cores, para alcançar STT em tempo real com baixa latência.

Neste wiki apresentamos para você o projeto Real Time Whisper on Jetson; essa integração permite o processamento de fala diretamente no dispositivo, eliminando a necessidade de conectividade de rede constante e aumentando a privacidade e a segurança. Além disso, vamos comparar a velocidade de inferência do Whisper e do Riva quando implementados no mesmo dispositivo Jetson Orin. Em última análise, implementar o Whisper no Jetson Orin permite que desenvolvedores construam aplicações STT robustas e eficientes que oferecem alta precisão e baixa latência em vários domínios, de casas inteligentes à automação industrial.

Configuração de hardware

Componentes de hardware

reComputer (Ou outros dispositivos baseados em Jetson)	reSpeaker (Ou outros microfones com interface USB)

Adquira agora 🖱️	Adquira agora 🖱️

Conexão de hardware

pir

Preparar o ambiente de execução

Passo 1. Instalar dependências

git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #set microphone rate to 16000

Passo 2. Testar o ambiente

python test.py

Se você vir as seguintes informações impressas no terminal, isso significa que instalou com sucesso as bibliotecas necessárias.

pir

No seu terminal (Ctrl+Alt+T), digite ffmpeg -version; se você obter algo como o seguinte, isso significa que o ffmpeg foi instalado.

pir

Vamos executá-lo

python main.py

Riva vs Whisper

Riva, conhecido por seu reconhecimento de fala e processamento de linguagem natural avançados baseados em IA, oferece aos usuários transcrição, tradução e análise em tempo real de conversas faladas.

Whisper é um sistema de reconhecimento automático de fala (ASR) treinado com 680.000 horas de dados supervisionados multilíngues e multitarefa coletados na web. Além disso, ele permite a transcrição em vários idiomas, bem como a tradução desses idiomas para o inglês.

No próximo vídeo comparativo, vamos comparar a capacidade do Riva e do Whisper em conversão de fala em texto desenvolvida no Nvidia Jetson.

Perspectivas do projeto

Neste projeto, usamos o Whisper para capturar dados da entrada do microfone em tempo real e exibi-los em uma página da web. No futuro, vamos aprimorar os recursos de processamento em tempo real do Whisper para reduzir ainda mais a latência e melhorar a precisão do reconhecimento de fala, além de explorar a integração com outros serviços ou APIs de IA para ampliar as funcionalidades da aplicação.

Introdução​

Configuração de hardware​

Componentes de hardware​

Conexão de hardware​

Preparar o ambiente de execução​

Passo 1. Instalar dependências​

Passo 2. Testar o ambiente​

Vamos executá-lo​

Riva vs Whisper​

Perspectivas do projeto​