Implementar Whisper no NVIDIA Jetson Orin para conversão de fala em texto em tempo real
Introdução
Sistemas de conversão de fala em texto (STT) em tempo real desempenham um papel vital em aplicações modernas, desde assistentes de voz até serviços de transcrição. Aqui estão alguns modelos STT populares: Whisper, Riva, DeepSpeech, Google Cloud Speech-to-Text API, Microsoft Azure Speech Service, IBM Watson Speech to Text, Kaldi, Wit.ai e assim por diante. O NVIDIA Jetson Orin, conhecido por seu alto desempenho e eficiência energética, oferece uma plataforma promissora para implementar esse tipo de aplicação exigente na borda.
Whisper, um sistema STT avançado que aproveita o aprendizado profundo, se destaca em precisão e eficiência. Riva é um framework abrangente e multimodal de IA conversacional desenvolvido pela NVIDIA. Ao implementar Whisper ou Riva no Jetson Orin, os desenvolvedores podem aproveitar sua poderosa GPU e núcleos de CPU, juntamente com tecnologias de aceleração de hardware como Tensor Cores, para alcançar STT em tempo real com baixa latência.

Neste wiki apresentamos para você o projeto Real Time Whisper on Jetson; essa integração permite o processamento de fala diretamente no dispositivo, eliminando a necessidade de conectividade de rede constante e aumentando a privacidade e a segurança. Além disso, vamos comparar a velocidade de inferência do Whisper e do Riva quando implementados no mesmo dispositivo Jetson Orin. Em última análise, implementar o Whisper no Jetson Orin permite que desenvolvedores construam aplicações STT robustas e eficientes que oferecem alta precisão e baixa latência em vários domínios, de casas inteligentes à automação industrial.
Configuração de hardware
Componentes de hardware
| reComputer (Ou outros dispositivos baseados em Jetson) | reSpeaker (Ou outros microfones com interface USB) |
|---|---|
![]() | ![]() |
Conexão de hardware

Preparar o ambiente de execução
Passo 1. Instalar dependências
git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #set microphone rate to 16000
Passo 2. Testar o ambiente
python test.py
Se você vir as seguintes informações impressas no terminal, isso significa que instalou com sucesso as bibliotecas necessárias.

No seu terminal (Ctrl+Alt+T), digite ffmpeg -version; se você obter algo como o seguinte, isso significa que o ffmpeg foi instalado.

Vamos executá-lo
python main.py
Riva vs Whisper
Riva, conhecido por seu reconhecimento de fala e processamento de linguagem natural avançados baseados em IA, oferece aos usuários transcrição, tradução e análise em tempo real de conversas faladas.
Whisper é um sistema de reconhecimento automático de fala (ASR) treinado com 680.000 horas de dados supervisionados multilíngues e multitarefa coletados na web. Além disso, ele permite a transcrição em vários idiomas, bem como a tradução desses idiomas para o inglês.
No próximo vídeo comparativo, vamos comparar a capacidade do Riva e do Whisper em conversão de fala em texto desenvolvida no Nvidia Jetson.
Perspectivas do projeto
Neste projeto, usamos o Whisper para capturar dados da entrada do microfone em tempo real e exibi-los em uma página da web. No futuro, vamos aprimorar os recursos de processamento em tempo real do Whisper para reduzir ainda mais a latência e melhorar a precisão do reconhecimento de fala, além de explorar a integração com outros serviços ou APIs de IA para ampliar as funcionalidades da aplicação.

