Desplegar Whisper en NVIDIA Jetson Orin para Conversión de Voz a Texto en Tiempo Real
Introducción
Los sistemas de conversión de voz a texto (STT) en tiempo real desempeñan un papel vital en las aplicaciones modernas, desde asistentes de voz hasta servicios de transcripción. Aquí hay algunos modelos STT populares: Whisper, Riva, DeepSpeech, Google Cloud Speech-to-Text API, Microsoft Azure Speech Service, IBM Watson Speech to Text, Kaldi, Wit.ai y muchos más. El NVIDIA Jetson Orin, conocido por su alto rendimiento y eficiencia energética, ofrece una plataforma prometedora para desplegar tales aplicaciones exigentes en el borde.
Whisper, un sistema STT avanzado que aprovecha el aprendizaje profundo, sobresale en precisión y eficiencia. Riva es un marco integral de IA conversacional multimodal desarrollado por NVIDIA. Al desplegar Whisper o Riva en el Jetson Orin, los desarrolladores pueden aprovechar su potente GPU y núcleos de CPU, junto con tecnologías de aceleración de hardware como Tensor Cores, para lograr STT en tiempo real con baja latencia.

En esta wiki te presentamos Real Time Whisper on Jetson, esta integración permite el procesamiento de voz directamente en el dispositivo, eliminando la necesidad de conectividad de red constante y mejorando la privacidad y seguridad. Además, compararemos la velocidad de inferencia de Whisper y Riva cuando se despliegan en el mismo dispositivo Jetson Orin. En última instancia, desplegar Whisper en el Jetson Orin permite a los desarrolladores construir aplicaciones STT robustas y eficientes que ofrecen alta precisión y baja latencia en varios dominios, desde hogares inteligentes hasta automatización industrial.
Configuración de Hardware
Componentes de hardware
reComputer(O otros dispositivos basados en Jetson) | reSpeaker (O otros micrófonos con interfaz USB) |
---|---|
![]() | ![]() |
conexión de hardware
Preparar el entorno de ejecución
Paso1. Instalar dependencias:
git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #configurar la tasa del micrófono a 16000
Paso2. Probar el entorno:
python test.py
Si ves la siguiente información impresa en la terminal, significa que has instalado exitosamente las librerías necesarias.
En tu terminal(Ctrl+Alt+T), ingresa ffmpeg -version
si obtienes algo como lo siguiente, eso significa que has instalado ffmpeg.
Vamos a ejecutarlo
python main.py
Riva vs Whisper
Riva, conocido por su reconocimiento de voz avanzado impulsado por IA y procesamiento de lenguaje natural, empodera a los usuarios con transcripción, traducción y análisis en tiempo real de conversaciones habladas.
Whisper es un sistema de reconocimiento automático de voz (ASR) entrenado con 680,000 horas de datos supervisados multilingües y multitarea recopilados de la web. Además, permite la transcripción en múltiples idiomas, así como la traducción de esos idiomas al inglés.
En el próximo video comparativo, compararemos la capacidad de Riva y Whisper en Conversión de Voz a Texto desarrollado en Nvidia Jetson.
Perspectivas del Proyecto
En este proyecto, usamos Whisper para capturar datos de la entrada del micrófono en tiempo real y mostrarlos en una página web. En el futuro, mejoraremos las capacidades de procesamiento en tiempo real de Whisper para reducir aún más la latencia y mejorar la precisión del reconocimiento de voz y explorar la integración con otros servicios de IA o APIs para mejorar la funcionalidad de la aplicación.