Desplegar Whisper en NVIDIA Jetson Orin para Conversión de Voz a Texto en Tiempo Real

Introducción

Los sistemas de conversión de voz a texto (STT) en tiempo real desempeñan un papel vital en las aplicaciones modernas, desde asistentes de voz hasta servicios de transcripción. Aquí hay algunos modelos STT populares: Whisper, Riva, DeepSpeech, Google Cloud Speech-to-Text API, Microsoft Azure Speech Service, IBM Watson Speech to Text, Kaldi, Wit.ai y muchos más. El NVIDIA Jetson Orin, conocido por su alto rendimiento y eficiencia energética, ofrece una plataforma prometedora para desplegar tales aplicaciones exigentes en el borde.

Whisper, un sistema STT avanzado que aprovecha el aprendizaje profundo, sobresale en precisión y eficiencia. Riva es un marco integral de IA conversacional multimodal desarrollado por NVIDIA. Al desplegar Whisper o Riva en el Jetson Orin, los desarrolladores pueden aprovechar su potente GPU y núcleos de CPU, junto con tecnologías de aceleración de hardware como Tensor Cores, para lograr STT en tiempo real con baja latencia.

En esta wiki te presentamos Real Time Whisper on Jetson, esta integración permite el procesamiento de voz directamente en el dispositivo, eliminando la necesidad de conectividad de red constante y mejorando la privacidad y seguridad. Además, compararemos la velocidad de inferencia de Whisper y Riva cuando se despliegan en el mismo dispositivo Jetson Orin. En última instancia, desplegar Whisper en el Jetson Orin permite a los desarrolladores construir aplicaciones STT robustas y eficientes que ofrecen alta precisión y baja latencia en varios dominios, desde hogares inteligentes hasta automatización industrial.

Configuración de Hardware

Componentes de hardware

reComputer(O otros dispositivos basados en Jetson)	reSpeaker (O otros micrófonos con interfaz USB)

Obtener Uno Ahora 🖱️	Obtener Uno Ahora 🖱️

conexión de hardware

pir

Preparar el entorno de ejecución

Paso1. Instalar dependencias:

git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #configurar la tasa del micrófono a 16000

Paso2. Probar el entorno:

python test.py

Si ves la siguiente información impresa en la terminal, significa que has instalado exitosamente las librerías necesarias.

pir

En tu terminal(Ctrl+Alt+T), ingresa ffmpeg -version si obtienes algo como lo siguiente, eso significa que has instalado ffmpeg.

pir

Vamos a ejecutarlo

python main.py

Riva vs Whisper

Riva, conocido por su reconocimiento de voz avanzado impulsado por IA y procesamiento de lenguaje natural, empodera a los usuarios con transcripción, traducción y análisis en tiempo real de conversaciones habladas.

Whisper es un sistema de reconocimiento automático de voz (ASR) entrenado con 680,000 horas de datos supervisados multilingües y multitarea recopilados de la web. Además, permite la transcripción en múltiples idiomas, así como la traducción de esos idiomas al inglés.

En el próximo video comparativo, compararemos la capacidad de Riva y Whisper en Conversión de Voz a Texto desarrollado en Nvidia Jetson.

Perspectivas del Proyecto

En este proyecto, usamos Whisper para capturar datos de la entrada del micrófono en tiempo real y mostrarlos en una página web. En el futuro, mejoraremos las capacidades de procesamiento en tiempo real de Whisper para reducir aún más la latencia y mejorar la precisión del reconocimiento de voz y explorar la integración con otros servicios de IA o APIs para mejorar la funcionalidad de la aplicación.

Introducción​

Configuración de Hardware​

Componentes de hardware​

conexión de hardware​

Preparar el entorno de ejecución​

Paso1. Instalar dependencias:​

Paso2. Probar el entorno:​

Vamos a ejecutarlo​

Riva vs Whisper​

Perspectivas del Proyecto​