Skip to main content

Despliegue de Whisper en la NVIDIA Jetson Orin para conversión de voz a texto en tiempo real

Introducción

Los sistemas de conversión de voz a texto (STT) en tiempo real desempeñan un papel vital en las aplicaciones modernas, desde asistentes de voz hasta servicios de transcripción. A continuación se muestran algunos modelos STT populares: Whisper, Riva, DeepSpeech, Google Cloud Speech-to-Text API, Microsoft Azure Speech Service, IBM Watson Speech to Text, Kaldi, Wit.ai, etc. NVIDIA Jetson Orin, conocida por su alto rendimiento y eficiencia energética, ofrece una plataforma prometedora para implementar aplicaciones exigentes de computo en el borde.

Whisper, un sistema STT avanzado que aprovecha el aprendizaje profundo, destaca por su precisión y eficiencia. Riva es un framework integral de IA conversacional multimodal desarrollado por NVIDIA. Al implementar Whisper o Riva en la Jetson Orin, los desarrolladores pueden aprovechar sus potentes núcleos de GPU y CPU, junto con tecnologías de aceleración de hardware como Tensor Cores, para lograr STT en tiempo real con baja latencia.

En esta wiki, te presentamos Whisper en tiempo real en la Jetson, esta integración permite el procesamiento de voz directamente en el dispositivo, eliminando la necesidad de una conectividad de red constante y mejorando la privacidad y la seguridad. Además, compararemos la velocidad de inferencia de Whisper y Riva cuando se implementen en el mismo dispositivo Jetson Orin. En última instancia, la implementación de Whisper en la Jetson Orin permite a los desarrolladores crear aplicaciones STT sólidas y eficientes que ofrecen alta precisión y baja latencia en diversos dominios, desde hogares inteligentes hasta automatización industrial.

Configuración de Hardware

Componentes de Hardware

reComputer (u otros dispositivos potenciados por Jetson)reSpeaker (u otros micrófonos con interfaz USB)

Conexiones de Hardware

pir

Preparar el entorno de ejecución

Paso 1. Instalar dependencias

git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #set microphone rate to 16000

Paso 2. Probar el entorno:

python test.py

Si ves la siguiente información impresa en el terminal, significa que has instalado correctamente las bibliotecas necesarias.

pir

En tu terminal (Ctrl+Alt+T), ingresa ffmpeg -version si obtienes algo como lo siguiente, eso significa que has instalado ffmpeg.

pir

Ahora ejecuta el programa

python main.py

Riva vs Whisper

Riva, conocida por su avanzado reconocimiento de voz impulsado por inteligencia artificial y procesamiento del lenguaje natural, brinda a los usuarios transcripción, traducción y análisis en tiempo real de conversaciones habladas.

Whisper es un sistema de reconocimiento automático de voz (ASR) entrenado con 680.000 horas de datos supervisados ​​multilingües y multitarea recopilados de la web. Además, permite la transcripción en varios idiomas, así como la traducción de esos idiomas al inglés.

En el video mostrado a continuación, compararemos la capacidad de Riva y Whisper siendo ejecutados sobre un dispositivo Nvidia Jetson corriendo tareas de transcripción de voz a texto.

Perspectivas del proyecto

En este proyecto, utilizamos Whisper para capturar datos de la entrada del micrófono en tiempo real y mostrarlos en una página web. En el futuro, mejoraremos las capacidades de procesamiento en tiempo real de Whisper para reducir aún más la latencia y mejorar la precisión del reconocimiento de voz y exploraremos la integración con otros servicios de IA o API para mejorar la funcionalidad de la aplicación.

Loading Comments...