Generación de Subtítulos de Voz en Nvidia Jetson
Introducción
Hoy en día, tenemos muchas reuniones todos los días, pero parte del contenido de las reuniones no está destinado a ser publicado. Enviar el contenido de las reuniones a la nube para grabación y recibir subtítulos de vuelta puede representar una amenaza significativa para la privacidad de las reuniones. Y lo más importante es que perderás el contenido de tu reunión si hay retrasos en internet.

Y aquí te presentamos Generación de Subtítulos de Voz en Jetson, que puede ofrecer servicios de voz a subtítulos en tiempo real mientras evita la filtración de información en internet. El contenido de las reuniones puede ser transcrito y mostrado en pantallas usando un modelo de IA en forma de subtítulos, lo que puede proteger la privacidad de las reuniones y reducir la carga de trabajo del grabador de reuniones.
Configuración de Hardware
- reComputer (O otros dispositivos basados en Jetson)
- reSpeaker (O otros micrófonos con interfaz USB)
- conexión de hardware
Preparar el entorno de ejecución
Paso1. Instalar Riva ASR Server:
Por favor consulta este wiki para instalar Riva ASR Server.
En tu terminal(Ctrl+Alt+T), ingresa sudo docker ps
y verás algo como lo siguiente, eso significa que has terminado el primer paso.
Paso2. Instalar flask:
Abre la terminal (Ctrl+Alt+T
) y usa el siguiente comando para instalar flask:
pip3 install flask
python3 -c 'import flask; print(flask.__version__)
Si obtienes algo como lo siguiente, eso significa que has terminado este paso.
Paso3. actualizar pip setuptools wheel:
# riva client
git clone --depth=1 --recursive https://github.com/nvidia-riva/python-clients
cd python-clients
sudo pip3 install --upgrade pip setuptools wheel
pip3 install --no-cache-dir --verbose -r requirements.txt
python3 setup.py --verbose bdist_wheel
pip3 install --no-cache-dir --verbose dist/nvidia_riva_client*.whl
python3 -c 'import riva.client; print(riva.client.__version__)'
En tu terminal(Ctrl+Alt+T), ingresa pip --version
verás algo como lo siguiente, significa que terminaste de actualizar pip.
En tu terminal(Ctrl+Alt+T), ingresa python3 -c 'import setuptools; print(setuptools.__version__)
si obtienes algo como lo siguiente, eso significa que has actualizado setuptools.
En tu terminal(Ctrl+Alt+T), ingresa wheel version
verás algo como lo siguiente, significa que terminaste de actualizar wheel.
Paso4. instalar pyaudio:
# pyaudio
sudo apt-get install -y --no-install-recommends python3-pyaudio
python3 -c 'import pyaudio; print(pyaudio.__version__)'
Si tu terminal obtiene algo como lo siguiente, terminaste el último paso, ¡felicitaciones!
Vamos a ejecutarlo
git clone https://github.com/Seeed-Projects/Real-time-Subtitle-Recorder-on-Jetson.git
cd Real-time-Subtitle-Recorder-on-Jetson
python3 recorder.py
Perspectivas del Proyecto
En este proyecto, usamos el Riva ASR Server para capturar datos de la entrada del micrófono en tiempo real y mostrarlos en una página web. En el futuro agregaremos más aplicaciones como traducir un idioma a otro, tener velocidad de respuesta más rápida.