Skip to main content

Generación de Subtítulos de Voz en Nvidia Jetson

Introducción

Hoy en día, tenemos muchas reuniones todos los días, pero parte del contenido de las reuniones no está destinado a ser publicado. Enviar el contenido de las reuniones a la nube para grabación y recibir subtítulos de vuelta puede representar una amenaza significativa para la privacidad de las reuniones. Y lo más importante es que perderás el contenido de tu reunión si hay retrasos en internet.

Y aquí te presentamos Generación de Subtítulos de Voz en Jetson, que puede ofrecer servicios de voz a subtítulos en tiempo real mientras evita la filtración de información en internet. El contenido de las reuniones puede ser transcrito y mostrado en pantallas usando un modelo de IA en forma de subtítulos, lo que puede proteger la privacidad de las reuniones y reducir la carga de trabajo del grabador de reuniones.

Configuración de Hardware

left

  • reSpeaker (O otros micrófonos con interfaz USB)

auto

  • conexión de hardware

pir

Preparar el entorno de ejecución

Paso1. Instalar Riva ASR Server:

Por favor consulta este wiki para instalar Riva ASR Server.

En tu terminal(Ctrl+Alt+T), ingresa sudo docker ps y verás algo como lo siguiente, eso significa que has terminado el primer paso.

pir

Paso2. Instalar flask:

Abre la terminal (Ctrl+Alt+T) y usa el siguiente comando para instalar flask:

pip3 install flask
python3 -c 'import flask; print(flask.__version__)

Si obtienes algo como lo siguiente, eso significa que has terminado este paso.

pir

Paso3. actualizar pip setuptools wheel:

# riva client
git clone --depth=1 --recursive https://github.com/nvidia-riva/python-clients
cd python-clients
sudo pip3 install --upgrade pip setuptools wheel
pip3 install --no-cache-dir --verbose -r requirements.txt
python3 setup.py --verbose bdist_wheel
pip3 install --no-cache-dir --verbose dist/nvidia_riva_client*.whl
python3 -c 'import riva.client; print(riva.client.__version__)'

En tu terminal(Ctrl+Alt+T), ingresa pip --version verás algo como lo siguiente, significa que terminaste de actualizar pip.

pir

En tu terminal(Ctrl+Alt+T), ingresa python3 -c 'import setuptools; print(setuptools.__version__) si obtienes algo como lo siguiente, eso significa que has actualizado setuptools.

pir

En tu terminal(Ctrl+Alt+T), ingresa wheel version verás algo como lo siguiente, significa que terminaste de actualizar wheel.

pir

Paso4. instalar pyaudio:

# pyaudio
sudo apt-get install -y --no-install-recommends python3-pyaudio
python3 -c 'import pyaudio; print(pyaudio.__version__)'

Si tu terminal obtiene algo como lo siguiente, terminaste el último paso, ¡felicitaciones!

pir

Vamos a ejecutarlo

git clone https://github.com/Seeed-Projects/Real-time-Subtitle-Recorder-on-Jetson.git
cd Real-time-Subtitle-Recorder-on-Jetson
python3 recorder.py

Perspectivas del Proyecto

En este proyecto, usamos el Riva ASR Server para capturar datos de la entrada del micrófono en tiempo real y mostrarlos en una página web. En el futuro agregaremos más aplicaciones como traducir un idioma a otro, tener velocidad de respuesta más rápida.

Loading Comments...