Geração de legendas de voz no Nvidia Jetson

Introdução

Hoje em dia, temos muitas reuniões todos os dias, mas parte do conteúdo das reuniões não é destinado à publicação. Enviar o conteúdo da reunião para a nuvem para gravação e retorno de legendas pode representar uma ameaça significativa à privacidade da reunião. E o mais importante é que você perderá o conteúdo da reunião se a internet estiver lenta.

E aqui apresentamos o Speech Subtitle Generation on Jetson, que pode oferecer serviços de conversão de voz em legendas em tempo real, evitando vazamento de informações na internet. O conteúdo da reunião pode ser transcrito e exibido em telas usando um modelo de IA em forma de legenda, o que pode proteger a privacidade da reunião e reduzir a carga de trabalho do responsável pela ata.

Configuração de hardware

reComputer (ou outros dispositivos baseados em Jetson)

left

Adquira agora 🖱️

reSpeaker (ou outros microfones com interface USB)

auto

Adquira agora 🖱️

conexão de hardware

pir

Prepare o ambiente de execução

Etapa 1. Instalar o Riva ASR Server

Consulte este wiki para instalar o Riva ASR Server.

No seu terminal (Ctrl+Alt+T), digite sudo docker ps e você verá algo como o seguinte, o que significa que você concluiu a primeira etapa.

pir

Etapa 2. Instalar o flask

Abra o terminal (Ctrl+Alt+T) e use o seguinte comando para instalar o flask:

pip3 install flask
python3 -c 'import flask; print(flask.__version__)

Se você obtiver algo como o seguinte, isso significa que você concluiu esta etapa.

pir

Etapa 3. Atualizar pip setuptools wheel

# riva client
git clone --depth=1 --recursive https://github.com/nvidia-riva/python-clients
cd python-clients
sudo pip3 install --upgrade pip setuptools wheel
pip3 install --no-cache-dir --verbose -r requirements.txt
python3 setup.py --verbose bdist_wheel
pip3 install --no-cache-dir --verbose dist/nvidia_riva_client*.whl
python3 -c 'import riva.client; print(riva.client.__version__)'

No seu terminal (Ctrl+Alt+T), digite pip --version e você verá algo como o seguinte; isso significa que você concluiu a atualização do pip.

pir

No seu terminal (Ctrl+Alt+T), digite python3 -c 'import setuptools; print(setuptools.__version__) se você obtiver algo como o seguinte, isso significa que você atualizou o setuptools.

pir

No seu terminal (Ctrl+Alt+T), digite wheel version e você verá algo como o seguinte; isso significa que você concluiu a atualização do wheel.

pir

Etapa 4. Instalar pyaudio

# pyaudio
sudo apt-get install -y --no-install-recommends python3-pyaudio
python3 -c 'import pyaudio; print(pyaudio.__version__)'

Se o seu terminal mostrar algo como o seguinte, você concluiu a última etapa, parabéns!

pir

Vamos executá-lo

git clone https://github.com/Seeed-Projects/Real-time-Subtitle-Recorder-on-Jetson.git
cd Real-time-Subtitle-Recorder-on-Jetson
python3 recorder.py

Perspectivas do projeto

Neste projeto, usamos o Riva ASR Server para capturar dados da entrada do microfone em tempo real e exibi-los em uma página da web. No futuro, adicionaremos mais aplicativos, como traduzir um idioma para outro, com velocidade de resposta ainda maior.

Introdução​

Configuração de hardware​

Prepare o ambiente de execução​

Etapa 1. Instalar o Riva ASR Server​

Etapa 2. Instalar o flask​

Etapa 3. Atualizar pip setuptools wheel​

Etapa 4. Instalar pyaudio​

Vamos executá-lo​

Perspectivas do projeto​