Geração de legendas de voz no Nvidia Jetson
Introdução
Hoje em dia, temos muitas reuniões todos os dias, mas parte do conteúdo das reuniões não é destinado à publicação. Enviar o conteúdo da reunião para a nuvem para gravação e retorno de legendas pode representar uma ameaça significativa à privacidade da reunião. E o mais importante é que você perderá o conteúdo da reunião se a internet estiver lenta.

E aqui apresentamos o Speech Subtitle Generation on Jetson, que pode oferecer serviços de conversão de voz em legendas em tempo real, evitando vazamento de informações na internet. O conteúdo da reunião pode ser transcrito e exibido em telas usando um modelo de IA em forma de legenda, o que pode proteger a privacidade da reunião e reduzir a carga de trabalho do responsável pela ata.
Configuração de hardware
- reComputer (ou outros dispositivos baseados em Jetson)

- reSpeaker (ou outros microfones com interface USB)

- conexão de hardware

Prepare o ambiente de execução
Etapa 1. Instalar o Riva ASR Server
Consulte este wiki para instalar o Riva ASR Server.
No seu terminal (Ctrl+Alt+T), digite sudo docker ps e você verá algo como o seguinte, o que significa que você concluiu a primeira etapa.

Etapa 2. Instalar o flask
Abra o terminal (Ctrl+Alt+T) e use o seguinte comando para instalar o flask:
pip3 install flask
python3 -c 'import flask; print(flask.__version__)
Se você obtiver algo como o seguinte, isso significa que você concluiu esta etapa.

Etapa 3. Atualizar pip setuptools wheel
# riva client
git clone --depth=1 --recursive https://github.com/nvidia-riva/python-clients
cd python-clients
sudo pip3 install --upgrade pip setuptools wheel
pip3 install --no-cache-dir --verbose -r requirements.txt
python3 setup.py --verbose bdist_wheel
pip3 install --no-cache-dir --verbose dist/nvidia_riva_client*.whl
python3 -c 'import riva.client; print(riva.client.__version__)'
No seu terminal (Ctrl+Alt+T), digite pip --version e você verá algo como o seguinte; isso significa que você concluiu a atualização do pip.

No seu terminal (Ctrl+Alt+T), digite python3 -c 'import setuptools; print(setuptools.__version__) se você obtiver algo como o seguinte, isso significa que você atualizou o setuptools.

No seu terminal (Ctrl+Alt+T), digite wheel version e você verá algo como o seguinte; isso significa que você concluiu a atualização do wheel.

Etapa 4. Instalar pyaudio
# pyaudio
sudo apt-get install -y --no-install-recommends python3-pyaudio
python3 -c 'import pyaudio; print(pyaudio.__version__)'
Se o seu terminal mostrar algo como o seguinte, você concluiu a última etapa, parabéns!

Vamos executá-lo
git clone https://github.com/Seeed-Projects/Real-time-Subtitle-Recorder-on-Jetson.git
cd Real-time-Subtitle-Recorder-on-Jetson
python3 recorder.py
Perspectivas do projeto
Neste projeto, usamos o Riva ASR Server para capturar dados da entrada do microfone em tempo real e exibi-los em uma página da web. No futuro, adicionaremos mais aplicativos, como traduzir um idioma para outro, com velocidade de resposta ainda maior.