基于 Nvidia Jetson 的语音字幕生成
简介
如今,我们每天都有许多会议,但部分会议内容不适合公开。将会议内容发送到云端进行记录并返回字幕可能会对会议隐私构成重大威胁。而最重要的是,如果网络延迟,您可能会丢失会议内容。

在这里我们为您介绍 基于 Jetson 的语音字幕生成,它可以提供实时语音转字幕服务,同时避免互联网信息泄露。会议内容可以通过 AI 模型以字幕形式转录并显示在屏幕上,从而保护会议隐私并减少会议记录的工作量。
硬件设置
- reComputer (或其他基于 Jetson 的设备)
- reSpeaker(或其他 USB 接口麦克风)
- 硬件连接
准备运行环境
第一步:安装 Riva ASR 服务器:
请参考 此文档 安装 Riva ASR 服务器。
在终端(Ctrl+Alt+T)中输入 sudo docker ps
,如果看到如下内容,说明您已完成第一步。
第二步:安装 Flask:
打开终端(Ctrl+Alt+T
),使用以下命令安装 Flask:
pip3 install flask
python3 -c 'import flask; print(flask.__version__)
如果您看到如下内容,说明您已完成此步骤。
第三步:升级 pip、setuptools 和 wheel:
# riva client
git clone --depth=1 --recursive https://github.com/nvidia-riva/python-clients
cd python-clients
sudo pip3 install --upgrade pip setuptools wheel
pip3 install --no-cache-dir --verbose -r requirements.txt
python3 setup.py --verbose bdist_wheel
pip3 install --no-cache-dir --verbose dist/nvidia_riva_client*.whl
python3 -c 'import riva.client; print(riva.client.__version__)'
在终端(Ctrl+Alt+T)中输入 pip --version
,如果看到如下内容,说明您已完成 pip 升级。
在终端(Ctrl+Alt+T)中输入 python3 -c 'import setuptools; print(setuptools.__version__)
,如果看到如下内容,说明您已升级 setuptools。
在终端(Ctrl+Alt+T)中输入 wheel version
,如果看到如下内容,说明您已完成 wheel 升级。
第四步:安装 pyaudio:
# pyaudio
sudo apt-get install -y --no-install-recommends python3-pyaudio
python3 -c 'import pyaudio; print(pyaudio.__version__)'
如果您的终端显示如下内容,说明您已完成最后一步,恭喜!
让我们运行它
git clone https://github.com/Seeed-Projects/Real-time-Subtitle-Recorder-on-Jetson.git
cd Real-time-Subtitle-Recorder-on-Jetson
python3 recorder.py
项目概览
在本项目中,我们使用 Riva ASR Server 从麦克风输入中实时捕获数据,并将其显示在网页上。未来,我们将添加更多应用,例如将一种语言翻译成另一种语言,以及实现更快的响应速度。