在 NVIDIA Jetson Orin 上部署 Whisper 实现实时语音转文本
介绍
实时语音转文本(STT)系统在现代应用中发挥着重要作用,从语音助手到转录服务。以下是一些流行的 STT 模型:Whisper、Riva、DeepSpeech、Google Cloud Speech-to-Text API、Microsoft Azure Speech Service、IBM Watson Speech to Text、Kaldi、Wit.ai 等等。NVIDIA Jetson Orin 以其高性能和能效著称,为在边缘部署此类要求苛刻的应用提供了一个有前景的平台。
Whisper 是一个利用深度学习的先进 STT 系统,在准确性和效率方面表现出色。Riva 是 NVIDIA 开发的综合性多模态对话式 AI 框架。通过在 Jetson Orin 上部署 Whisper 或 Riva,开发者可以利用其强大的 GPU 和 CPU 核心,以及 Tensor Cores 等硬件加速技术,实现低延迟的实时 STT。

在本教程中,我们向您介绍 Jetson 上的实时 Whisper,这种集成使得语音处理可以直接在设备上进行,无需持续的网络连接,并增强了隐私和安全性。此外,我们还将比较 Whisper 和 Riva 在同一 Jetson Orin 设备上部署时的推理速度。最终,在 Jetson Orin 上部署 Whisper 使开发者能够构建强大、高效的 STT 应用,在从智能家居到工业自动化的各个领域提供高准确性和低延迟。
硬件设置
硬件组件
硬件连接
准备运行环境
步骤1. 安装依赖项:
git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #set microphone rate to 16000
Step2. Test environment
python test.py
如果您在终端中看到以下信息打印出来,这意味着您已经成功安装了必要的库。
在您的终端中(Ctrl+Alt+T),输入 ffmpeg -version
,如果您得到类似以下的内容,这意味着您已经安装了 ffmpeg。
让我们运行它
python main.py
Riva vs Whisper
Riva 以其先进的 AI 驱动语音识别和自然语言处理而闻名,为用户提供实时转录、翻译和口语对话分析功能。
Whisper 是一个自动语音识别(ASR)系统,在从网络收集的 680,000 小时多语言和多任务监督数据上进行训练。此外,它支持多种语言的转录,以及从这些语言翻译成英语。
在即将到来的对比视频中,我们将比较在 Nvidia Jetson 上开发的 Riva 和 Whisper 在语音转文本方面的能力。
项目展望
在这个项目中,我们使用 Whisper 实时捕获麦克风输入的数据并在网页上显示。未来,我们将增强 Whisper 的实时处理能力,进一步减少延迟并提高语音识别的准确性,并探索与其他 AI 服务或 API 的集成,以增强应用程序的功能。