NVIDIA Jetson Orin でリアルタイム音声テキスト変換のための Whisper をデプロイ
はじめに
リアルタイム音声テキスト変換(STT)システムは、音声アシスタントから転写サービスまで、現代のアプリケーションにおいて重要な役割を果たしています。人気のある STT モデルには以下があります:Whisper、Riva、DeepSpeech、Google Cloud Speech-to-Text API、Microsoft Azure Speech Service、IBM Watson Speech to Text、Kaldi、Wit.ai など。高性能とエネルギー効率で知られる NVIDIA Jetson Orin は、エッジでこのような要求の厳しいアプリケーションをデプロイするための有望なプラットフォームを提供します。
深層学習を活用した高度な STT システムである Whisper は、精度と効率において優れています。Riva は、NVIDIA が開発した包括的なマルチモーダル会話 AI フレームワークです。Jetson Orin に Whisper や Riva をデプロイすることで、開発者はその強力な GPU と CPU コア、および Tensor Cores などのハードウェア加速技術を活用して、低遅延でリアルタイム STT を実現できます。

この wiki では、Real Time Whisper on Jetson を紹介します。この統合により、デバイス上で直接音声処理が可能になり、常時ネットワーク接続の必要性を排除し、プライバシーとセキュリティを向上させます。さらに、同じ Jetson Orin デバイスにデプロイした際の Whisper と Riva の推論速度を比較します。最終的に、Jetson Orin に Whisper をデプロイすることで、開発者はスマートホームから産業オートメーションまで、さまざまな分野で高精度と低遅延を実現する堅牢で効率的な STT アプリケーションを構築できます。
ハードウェアセットアップ
ハードウェアコンポーネント
reComputer(または Jetson ベースの他のデバイス) | reSpeaker(または他の USB インターフェースマイク) |
---|---|
![]() | ![]() |
ハードウェア接続
ランタイム環境の準備
ステップ1. 依存関係をインストール:
git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #set microphone rate to 16000
Step2. Test environment
python test.py
ターミナルに以下の情報が表示された場合、必要なライブラリが正常にインストールされたことを意味します。
ターミナル(Ctrl+Alt+T)で ffmpeg -version
を入力し、以下のような結果が表示された場合、ffmpegがインストールされています。
実行してみましょう
python main.py
Riva vs Whisper
Rivaは、高度なAI駆動の音声認識と自然言語処理で知られており、リアルタイムの転写、翻訳、および音声会話の分析機能をユーザーに提供します。
Whisperは、ウェブから収集された68万時間の多言語・多タスク教師ありデータで訓練された自動音声認識(ASR)システムです。さらに、複数の言語での転写や、それらの言語から英語への翻訳を可能にします。
今後の比較動画では、Nvidia Jetson上で開発された音声テキスト変換におけるRivaとWhisperの能力を比較します。
プロジェクトの展望
このプロジェクトでは、Whisperを使用してマイク入力からリアルタイムでデータを取得し、ウェブページに表示します。将来的には、Whisperのリアルタイム処理能力を強化してレイテンシをさらに削減し、音声認識の精度を向上させ、他のAIサービスやAPIとの統合を探求してアプリケーションの機能を強化する予定です。