Skip to main content

NVIDIA Jetson Orin でリアルタイム音声テキスト変換のための Whisper をデプロイ

はじめに

リアルタイム音声テキスト変換(STT)システムは、音声アシスタントから転写サービスまで、現代のアプリケーションにおいて重要な役割を果たしています。人気のある STT モデルには以下があります:Whisper、Riva、DeepSpeech、Google Cloud Speech-to-Text API、Microsoft Azure Speech Service、IBM Watson Speech to Text、Kaldi、Wit.ai など。高性能とエネルギー効率で知られる NVIDIA Jetson Orin は、エッジでこのような要求の厳しいアプリケーションをデプロイするための有望なプラットフォームを提供します。

深層学習を活用した高度な STT システムである Whisper は、精度と効率において優れています。Riva は、NVIDIA が開発した包括的なマルチモーダル会話 AI フレームワークです。Jetson Orin に Whisper や Riva をデプロイすることで、開発者はその強力な GPU と CPU コア、および Tensor Cores などのハードウェア加速技術を活用して、低遅延でリアルタイム STT を実現できます。

この wiki では、Real Time Whisper on Jetson を紹介します。この統合により、デバイス上で直接音声処理が可能になり、常時ネットワーク接続の必要性を排除し、プライバシーとセキュリティを向上させます。さらに、同じ Jetson Orin デバイスにデプロイした際の Whisper と Riva の推論速度を比較します。最終的に、Jetson Orin に Whisper をデプロイすることで、開発者はスマートホームから産業オートメーションまで、さまざまな分野で高精度と低遅延を実現する堅牢で効率的な STT アプリケーションを構築できます。

ハードウェアセットアップ

ハードウェアコンポーネント

reComputer(または Jetson ベースの他のデバイス)reSpeaker(または他の USB インターフェースマイク)

ハードウェア接続

pir

ランタイム環境の準備

ステップ1. 依存関係をインストール:

git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #set microphone rate to 16000

Step2. Test environment

python test.py

ターミナルに以下の情報が表示された場合、必要なライブラリが正常にインストールされたことを意味します。

pir

ターミナル(Ctrl+Alt+T)で ffmpeg -version を入力し、以下のような結果が表示された場合、ffmpegがインストールされています。

pir

実行してみましょう

python main.py

Riva vs Whisper

Rivaは、高度なAI駆動の音声認識と自然言語処理で知られており、リアルタイムの転写、翻訳、および音声会話の分析機能をユーザーに提供します。

Whisperは、ウェブから収集された68万時間の多言語・多タスク教師ありデータで訓練された自動音声認識(ASR)システムです。さらに、複数の言語での転写や、それらの言語から英語への翻訳を可能にします。

今後の比較動画では、Nvidia Jetson上で開発された音声テキスト変換におけるRivaとWhisperの能力を比較します。

プロジェクトの展望

このプロジェクトでは、Whisperを使用してマイク入力からリアルタイムでデータを取得し、ウェブページに表示します。将来的には、Whisperのリアルタイム処理能力を強化してレイテンシをさらに削減し、音声認識の精度を向上させ、他のAIサービスやAPIとの統合を探求してアプリケーションの機能を強化する予定です。

Loading Comments...