Skip to main content

Whisper を使用した Speech2Text

note

この文書は AI によって翻訳されています。内容に不正確な点や改善すべき点がございましたら、文書下部のコメント欄または以下の Issue ページにてご報告ください。
https://github.com/Seeed-Studio/wiki-documents/issues

NVIDIA Jetson Orin 上で Whisper を展開し、リアルタイム音声からテキストへの変換を実現

はじめに

リアルタイム音声からテキスト(STT)への変換システムは、音声アシスタントから文字起こしサービスに至るまで、現代のアプリケーションにおいて重要な役割を果たしています。以下は、いくつかの人気のある STT モデルです:Whisper、Riva、DeepSpeech、Google Cloud Speech-to-Text API、Microsoft Azure Speech Service、IBM Watson Speech to Text、Kaldi、Wit.ai など。高性能かつ省エネルギーで知られる NVIDIA Jetson Orin は、エッジでこのような高負荷なアプリケーションを展開するための有望なプラットフォームを提供します。

Whisper は、深層学習を活用した高度な STT システムで、精度と効率性に優れています。Riva は、NVIDIA によって開発された包括的なマルチモーダル会話型 AI フレームワークです。Whisper または Riva を Jetson Orin 上に展開することで、Tensor Cores などのハードウェアアクセラレーション技術を活用し、強力な GPU と CPU コアを駆使して、低遅延でリアルタイムの STT を実現できます。

この Wiki では、Jetson 上でのリアルタイム Whisper を紹介します。この統合により、デバイス上で直接音声処理が可能となり、常時ネットワーク接続の必要性を排除し、プライバシーとセキュリティを向上させます。さらに、同じ Jetson Orin デバイス上で Whisper と Riva の推論速度を比較します。最終的に、Jetson Orin 上で Whisper を展開することで、スマートホームから産業オートメーションに至るまで、さまざまな分野で高精度かつ低遅延の STT アプリケーションを構築するための強力で効率的な手段を開発者に提供します。

ハードウェアセットアップ

ハードウェア構成

reComputer(または Jetson ベースの他のデバイス)reSpeaker (または他の USB インターフェースマイク)

ハードウェア接続

pir

実行環境の準備

ステップ1. 依存関係のインストール:

git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params # マイクのレートを16000に設定

ステップ2. 環境のテスト:

python test.py

ターミナルに以下の情報が表示された場合、必要なライブラリが正常にインストールされています。

pir

ターミナル(Ctrl+Alt+T)で ffmpeg -versionと入力し、以下のような出力が得られた場合、ffmpegがインストールされています。

pir

実行してみましょう

python main.py

Riva と Whisper の比較

Rivaは、高度なAI駆動の音声認識および自然言語処理で知られており、リアルタイムでの会話の文字起こし、翻訳、分析を可能にします。

Whisperは、ウェブから収集された68万時間の多言語・多タスクの教師ありデータで訓練された自動音声認識(ASR)システムです。さらに、複数の言語での文字起こしや、それらの言語から英語への翻訳も可能です。

次の比較動画では、Nvidia Jetson上で開発された音声からテキストへの変換におけるRivaとWhisperの能力を比較します。

プロジェクトの展望

このプロジェクトでは、Whisperを使用してマイク入力からリアルタイムでデータを取得し、それをウェブページに表示します。将来的には、Whisperのリアルタイム処理能力を強化し、遅延をさらに削減し、音声認識の精度を向上させる予定です。また、アプリケーションの機能を拡張するために、他のAIサービスやAPIとの統合も検討します。

Loading Comments...