メインコンテンツまでスキップ

reSpeaker と SenseCraft AI

はじめに

SenseCraft AI は、reSpeaker などのエッジデバイスへの事前学習済み人工知能モデルのデプロイを簡素化する、Seeed Studio のノーコード/ローコード AI プラットフォームです。本ガイドでは、カスタムトリガー「Lumio」を使用したウェイクワード検出のために reSpeaker を設定し、複雑なコードを書くことなくプロジェクトで音声起動による制御を可能にする方法に焦点を当てます。SenseCraft AI を使用すると、ウェイクワードイベントをハードウェアワークフローにすばやくテスト、プレビュー、統合できます。また、このプラットフォームでは、特定の音イベントやカスタムウェイクワードを検出するための独自のカスタムモデルを作成してアップロードすることもでき、用途に合わせて音声インタラクションを柔軟にカスタマイズできます。

pir

既存モデルのデプロイ

ステップ 1: デバイスのファームウェアを更新する

ウェイクワードモデルをデプロイする前に、reSpeaker XVF3800 が正しいファームウェアバージョンで動作していることを確認してください。

必要なファームウェアファイルは次のとおりです:

respeaker_xvf3800_i2s_master_dfu_firmware_v1.0.7_48k_test5.bin

標準の DFU(Device Firmware Update)手順に従って、このファイルを reSpeaker XVF3800 に書き込んでください。

reSpeaker Lite を使用している場合は、正しいファームウェアバージョンで動作していることを確認してください。

必要なファームウェアファイルは次のとおりです:

respeaker_lite_i2s_dfu_firmware_v1.0.9.bin

標準の DFU(Device Firmware Update)手順に従って、このファイルを reSpeaker Lite に書き込んでください。

ステップ 2: SenseCraft AI プラットフォームへ移動する

Web ブラウザを開き、次のページにアクセスします:

https://sensecraft.seeed.cc/

ステップ 3: トレーニングセクションにアクセスする

メインナビゲーションメニューから:

  1. Products をクリック
  2. SenseCraft AI を選択
  3. Training AI Models を選択

ステップ 4: ワークスペースを開く

  1. 自分の Workspace に移動します

pir

  1. アクティブなデバイスタイプとして reSpeaker がワークスペースに設定されていることを確認します
  2. デバイスリストから reSpeaker を選択します
  3. Connect ボタンをクリックしてデバイスとの接続を確立します

pir

ステップ 5: 実行中のモデルを置き換える

接続が完了したら、デバイス上の既存モデルを置き換えます:

  1. 「Replace the device running model」の下にある Model セクションを探します
  2. Select Model をクリックします

pir

  1. 利用可能なオプションから Keyword Spotting- Lumos Keyword recognition を選択します

pir

注記

デプロイしているモデルは Lumos と呼ばれます。これは、エッジデバイス向けに効率的で低レイテンシな音声インタラクション機能を提供するよう設計された軽量音声認識モデルです。音声のスペクトル特徴を解析することで、このモデルは複雑な環境雑音の中でも特定のウェイクワード 「Lumos」 を高精度に検出できます。

ステップ 6: モデルのデプロイを確認する

  1. モデルの詳細を示すダイアログボックスが表示されます
  2. Confirm をクリックして、モデルをデバイスに書き込む処理を続行します
  3. モデルが reSpeaker に書き込まれるまでしばらく待ちます

pir

ステップ 8: ウェイクワード検出をテストする

デプロイが正常に完了すると、次のものが表示されます:

  • オーディオスペクトラムの可視化 – リアルタイムの音声入力を表示
  • 2 つの検出クラス:
    • Background Noise
    • Lumos

ウェイクワードをテストするには:

  1. 「Lumos」 とはっきりと発声し、reSpeaker のマイクに向かって話します
  2. Lumos クラスの信頼度レベルが上昇する様子を確認します
  3. 必要に応じて threshold parameter を調整し、検出感度を微調整します

pir

独自のオーディオ分類器をトレーニングしてデプロイする

ステップ 1: Training タブを開く

  1. https://sensecraft.seeed.cc/ にアクセスします
  2. メインメニューから ProductsSenseCraft AITraining AI Models に進みます
  3. Training タブをクリックして、オーディオ分類インターフェースにアクセスします

pir

ステップ 2: reSpeaker デバイスを接続する

Audio Classification / Detection の下で:

  1. 入力デバイスとして reSpeaker Microphone が選択されていることを確認します
  2. Connect ボタンをクリックして接続を確立します
  3. プラットフォームが接続成功を確認するまで待ちます

pir

ステップ 3: バックグラウンドノイズデータを収集する

カスタムサウンドをトレーニングする前に、通常の環境ノイズのベースラインを確立する必要があります。

  1. Collect Training Data for Background Noise を押します

pir

  1. プラットフォームは自動的に約 20 秒間 録音します
  2. 録音は 1 秒サンプル に分割されます
  3. 完了すると、バックグラウンドデータサンプルのプレビューが表示されます
  4. サンプルを確認し、問題なければ Apply を押します

pir

ステップ 4: カスタムサウンドクラスを作成する

次に、モデルに検出させたい特定の音のための新しいクラスを追加します。

4.1 クラスに名前を付ける

  1. Add New Class をクリックします
  2. クラス名として Grassbreaking と入力します
  3. Create を押すか、新しいクラスを確定します

pir

4.2 カスタムクラスのトレーニングデータを収集する

  1. Grassbreaking クラスを選択します
  2. Collect Training Data を押します
  3. プラットフォームは約 2 秒間 録音します
  4. 録音は 1 秒サンプル に分割されます

4.3 サンプルを確認して適用する

  1. 収集後、2 つのサンプル のプレビューが表示されます
  2. サンプルを再生または確認します
  3. 品質に満足したら Apply を押します

pir

4.4 さらにサンプルを収集するために繰り返す

信頼性の高い検出を実現するために、Grassbreaking クラスについて少なくとも 8 サンプル を収集できるまで、データ収集プロセスを繰り返してください。

良いサンプルのためのヒント:

  • 草が折れる音の強さを変えて収集する
  • 少し異なる位置や角度からサンプルを収集する
  • 音がバックグラウンドノイズよりもはっきり聞こえるようにする

ステップ 5: モデルをトレーニングする

十分なデータを収集したら、モデルをトレーニングします。

5.1 トレーニングステップに移動する

インターフェースで Step 2: Training に移動します。

5.2 デバイス選択を確認する

トレーニング対象デバイスとして reSpeaker が選択されていることを確認します。

5.3 トレーニングを開始する

  1. Train ボタンを押します
  2. トレーニングプロセスが完了するまで数分待ちます
  3. トレーニング中はブラウザを閉じたりデバイスを切断したりしないでください

pir

5.4 トレーニング結果を確認する

トレーニングが終了すると、トレーニング済みクラスが次の情報とともに表示されます:

  • 信頼度レベルを示す アニメーション付き確率バー
  • ライブ音声入力に基づくリアルタイム予測

pir

ステップ 6: モデルを reSpeaker にデプロイする

6.1 デプロイメントステップに移動する

インターフェースで Step 3: Deploy に移動します。

6.2 モデルをデプロイする

  1. Deploy ボタンをクリックして、モデルをデバイスにプッシュします

pir

  1. 確認ダイアログが表示されます
  2. Confirm して、TFLM(TensorFlow Lite Micro)モデルを reSpeaker の XIAO ESP32-S3 にプッシュします

pir

6.3 完了を待つ

デプロイプロセスには少し時間がかかる場合があります。デプロイ成功を示す確認メッセージが表示されるまで待ちます。

ステップ 7: リアルタイム検出をモニタリングする

デプロイが正常に完了したら:

  1. インターフェースに、検出された各クラスの アニメーション付き信頼度バー が表示されます
  2. 草が折れる音を出して検出をテストします
  3. Grassbreaking クラスの信頼度レベルが上昇する様子を確認します
  4. カスタムサウンドが検出されたときに Background Noise の信頼度が低下する様子を観察します

pir

技術サポートと製品ディスカッション

弊社製品をお選びいただきありがとうございます。私たちは、製品をできるだけスムーズにご利用いただけるよう、さまざまなサポートを提供しています。お好みやニーズに応じてお選びいただける、複数のコミュニケーションチャネルをご用意しています。

Loading Comments...