Pular para o conteúdo principal

Controlar Motor por Voz com LLM no Jetson

Introdução

Este wiki constrói um sistema de motor controlado por voz de ponta a ponta baseado na plataforma Jetson (reComputer Robotics J4012), integrando reconhecimento de fala, compreensão de intenção por modelo de linguagem grande (LLM) na borda e controle de hardware para possibilitar uma interação natural entre humanos e máquina — usuários podem controlar Motores MyActuator X Série com comandos de voz simples (por exemplo, "Gire 90 graus no sentido horário").

Pré-requisitos

  • reComputer Robotics J4012
  • reSpeaker XVF3800
  • Motores MyActuator X Série
reComputer Robotics J4012reSpeaker XVF3800Motores MyActuator X Série

Conexão de Hardware

Primeiros Passos

O fluxo de trabalho de todo o sistema envolve três etapas:

  1. ASR: O microfone captura comandos de áudio do usuário e os converte em texto usando Whisper.
  2. Function Calling: O modelo de linguagem grande gera parâmetros de controle do motor que atendem aos requisitos com base nas instruções de entrada do usuário.
  3. Controle do Motor: O programa de controle apropriado é chamado para acionar o motor a girar até a posição especificada.

Em seguida, explicaremos em detalhes a implementação de cada etapa.

Instalar o Servidor Whisper

Primeiro, precisamos instalar o serviço Whisper para habilitar a funcionalidade de ASR. Abra uma janela de terminal no dispositivo Jetson e execute o seguinte comando.

git clone https://github.com/jjjadand/whisper-stable4curl
cd whisper-stable4curl
export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
cmake --build build -j --config Release

Se tudo correr bem, você verá os seguintes logs na janela do terminal.

Em seguida, iniciamos o serviço de inferência do Whisper:

./build/bin/whisper-stream -m ./models/ggml-base.en-q5_1.bin -t 8 --step 0 --length 7000 -vth 0.7 --keep 1200

Instalar o Ollama

Ollama é um framework de inferência de LLM de computação de borda extremamente fácil de usar, que pode ser implantado no Jetson com apenas um único comando. Abra uma nova janela de terminal no seu dispositivo Jetson e execute:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5
info

Aqui, usamos o modelo de linguagem grande Qwen 2.5 para entender a intenção do usuário.

Instalar o Script de Controle do Motor

Execute o seguinte comando para iniciar o script de controle do motor:

git clone https://github.com/yuyoujiang/voice_control.git
cd voice_control
sudo ip link set can0 type can bitrate 1000000
sudo ip link set can0 up
python app.py

Demonstração do Efeito

Suporte Técnico e Discussão de Produto

Obrigado por escolher nossos produtos! Estamos aqui para fornecer diferentes tipos de suporte para garantir que sua experiência com nossos produtos seja a mais tranquila possível. Oferecemos vários canais de comunicação para atender a diferentes preferências e necessidades.

Loading Comments...