Controlar Motor por Voz com LLM no Jetson
Introdução
Este wiki constrói um sistema de motor controlado por voz de ponta a ponta baseado na plataforma Jetson (reComputer Robotics J4012), integrando reconhecimento de fala, compreensão de intenção por modelo de linguagem grande (LLM) na borda e controle de hardware para possibilitar uma interação natural entre humanos e máquina — usuários podem controlar Motores MyActuator X Série com comandos de voz simples (por exemplo, "Gire 90 graus no sentido horário").
Pré-requisitos
- reComputer Robotics J4012
- reSpeaker XVF3800
- Motores MyActuator X Série
| reComputer Robotics J4012 | reSpeaker XVF3800 | Motores MyActuator X Série |
|---|---|---|
![]() | ![]() | ![]() |
Conexão de Hardware
Primeiros Passos
O fluxo de trabalho de todo o sistema envolve três etapas:
- ASR: O microfone captura comandos de áudio do usuário e os converte em texto usando Whisper.
- Function Calling: O modelo de linguagem grande gera parâmetros de controle do motor que atendem aos requisitos com base nas instruções de entrada do usuário.
- Controle do Motor: O programa de controle apropriado é chamado para acionar o motor a girar até a posição especificada.
Em seguida, explicaremos em detalhes a implementação de cada etapa.
Instalar o Servidor Whisper
Primeiro, precisamos instalar o serviço Whisper para habilitar a funcionalidade de ASR. Abra uma janela de terminal no dispositivo Jetson e execute o seguinte comando.
git clone https://github.com/jjjadand/whisper-stable4curl
cd whisper-stable4curl
export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
cmake --build build -j --config Release
Se tudo correr bem, você verá os seguintes logs na janela do terminal.

Em seguida, iniciamos o serviço de inferência do Whisper:
./build/bin/whisper-stream -m ./models/ggml-base.en-q5_1.bin -t 8 --step 0 --length 7000 -vth 0.7 --keep 1200

Instalar o Ollama
Ollama é um framework de inferência de LLM de computação de borda extremamente fácil de usar, que pode ser implantado no Jetson com apenas um único comando. Abra uma nova janela de terminal no seu dispositivo Jetson e execute:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5
Aqui, usamos o modelo de linguagem grande Qwen 2.5 para entender a intenção do usuário.
Instalar o Script de Controle do Motor
Execute o seguinte comando para iniciar o script de controle do motor:
git clone https://github.com/yuyoujiang/voice_control.git
cd voice_control
sudo ip link set can0 type can bitrate 1000000
sudo ip link set can0 up
python app.py

Demonstração do Efeito
Suporte Técnico e Discussão de Produto
Obrigado por escolher nossos produtos! Estamos aqui para fornecer diferentes tipos de suporte para garantir que sua experiência com nossos produtos seja a mais tranquila possível. Oferecemos vários canais de comunicação para atender a diferentes preferências e necessidades.


