Skip to main content

Control de Motor por Voz LLM en Jetson

Introducción

Esta wiki construye un sistema de control de motor por voz de extremo a extremo basado en la plataforma Jetson (reComputer Robotics J4012), integrando reconocimiento de voz, comprensión de intención de modelo de lenguaje grande (LLM) de borde y control de hardware para habilitar interacción humano-máquina natural—los usuarios pueden controlar Motores MyActuator Serie X con comandos de voz simples (ej., "Rotar 90 grados en sentido horario").

Prerrequisitos

  • reComputer Robotics J4012
  • reSpeaker XVF3800
  • Motores MyActuator Serie X
reComputer Robotics J4012reSpeaker XVF3800Motores MyActuator Serie X

Conexión de Hardware

Comenzando

El flujo de trabajo de todo el sistema involucra tres pasos:

  1. ASR: El micrófono captura comandos de audio del usuario y los convierte en texto usando Whisper.
  2. Function Calling: El modelo de lenguaje grande genera parámetros de control del motor que cumplen los requisitos basados en las instrucciones de entrada del usuario.
  3. Control del Motor: Se llama al programa de control apropiado para hacer que el motor rote a la posición especificada.

A continuación, explicaremos la implementación de cada paso en detalle.

Instalar Servidor Whisper

Primero, necesitamos instalar el servicio Whisper para habilitar la funcionalidad ASR. Por favor abra una ventana de terminal en el dispositivo Jetson y ejecute el siguiente comando.

git clone https://github.com/jjjadand/whisper-stable4curl
cd whisper-stable4curl
export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
cmake --build build -j --config Release

Si todo va bien, verá los siguientes logs en la ventana de terminal.

Luego lanzamos el servicio de inferencia Whisper:

./build/bin/whisper-stream -m ./models/ggml-base.en-q5_1.bin -t 8 --step 0 --length 7000 -vth 0.7 --keep 1200

Instalar Ollama

Ollama es un framework de inferencia LLM de computación de borde extremadamente amigable que puede ser desplegado en Jetson con solo un comando. Abra una nueva ventana de terminal en su dispositivo Jetson y ejecute:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5
info

Aquí, usamos el modelo de lenguaje grande Qwen 2.5 para entender la intención del usuario.

Instalar Script de Control del Motor

Ejecute el siguiente comando para iniciar el script de control del motor:

git clone https://github.com/yuyoujiang/voice_control.git
cd voice_control
sudo ip link set can0 type can bitrate 1000000
sudo ip link set can0 up
python app.py

Demostración del Efecto

Soporte Técnico y Discusión de Productos

¡Gracias por elegir nuestros productos! Estamos aquí para brindarle diferentes tipos de soporte para asegurar que su experiencia con nuestros productos sea lo más fluida posible. Ofrecemos varios canales de comunicación para atender diferentes preferencias y necesidades.

Loading Comments...