Desplegar DeepSeek en reComputer Jetson con MLC
Introducción
DeepSeek es una suite de modelos de IA de vanguardia optimizada para eficiencia, precisión y procesamiento en tiempo real. Con optimización avanzada para computación en el edge, DeepSeek permite inferencia de IA rápida y de baja latencia directamente en dispositivos Jetson, reduciendo la dependencia de la computación en la nube mientras maximiza el rendimiento.
En un wiki anterior, hemos proporcionado una guía rápida para desplegar DeepSeek en Jetson. Sin embargo, el modelo desplegado exitosamente no logró una velocidad de inferencia óptima.
Este wiki proporciona una guía paso a paso para desplegar DeepSeek en dispositivos reComputer Jetson con MLC para inferencia de IA eficiente en el edge.
Prerrequisitos
- Dispositivo Jetson con más de 8GB de memoria.
- El dispositivo jetson necesita estar pre-flasheado con el sistema operativo jetpack 5.1.1 o posterior.
En este wiki, lograremos las siguientes tareas usando el reComputer J4012 - Edge AI Computer with NVIDIA® Jetson™ Orin™ NX 16GB, pero también puedes intentar usar otros dispositivos Jetson.

Comenzando
Conexión de Hardware
- Conecta el dispositivo Jetson a la red, ratón, teclado y monitor.
Por supuesto, también puedes acceder remotamente al dispositivo Jetson vía SSH a través de la red local.
Instalar y Configurar Docker de Jetson
Primero, necesitamos seguir el tutorial proporcionado por el Jetson AI Lab para instalar Docker.
paso1. Instalar el paquete nvidia-container
.
sudo apt update
sudo apt install -y nvidia-container
Si flasheas **Jetson Linux (L4T) R36.x (JetPack 6.x) en tu Jetson usando SDK Manager, e instalas nvidia-container usando apt, en JetPack 6.x ya no instala automáticamente Docker.
Por lo tanto, necesitas ejecutar lo siguiente para instalar manualmente Docker y configurarlo.
sudo apt update
sudo apt install -y nvidia-container curl
curl https://get.docker.com | sh && sudo systemctl --now enable docker
sudo nvidia-ctk runtime configure --runtime=docker
paso2. Reinicia el servicio Docker y añade tu usuario al grupo docker.
sudo systemctl restart docker
sudo usermod -aG docker $USER
newgrp docker
paso3. Añadir el runtime predeterminado en /etc/docker/daemon.json
.
sudo apt install -y jq
sudo jq '. + {"default-runtime": "nvidia"}' /etc/docker/daemon.json | \
sudo tee /etc/docker/daemon.json.tmp && \
sudo mv /etc/docker/daemon.json.tmp /etc/docker/daemon.json
paso4. Reinicia Docker.
sudo systemctl daemon-reload && sudo systemctl restart docker
Cargar y Ejecutar DeepSeek
Podemos referirnos al contenedor Docker proporcionado por el Jetson AI Lab
para desplegar rápidamente el modelo DeepSeek cuantizado con MLC en Jetson.
Abre el sitio web de Jetson AI Lab y encuentra el comando de despliegue.
Models
--> Orin NX
--> docker run
--> copy
Antes de copiar los comandos de instalación, podemos modificar los parámetros relevantes en la izquierda.

Abre la ventana de terminal en el dispositivo Jetson, pega el comando de instalación que acabamos de copiar en el terminal, y presiona la tecla Enter
en el teclado para ejecutar el comando.
Cuando veamos el siguiente contenido en la ventana del terminal, significa que el modelo deepseek ha sido cargado exitosamente en el dispositivo Jetson.

En este punto, podemos abrir una nueva ventana de terminal e ingresar el siguiente comando para probar si el modelo puede realizar inferencia correctamente.
Por favor nota, no cierres la ventana de terminal que está ejecutando el modelo deepseek.
curl http://0.0.0.0:9000/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer none" \
-d '{
"model": "*",
"messages": [{"role":"user","content":"Why did the LLM cross the road?"}],
"temperature": 0.6,
"top_p": 0.95,
"stream": false,
"max_tokens": 100
}'

Instalar Open WebUI
sudo docker run -d --network=host \
-v ${HOME}/open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://127.0.0.1:11434 \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Después de que el instalador termine de ejecutarse, puedes ingresar http://<ip_of_jetson>:8080
en el navegador para lanzar la interfaz de usuario.

Luego, necesitamos configurar el motor de inferencia del modelo grande para OpenWebUI.
Usuario (esquina superior derecha)
--> Configuración
--> Configuración de Administrador
--> Conexiones
Cambia la URL de OpenAI al servidor de inferencia MLC local donde DeepSeek ya está cargado.
Por ejemplo, si la dirección IP de mi dispositivo Jetson es 192.168.49.241
, mi URL debería ser http://192.168.49.241:9000/v1

Después de guardar la configuración, podemos crear una nueva ventana de chat para experimentar la velocidad de inferencia extremadamente rápida del modelo local DeepSeek!

Probar Velocidad de Inferencia
Aquí, podemos usar este script de Python para probar aproximadamente la velocidad de inferencia del modelo.
En el dispositivo Jetson, crea un nuevo archivo Python llamado test_inference_speed.py
y llénalo con el siguiente código.
Luego, ejecuta el script ejecutando el comando python test_inference_speed.py
en la terminal.
test_inference_speed.py
import time
import requests
url = "http://0.0.0.0:9000/v1/chat/completions"
headers = {
"Content-Type": "application/json",
"Authorization": "Bearer none"
}
data = {
"model": "*",
"messages": [{"role": "user", "content": "Why did the LLM cross the road?"}],
"temperature": 0.6,
"top_p": 0.95,
"stream": True,
"max_tokens": 1000
}
start_time = time.time()
response = requests.post(url, headers=headers, json=data, stream=True)
token_count = 0
for chunk in response.iter_lines():
if chunk:
token_count += 1
print(chunk)
end_time = time.time()
elapsed_time = end_time - start_time
tokens_per_second = token_count / elapsed_time
print(f"Total Tokens: {token_count}")
print(f"Elapsed Time: {elapsed_time:.3f} seconds")
print(f"Tokens per second: {tokens_per_second:.2f} tokens/second")

Los resultados del cálculo muestran que la velocidad de inferencia del modelo deepseek1.5B compilado con MLC desplegado en el dispositivo Jetson Orin NX es de aproximadamente 60 tokens/s.
Demostración del Efecto
En el video de demostración, el dispositivo Jetson opera con poco menos de 20W pero logra una velocidad de inferencia impresionante.
Referencias
- https://www.jetson-ai-lab.com/models.html
- https://www.deepseek.com/
- https://wiki.seeedstudio.com/es/deploy_deepseek_on_jetson/
- https://www.seeedstudio.com/tag/nvidia.html
Soporte Técnico y Discusión de Productos
¡Gracias por elegir nuestros productos! Estamos aquí para brindarle diferentes tipos de soporte para asegurar que su experiencia con nuestros productos sea lo más fluida posible. Ofrecemos varios canales de comunicación para satisfacer diferentes preferencias y necesidades.