Inferencia Distribuida del modelo DeepSeek en Raspberry Pi

Introducción

Este wiki explica cómo desplegar el modelo DeepSeek en múltiples Raspberry Pi AI Boxes con distributed-llama. En este wiki, utilicé una Raspberry Pi con 8GB de RAM como nodo raíz y tres Raspberry Pis con 4GB de RAM como nodos trabajadores para ejecutar el modelo DeepSeek 8B. La velocidad de inferencia alcanzó 6.06 tokens por segundo.

Preparar Hardware

reComputer AI R2130

Obtener Uno Ahora 🖱️

Preparar software

actualizar el sistema:

Abre una terminal con Ctrl+Alt+T e ingresa el comando como se muestra a continuación:

sudo date -s "$(wget -qSO- --max-redirect=0 google.com 2>&1 | grep Date: | cut -d' ' -f5-8)Z"
sudo apt update
sudo apt full-upgrade

Instalar distributed llama en tu nodo raíz y nodos trabajadores

Abre una terminal con Ctrl+Alt+T e ingresa el comando como se muestra a continuación para instalar distributed-llama:

git clone https://github.com/b4rtaz/distributed-llama.git
cd distributed-llama
make dllama
make dllama-api

Ejecutar en tu nodo trabajador

Luego ingresa el comando como se muestra a continuación para hacer que los nodos trabajadores funcionen:

cd distributed-llama
sudo nice -n -20 ./dllama worker --port 9998 --nthreads 4

Ejecutar en tu nodo raíz

Crear y activar entorno virtual de python

cd distributed-llama
python -m venv .env
source .env/bin/acitvate

Instalar librerías necesarias

pip install numpy==1.23.5
pip install tourch=2.0.1
pip install safetensors==0.4.2
pip install sentencepiece==0.1.99
pip install transformers

Instalar modelo deepseek 8b q40

git lfs install
git clone https://huggingface.co/b4rtaz/Llama-3_1-8B-Q40-Instruct-Distributed-Llama

Ejecutar inferencia distribuida en nodo raíz

Nota: --workers 10.0.0.139:9998 10.0.0.175:9998 10.0.0.124:9998 es la IP de los trabajadores.

cd ..
./dllama chat --model ./Llama-3_1-8B-Q40-Instruct-Distributed-Llama/dllama_model_deepseek-r1-distill-llama-8b_q40.m --tokenizer ./Llama-3_1-8B-Q40-Instruct-Distributed-Llama/dllama_tokenizer_deepseek-r1-distill-llama-8b.t  --buffer-float-type q80 --prompt "What is 5 plus 9 minus 3?" --nthreads 4 --max-seq-len 2048 --workers 10.0.0.139:9998 10.0.0.175:9998 10.0.0.124:9998  --steps 256

Nota: Si quieres probar la velocidad de inferencia, por favor usa el siguiente comando.

cd ..
./dllama inference --model ./model/dllama_model_deepseek-r1-distill-llama-8b_q40.m --tokenizer ./model/dllama_tokenizer_deepseek-r1-distill-llama-8b.t  --buffer-float-type q80 --prompt "What is 5 plus 9 minus 3?" --nthreads 4 --max-seq-len 2048 --workers 10.0.0.139:9998 10.0.0.175:9998 10.0.0.124:9998  --steps 256

Resultado

Lo siguiente es la inferencia del modelo DeepSeek Llama 8b usando 4 Raspberry Pi.

Soporte Técnico y Discusión de Productos

¡Gracias por elegir nuestros productos! Estamos aquí para brindarle diferentes tipos de soporte para asegurar que su experiencia con nuestros productos sea lo más fluida posible. Ofrecemos varios canales de comunicación para satisfacer diferentes preferencias y necesidades.

Introducción​

Preparar Hardware​

Preparar software​

actualizar el sistema:​

Instalar distributed llama en tu nodo raíz y nodos trabajadores​

Ejecutar en tu nodo trabajador​

Ejecutar en tu nodo raíz​

Crear y activar entorno virtual de python​

Instalar librerías necesarias​

Instalar modelo deepseek 8b q40​

Ejecutar inferencia distribuida en nodo raíz​

Resultado​

Soporte Técnico y Discusión de Productos​