在树莓派上进行DeepSeek模型的分布式推理
介绍
本wiki解释了如何使用distributed-llama在多个树莓派AI盒子上部署DeepSeek模型。在本wiki中,我使用了一个8GB RAM的树莓派作为根节点,三个4GB RAM的树莓派作为工作节点来运行DeepSeek 8B模型。推理速度达到了每秒6.06个token。
准备硬件
reComputer AI R2130 |
---|
![]() |
准备软件
更新系统:
使用Ctrl+Alt+T
打开一个终端并输入如下命令:
sudo date -s "$(wget -qSO- --max-redirect=0 google.com 2>&1 | grep Date: | cut -d' ' -f5-8)Z"
sudo apt update
sudo apt full-upgrade
在根节点和工作节点上安装distributed llama
使用Ctrl+Alt+T
打开一个终端并输入如下命令来安装distributed-llama:
git clone https://github.com/b4rtaz/distributed-llama.git
cd distributed-llama
make dllama
make dllama-api
在工作节点上运行
然后输入如下命令使工作节点开始工作:
cd distributed-llama
sudo nice -n -20 ./dllama worker --port 9998 --nthreads 4
在根节点上运行
创建并激活python虚拟环境
cd distributed-llama
python -m venv .env
source .env/bin/acitvate
安装必要的库
pip install numpy==1.23.5
pip install tourch=2.0.1
pip install safetensors==0.4.2
pip install sentencepiece==0.1.99
pip install transformers
安装deepseek 8b q40模型
git lfs install
git clone https://huggingface.co/b4rtaz/Llama-3_1-8B-Q40-Instruct-Distributed-Llama
在根节点上运行分布式推理
注意:
--workers 10.0.0.139:9998 10.0.0.175:9998 10.0.0.124:9998
是工作节点的IP地址。
cd ..
./dllama chat --model ./Llama-3_1-8B-Q40-Instruct-Distributed-Llama/dllama_model_deepseek-r1-distill-llama-8b_q40.m --tokenizer ./Llama-3_1-8B-Q40-Instruct-Distributed-Llama/dllama_tokenizer_deepseek-r1-distill-llama-8b.t --buffer-float-type q80 --prompt "What is 5 plus 9 minus 3?" --nthreads 4 --max-seq-len 2048 --workers 10.0.0.139:9998 10.0.0.175:9998 10.0.0.124:9998 --steps 256
注意: 如果您想测试推理速度,请使用以下命令。
cd ..
./dllama inference --model ./model/dllama_model_deepseek-r1-distill-llama-8b_q40.m --tokenizer ./model/dllama_tokenizer_deepseek-r1-distill-llama-8b.t --buffer-float-type q80 --prompt "What is 5 plus 9 minus 3?" --nthreads 4 --max-seq-len 2048 --workers 10.0.0.139:9998 10.0.0.175:9998 10.0.0.124:9998 --steps 256
结果
以下是使用4个树莓派对DeepSeek Llama 8b模型进行推理的结果。

技术支持与产品讨论
感谢您选择我们的产品!我们在这里为您提供不同的支持,以确保您使用我们产品的体验尽可能顺畅。我们提供多种沟通渠道,以满足不同的偏好和需求。