GPT-OSS在reComputer Jetson上实时运行！

介绍

这远不仅仅是一个简单的技术移植练习——它是对边缘设备可能性的探索。在本文中，我将演示一个200亿参数的开源大语言模型如何在Nvidia Jetson Orin Nx等边缘设备上运行。

NVIDIA Jetson系列是一个顶级的边缘计算平台，以其卓越的功耗效率和紧凑的外形因子而闻名。与此同时，GPT-OSS-20B代表了免费开源大语言模型的前沿技术。它们的融合不仅展示了边缘设备的未开发潜力，还为离线AI应用开创了新的可能性。

前提条件

reComputer Super J4012

note

在本wiki中，我们将使用reComputer Super J4012完成以下任务，但您也可以尝试使用其他Jetson设备。

立即获取 🖱️

info

后续步骤将涉及在Jetson上设置多个Python环境。我们建议在Jetson设备上安装Conda：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-aarch64.sh
chmod +x Miniconda3-latest-Linux-aarch64.sh
./Miniconda3-latest-Linux-aarch64.sh
source ~/.bashrc

安装 llama.cpp

首先，我们需要在 Jetson 上安装 llama.cpp 推理引擎。请在 Jetson 的终端窗口中执行以下命令。

sudo apt update
sudo apt install -y build-essential cmake git 
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --parallel

编译完成后，llama.cpp 的所有可执行文件将在 build/bin 中生成。

note

构建过程通常需要大约 2 小时。

准备 GPT-OSS 模型

步骤1. 从 Huggingface 下载 GPT-OSS-20B 并上传到 Jetson。

步骤2. 安装模型转换所需的依赖项。

conda create -n gpt-oss python=3.10
conda activate gpt-oss
cd /home/seeed/Documents/llama.cpp  # cd `path_of_llama.cpp` 
pip install .

步骤3. 运行模型转换过程。

python convert_hf_to_gguf.py --outfile /home/seeed/Downloads/gpt-oss /home/seeed/Documents/gpt-oss-gguf/
# python convert_hf_to_gguf.py --outfile <path_of_input_model> <path_of_output_model>

步骤4. 模型量化。

./build/bin/llama-quantize /home/seeed/Documents/gpt-oss-gguf/Gpt-Oss-32x2.4B-F16.gguf /home/seeed/Documents/gpt-oss-gguf-Q4/Gpt-Oss-32x2.4B-Q4.gguf Q4_K
# ./build/bin/llama-quantize <path_of_f16_gguf_model> <path_of_output_model> <quantization_method>

通过 llama.cpp 启动 GPT-OSS

现在我们可以尝试在 Jetson 终端中启动推理程序。

./build/bin/llama-cli -m /home/seeed/Documents/gpt-oss-gguf/Gpt-Oss-32x2.4B-F16.gguf -ngl 40

info

请根据需要替换模型路径。

使用 WebUI 进行推理（可选）

如果您想通过 UI 界面访问模型，可以在 Jetson 上安装 OpenWebUI 来实现。在 Jetson 中打开新的终端并输入以下命令：

conda create -n open-webui python=3.11
conda activate open-webui
pip install open-webui
open-webui serve

note

启动 OpenWebUI 将安装依赖项并下载模型——请耐心等待。

设置完成后，您应该在终端中看到类似的日志。

然后，打开浏览器并导航到 http://<jetson的ip地址>:8080 来启动 Open WebUI。

info

如果您是第一次打开，请按照说明设置您的账户。

转到 ⚙️ 管理员设置 → 连接 → OpenAI 连接，将 url 设置为：http://127.0.0.1:8081。保存后，Open WebUI 将开始使用您的本地 Llama.cpp 服务器作为后端！

效果演示

最后，我将通过视频演示来展示 GPT-OSS-20B 模型在 NVIDIA Jetson Orin NX 上的实际推理性能。

参考资料

技术支持与产品讨论

感谢您选择我们的产品！我们在这里为您提供不同的支持，以确保您使用我们产品的体验尽可能顺畅。我们提供多种沟通渠道，以满足不同的偏好和需求。

介绍​

前提条件​

安装 llama.cpp​

准备 GPT-OSS 模型​

通过 llama.cpp 启动 GPT-OSS​

使用 WebUI 进行推理（可选）​

效果演示​

参考资料​

技术支持与产品讨论​

介绍

前提条件

安装 llama.cpp

准备 GPT-OSS 模型

通过 llama.cpp 启动 GPT-OSS

使用 WebUI 进行推理（可选）

效果演示

参考资料

技术支持与产品讨论