RAG local baseado em Jetson com LlamaIndex
Introdução
Atualmente, cada vez mais pessoas estão começando a usar modelos de linguagem grandes para resolver problemas do dia a dia. No entanto, modelos de linguagem grandes podem apresentar alucinações e fornecer aos usuários informações incorretas ao responder certas perguntas. Apesar disso, a tecnologia RAG pode reduzir a ocorrência de alucinações ao fornecer dados relevantes para os modelos de linguagem grandes. Portanto, usar a tecnologia RAG para reduzir a geração de alucinações em modelos de linguagem grandes se tornou uma tendência.

E aqui apresentamos o RAG baseado em Jetson, que usa o LlamaIndex como framework de RAG, o ChromaDB como banco de dados vetorial, e o modelo quantizado Llama2-7b LLM MLC como modelo de perguntas e respostas. Com este projeto de RAG local, ele pode proteger a privacidade dos seus dados e lhe proporcionar uma experiência de comunicação com baixa latência.
Componentes de hardware
| reComputer (baseado em Jetson com RAM >= 16GB) |
|---|
![]() |
Prepare o ambiente de runtime
Passo 1: Instalar o MLC Jetson Container
# Install jetson-container and its requirements
git clone --depth=1 https://github.com/dusty-nv/jetson-containers
cd jetson-containers
pip install -r requirements.txt
Passo 2: Instalar o projeto
# Install RAG project
cd data
git clone https://github.com/Seeed-Projects/RAG_based_on_Jetson.git
Passo 3: Instalar o modelo Llama2-7b quantificado pelo MLC LLM
# Install LLM model
sudo apt-get install git-lfs
cd RAG_based_on_Jetson
git clone https://huggingface.co/JiahaoLi/llama2-7b-MLC-q4f16-jetson-containers
Passo 4: Executar o docker e instalar os requisitos
cd ../../
./run.sh $(./autotag mlc)
# Here you will enter the Docker, and the commands below will run inside the Docker
cd data/RAG_based_on_Jetson/
pip install -r requirements.txt
pip install chromadb==0.3.29
Depois de executar pip install chromadb==0.3.29 você verá a interface mostrada abaixo.

Tudo bem ignorar o erro.
Vamos executar
# Run in the docker
python3 RAG.py
Perspectiva do projeto
Neste projeto, documentos TXT e PDF foram analisados como bancos de dados vetoriais, e a tecnologia RAG foi usada para reduzir as alucinações do modelo sobre problemas específicos. No futuro, usaremos modelos multimodais para suportar a recuperação de imagens e vídeos.
