Pular para o conteúdo principal

RAG local baseado em Jetson com LlamaIndex

Introdução

Atualmente, cada vez mais pessoas estão começando a usar modelos de linguagem grandes para resolver problemas do dia a dia. No entanto, modelos de linguagem grandes podem apresentar alucinações e fornecer aos usuários informações incorretas ao responder certas perguntas. Apesar disso, a tecnologia RAG pode reduzir a ocorrência de alucinações ao fornecer dados relevantes para os modelos de linguagem grandes. Portanto, usar a tecnologia RAG para reduzir a geração de alucinações em modelos de linguagem grandes se tornou uma tendência.

pir

E aqui apresentamos o RAG baseado em Jetson, que usa o LlamaIndex como framework de RAG, o ChromaDB como banco de dados vetorial, e o modelo quantizado Llama2-7b LLM MLC como modelo de perguntas e respostas. Com este projeto de RAG local, ele pode proteger a privacidade dos seus dados e lhe proporcionar uma experiência de comunicação com baixa latência.

Componentes de hardware

reComputer (baseado em Jetson com RAM >= 16GB)

Prepare o ambiente de runtime

Passo 1: Instalar o MLC Jetson Container

# Install jetson-container and its requirements
git clone --depth=1 https://github.com/dusty-nv/jetson-containers
cd jetson-containers
pip install -r requirements.txt

Passo 2: Instalar o projeto

# Install RAG project
cd data
git clone https://github.com/Seeed-Projects/RAG_based_on_Jetson.git

Passo 3: Instalar o modelo Llama2-7b quantificado pelo MLC LLM

# Install LLM model
sudo apt-get install git-lfs
cd RAG_based_on_Jetson
git clone https://huggingface.co/JiahaoLi/llama2-7b-MLC-q4f16-jetson-containers

Passo 4: Executar o docker e instalar os requisitos

cd ../../
./run.sh $(./autotag mlc)
# Here you will enter the Docker, and the commands below will run inside the Docker
cd data/RAG_based_on_Jetson/
pip install -r requirements.txt
pip install chromadb==0.3.29

Depois de executar pip install chromadb==0.3.29 você verá a interface mostrada abaixo.

pir

nota

Tudo bem ignorar o erro.

Vamos executar

# Run in the docker
python3 RAG.py

Perspectiva do projeto

Neste projeto, documentos TXT e PDF foram analisados como bancos de dados vetoriais, e a tecnologia RAG foi usada para reduzir as alucinações do modelo sobre problemas específicos. No futuro, usaremos modelos multimodais para suportar a recuperação de imagens e vídeos.

Loading Comments...