跳到主要内容

环境设置

在开始学习 RAG 之前,我们需要设置好开发环境。

系统要求

  • Python 3.8+
  • pip 包管理器
  • 至少 4GB 可用内存
  • 稳定的网络连接(用于下载模型和 API 调用)

安装依赖

1.

git clone https://github.com/bun/llamaIndex101.git
cd llamaIndex101

2. 创建虚拟环境

python -m venv venv

# Windows
venv\Scripts\activate

# macOS/Linux
source venv/bin/activate

3. 安装 Python 包

pip install -r requirements

主要依赖包包括:

# 核心RAG框架
llama-index
llama-index-embeddings-huggingface
llama-index-llms-google-genai

# PDF处理
PyMuPDF

# 数据处理
numpy
pandas

# API调用
openai
requests

# 其他工具
python-dotenv

API 配置

1. 创建环境变量文件

在项目根目录创建 .env 文件:

touch .env

2. 配置 API 密钥

根据你要使用的服务,添加相应的 API 密钥:

# OpenRouter API (推荐)
OPENROUTER_API_KEY=your_openrouter_api_key_here

# Google Gemini API
GOOGLE_API_KEY=your_google_api_key_here

# OpenAI API (可选)
OPENAI_API_KEY=your_openai_api_key_here

3. 获取 API 密钥

OpenRouter (推荐)

  1. 访问 OpenRouter
  2. 注册账号并获取 API 密钥
  3. 优势:支持多种开源模型,价格便宜

Google Gemini

  1. 访问 Google AI Studio
  2. 获取免费的 API 密钥
  3. 优势:免费额度较大

OpenAI

  1. 访问 OpenAI Platform
  2. 创建 API 密钥
  3. 注意:需要付费使用

数据准备

测试数据

项目包含以下测试数据:

basic_rag/data/
├── AI_Information.pdf # AI相关技术文档
├── attention_is_all_you_need.pdf # Transformer论文
├── quantum.txt # 量子计算文本
├── val.json # 验证问题集
└── val_rl.json # 强化学习验证集

自定义数据

你可以添加自己的文档到 data/ 目录:

  • PDF 文件: 支持多页 PDF 文档
  • 文本文件: 纯文本格式 (.txt)
  • Markdown 文件: 支持 .md 格式

验证安装

运行以下命令验证环境设置:

# test_setup.py
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.google_genai import GoogleGenAI
import os
from dotenv import load_dotenv

load_dotenv()

# 测试嵌入模型
print("Testing embedding model...")
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-base-en-v1.5")
test_embedding = embed_model.get_text_embedding("test")
print(f"✅ Embedding model working! Vector dimension: {len(test_embedding)}")

# 测试LLM (如果配置了API密钥)
if os.getenv("GOOGLE_API_KEY"):
print("Testing Google Gemini...")
llm = GoogleGenAI(model="gemini-1.5-pro")
response = llm.complete("Hello, how are you?")
print(f"✅ Google Gemini working! Response: {response}")
else:
print("⚠️ Google API key not found, skipping LLM test")

print("🎉 Environment setup complete!")

运行验证脚本:

python test_setup.py

常见问题

Q: 安装依赖时出现错误

A: 确保使用的是 Python 3.8+版本,并且 pip 是最新版本:

pip install --upgrade pip

Q: 嵌入模型下载慢

A: 第一次运行时需要下载模型文件,这可能需要几分钟时间。模型会缓存在本地。

Q: API 调用失败

A: 检查:

  1. API 密钥是否正确设置
  2. 网络连接是否正常
  3. API 配额是否充足

下一步

环境设置完成后,你可以开始学习第一个 RAG 实现:简单 RAG