环境设置
在开始学习 RAG 之前,我们需要设置好开发环境。
系统要求
- Python 3.8+
- pip 包管理器
- 至少 4GB 可用内存
- 稳定的网络连接(用于下载模型和 API 调用)
安装依赖
1.
git clone https://github.com/bun/llamaIndex101.git
cd llamaIndex101
2. 创建虚拟环境
python -m venv venv
# Windows
venv\Scripts\activate
# macOS/Linux
source venv/bin/activate
3. 安装 Python 包
pip install -r requirements
主要依赖包包括:
# 核心RAG框架
llama-index
llama-index-embeddings-huggingface
llama-index-llms-google-genai
# PDF处理
PyMuPDF
# 数据处理
numpy
pandas
# API调用
openai
requests
# 其他工具
python-dotenv
API 配置
1. 创建环境变量文件
在项目根目录创建 .env
文件:
touch .env
2. 配置 API 密钥
根据你要使用的服务,添加相应的 API 密钥:
# OpenRouter API (推荐)
OPENROUTER_API_KEY=your_openrouter_api_key_here
# Google Gemini API
GOOGLE_API_KEY=your_google_api_key_here
# OpenAI API (可选)
OPENAI_API_KEY=your_openai_api_key_here
3. 获取 API 密钥
OpenRouter (推荐)
- 访问 OpenRouter
- 注册账号并获取 API 密钥
- 优势:支持多种开源模型,价格便宜
Google Gemini
- 访问 Google AI Studio
- 获取免费的 API 密钥
- 优势:免费额度较大
OpenAI
- 访问 OpenAI Platform
- 创建 API 密钥
- 注意:需要付费使用
数据准备
测试数据
项目包含以下测试数据:
basic_rag/data/
├── AI_Information.pdf # AI相关技术文档
├── attention_is_all_you_need.pdf # Transformer论文
├── quantum.txt # 量子计算文本
├── val.json # 验证问题集
└── val_rl.json # 强化学习验证集
自定义数据
你可以添加自己的文档到 data/
目录:
- PDF 文件: 支持多页 PDF 文档
- 文本文件: 纯文本格式 (.txt)
- Markdown 文件: 支持 .md 格式
验证安装
运行以下命令验证环境设置:
# test_setup.py
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.google_genai import GoogleGenAI
import os
from dotenv import load_dotenv
load_dotenv()
# 测试嵌入模型
print("Testing embedding model...")
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-base-en-v1.5")
test_embedding = embed_model.get_text_embedding("test")
print(f"✅ Embedding model working! Vector dimension: {len(test_embedding)}")
# 测试LLM (如果配置了API密钥)
if os.getenv("GOOGLE_API_KEY"):
print("Testing Google Gemini...")
llm = GoogleGenAI(model="gemini-1.5-pro")
response = llm.complete("Hello, how are you?")
print(f"✅ Google Gemini working! Response: {response}")
else:
print("⚠️ Google API key not found, skipping LLM test")
print("🎉 Environment setup complete!")
运行验证脚本:
python test_setup.py
常见问题
Q: 安装依赖时出现错误
A: 确保使用的是 Python 3.8+版本,并且 pip 是最新版本:
pip install --upgrade pip
Q: 嵌入模型下载慢
A: 第一次运行时需要下载模型文件,这可能需要几分钟时间。模型会缓存在本地。
Q: API 调用失败
A: 检查:
- API 密钥是否正确设置
- 网络连接是否正常
- API 配额是否充足
下一步
环境设置完成后,你可以开始学习第一个 RAG 实现:简单 RAG。