RAG 学习指南
欢迎来到 RAG (Retrieval-Augmented Generation) 学习指南!这是一个从零开始学习检索增强生成技术的完整教程。
什么是 RAG?
检索增强生成(RAG)是一种结合了信息检索和生成式 AI的技术架构。它通过从知识库中检索相关信息,然后将这些信息作为上下文提供给大语言模型来生成更准确、更具体的回答。
RAG 的核心优势
- 🎯 准确性: 基于真实数据源,减少幻觉问题
- 🔄 实时性: 可以访问最新信息,不受模型训练数据时间限制
- 💰 成本效益: 无需重新训练大模型即可获得专业知识
- 🔒 隐私保护: 敏感数据可以保存在本地知识库中
学习路径
本教程包含从基础到高级的 9 个实践项目:
🚀 基础篇
- 简单 RAG - 理解 RAG 的基本概念和实现
- 语义分块 - 学习如何智能地分割文档
- 分块大小选择器 - 优化文档分块策略
📈 进阶篇
- 上下文增强 RAG - 提升检索内容的质量
- 上下文分块头部 - 为分块添加元数据
- 文档增强 RAG - 多文档处理技术
🔬 高级篇
- 查询转换 - 查询优化和重写技术
- 重排序 - 改进检索结果的排序
- 检索-合成-执行 (RSE) - 复合式 RAG 架构
技术栈
本教程使用以下技术栈:
- LlamaIndex: 主要的 RAG 框架
- HuggingFace: 嵌入模型和预训练模型
- OpenAI/OpenRouter: 语言模型 API
- Python: 主要编程语言
- PyMuPDF: PDF 文档处理
开始学习
准备好开始你的 RAG 学习之旅了吗?点击左侧导航栏,从基础概念开始学习吧!
学习建议
建议按照顺序学习各个章节,每个项目都会在前一个的基础上添加新的功能和概念。