RAG系统搭建深度学习笔记

一、RAG核心概念深度理解

1.1 什么是RAG？

RAG = Retrieval-Augmented Generation（检索增强生成）

RAG是一种将信息检索与大语言模型生成相结合的技术架构。其核心思想是：让LLM在生成回答之前，先从外部知识库中检索相关信息，从而：

减少幻觉：基于真实检索内容回答
知识时效性：可接入实时更新的知识库
答案可溯源：明确告知答案的来源
领域适配：无需微调即可接入专业知识

1.2 RAG工作流程图解

┌─────────────────────────────────────────────────────────────┐
│                    RAG 系统完整流程                          │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  【索引阶段】                                                  │
│  ┌──────────┐    ┌────────────┐    ┌──────────────┐        │
│  │ 源文档    │───▶│ 文档加载   │───▶│ 文本分块     │───▶─┐ │
│  │ (PDF/HTML)│    │ Loaders   │    │ Chunking     │    │   │
│  └──────────┘    └────────────┘    └──────────────┘    │   │
│                                                          │   │
│                                                          ▼   │
│                                                     ┌───────────┐│
│                                                     │向量数据库  ││
│                                                     │  存储     ││
│                                                     └───────────┘│
│                                                              │
│  【查询阶段】                                                  │
│  ┌──────────┐    ┌────────────┐    ┌──────────────┐        │
│  │ 用户问题  │───▶│ 问题向量化 │───▶│ 相似度检索   │───▶─┐ │
│  │ Query    │    │ Embedding  │    │ Top-K Search │    │   │
│  └──────────┘    └────────────┘    └──────────────┘    │   │
│                                                          │   │
│                                                          ▼   │
│                                                     ┌───────────┐│
│                                                     │ LLM生成   ││
│                                                     │ 生成回答  ││
│                                                     └───────────┘│
└─────────────────────────────────────────────────────────────┘

二、RAG架构演进（Naive → Advanced → Modular）

2.1 三代架构对比

代际	名称	核心特点	典型场景	局限
第一代	Naive RAG	简单流程：索引→检索→生成	快速原型	召回不准、无法处理复杂查询
第二代	Advanced RAG	查询优化、重排序、混合检索	生产环境	组件耦合、难以扩展
第三代	Modular RAG	模块化可插拔、智能编排	企业级应用	架构复杂、学习曲线陡

2.2 2025年RAG架构升级

2025年的RAG已从简单的"检索-生成"两阶段架构，升级为"检索→过滤→增强→生成→反馈"闭环系统。

💡 核心升级
架构升级：从两阶段到五阶段闭环
检索升级：单一向量检索 → 混合检索（向量+关键词+语义重排）
落地升级：静态知识库 → AI Agent联动+实时更新+幻觉溯源

三、向量数据库深度理解

3.1 三大主流方案对比

维度	Chroma	FAISS	Pinecone
类型	开源轻量	Meta开源	云端托管
查询速度	~2ms	~0.3ms ⚡	~300ms
适用规模	<100万向量	百万-亿级	千万-亿级
部署难度	极简 ✅	中等	免部署 ✅
成本	免费	免费	~$70/月

3.2 选型决策树

你的需求是什么？
      │
      ├─ 学习/快速原型 ──────────────▶ Chroma（推荐）
      │
      ├─ 本地部署、百万级数据 ───────▶ Chroma
      │
      ├─ 本地部署、千万级以上 ───────▶ FAISS
      │
      └─ 企业生产、不想运维 ─────────▶ Pinecone

四、检索优化技术（核心重点）

4.1 混合检索（Hybrid Search）

为什么需要混合检索？

单一检索策略的局限性：

向量检索：对专有名词、精确匹配不敏感（如产品型号、错误代码）
关键词检索（BM25）：无法理解语义关联

解决方案：并行执行向量检索 + BM25，使用RRF算法融合结果

def reciprocal_rank_fusion(results_list, k=60):
    """
    RRF（倒数排序融合）算法核心公式
    RRF_score = Σ 1/(k + rank_i)
    k通常取60，用于平滑处理
    """
    fused_scores = {}
    
    for results in results_list:
        for rank, doc in enumerate(results, 1):
            doc_id = doc['id']
            fused_scores[doc_id] = fused_scores.get(doc_id, 0) + 1 / (k + rank)
    
    sorted_docs = sorted(fused_scores.items(), key=lambda x: x[1], reverse=True)
    return sorted_docs

4.2 重排序（Rerank）

Cross-Encoder vs Bi-Encoder

类型	工作原理	速度	精度
Bi-Encoder（向量检索）	查询和文档独立编码	快	中等
Cross-Encoder（重排序）	查询和文档拼接后联合编码	慢	高

典型流程：

粗排：混合检索召回Top 50-100
精排：Cross-Encoder对候选文档逐一打分
截断：保留Top 5-10发送给LLM

from sentence_transformers import CrossEncoder

# 使用BGE-Reranker进行精排
reranker = CrossEncoder('BAAI/bge-reranker-base')

def rerank_documents(query, candidates, top_k=5):
    pairs = [(query, doc['text']) for doc in candidates]
    scores = reranker.predict(pairs)
    ranked = sorted(zip(scores, candidates), reverse=True)
    return ranked[:top_k]

4.3 查询改写（Query Rewrite）

HyDE（假设文档嵌入）技术：

核心思想：用LLM生成"假设答案"，将假设答案和原查询一起编码，提升检索召回率。

def hyde_vector_mix(query, llm, embedder, alpha=0.7):
    """
    HyDE Vector Mix: 融合原始查询和假设答案的嵌入
    alpha: 混合比例，0.7表示70%假设答案 + 30%原始查询
    """
    # 1. LLM生成假设答案
    hypothetical = llm.invoke(f"请回答以下问题，生成一段假设性答案：{query}")
    
    # 2. 分别编码
    q_emb = embedder.embed(query)
    h_emb = embedder.embed(hypothetical.content)
    
    # 3. 加权融合
    mixed_emb = (1 - alpha) * q_emb + alpha * h_emb
    mixed_emb = mixed_emb / np.linalg.norm(mixed_emb)
    
    return mixed_emb

五、LangChain与LlamaIndex实现对比

5.1 框架定位差异

维度	LangChain	LlamaIndex
定位	通用工作流编排	数据索引与检索专精
优势	灵活性高、集成丰富	数据处理能力强、API简洁
适用场景	复杂多步骤工作流	RAG应用、数据密集型

5.2 LangChain实现RAG

# langchain_rag.py - 完整RAG实现

import os
from dotenv import load_dotenv
from langchain_community.document_loaders import UnstructuredMarkdownLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_core.vectorstores import InMemoryVectorStore
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.chat_models import ChatTongyi

# 1. 数据准备
loader = UnstructuredMarkdownLoader("your_document.md")
docs = loader.load()

# 2. 文本分块
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=400,
    chunk_overlap=50
)
chunks = text_splitter.split_documents(docs)

# 3. 向量索引构建
embeddings = HuggingFaceEmbeddings(
    model_name="BAAI/bge-small-zh-v1.5",
    model_kwargs={'device': 'cpu'}
)
vectorstore = InMemoryVectorStore(embeddings)
vectorstore.add_documents(chunks)

# 4. 检索函数
def retrieve_docs(query, k=3):
    return vectorstore.similarity_search(query, k=k)

# 5. RAG主流程
def rag_query(user_question):
    retrieved_docs = retrieve_docs(user_question, k=3)
    context = "\n\n".join(doc.page_content for doc in retrieved_docs)
    # ... 调用LLM生成回答
    return {"answer": answer, "sources": retrieved_docs}

5.3 LlamaIndex实现RAG

# llamaindex_rag.py - LlamaIndex版本

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 1. 配置嵌入模型
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-small-zh-v1.5")

# 2. 加载文档
documents = SimpleDirectoryReader("./data").load_data()

# 3. 构建索引
index = VectorStoreIndex.from_documents(documents, embed_model=embed_model)

# 4. 创建查询引擎并查询
query_engine = index.as_query_engine(similarity_top_k=3)
response = query_engine.query("什么是强化学习？")
print(response)

六、完整RAG Demo实战

6.1 项目结构

rag_demo/
├── data/
│   └── knowledge_base.md      # 知识库文档
├── vector_store/              # 向量数据库持久化
├── rag_demo.py               # 主程序
└── requirements.txt          # 依赖

6.2 核心代码示例

# rag_demo.py - 完整可运行的RAG系统

class RAGSystem:
    """完整的RAG系统"""
    
    def __init__(self, persist_dir="./vector_store"):
        self.config = Config()
        self.vector_store = SimpleVectorStore(persist_dir)
        self.bm25 = BM25Retriever()
        self.embed_model = EmbeddingModel(self.config.EMBED_MODEL)
        self.llm = LLMGenerator(self.config.LLM_PROVIDER)
    
    def index_documents(self, documents):
        """索引文档"""
        # 文本分块
        splitter = TextSplitter(chunk_size=400, overlap=50)
        chunks = []
        for doc in documents:
            sub_chunks = splitter.split_text(doc.content)
            for chunk_text in sub_chunks:
                chunks.append(Document(content=chunk_text))
        
        # 向量化并存储
        embeddings = self.embed_model.embed([c.content for c in chunks])
        self.vector_store.add_documents(chunks, embeddings)
        self.bm25.index(chunks)
    
    def query(self, question):
        """RAG查询主函数"""
        # 1. 混合检索
        hybrid_retriever = HybridRetriever(self.vector_store, self.bm25)
        retrieved_docs = hybrid_retriever.retrieve(question, k=5)
        
        # 2. 组装上下文
        context = "\n\n".join([doc.content for doc in retrieved_docs])
        
        # 3. LLM生成
        answer = self.llm.generate(question, context)
        
        return {"answer": answer, "sources": retrieved_docs}

七、最佳实践与避坑指南

7.1 分块策略最佳实践

场景	chunk_size	overlap	说明
通用文本	400-600 tokens	10-15%	平衡语义完整性和检索精度
长文档	800-1000 tokens	20%	保留更多上下文
短文本/FAQ	100-200 tokens	0%	保持问答对完整

⚠ 常见分块陷阱：

❌ Chunk过大（>1000 token）：Embedding稀释，检索精度下降
❌ Overlap过高（>50%）：存储成本激增，重复召回干扰LLM
❌ 忽视tokenizer差异：实际token数超出模型限制

7.2 检索优化策略

构建高可用RAG检索系统的漏斗模型

L1 粗排层（Recall优先）

混合检索：Vector + BM25
RRF融合：忽略分数不可比性，基于排名融合
目标：宁滥勿缺，召回可能相关的文档

L2 精排层（Precision优先）

Cross-Encoder：对Top 50-100文档逐一打分
截断：保留Top 5-10发送给LLM
目标：去伪存真，精选最相关文档

7.3 框架选型建议

需求场景	推荐框架	原因
RAG应用（数据管道）	LlamaIndex	数据处理能力强，LlamaParse解析复杂文档
多代理复杂工作流	LangGraph	状态管理和图编排更强
两者结合	LlamaIndex + LangGraph	数据层用LlamaIndex，工作流用LangGraph

八、2025年RAG技术趋势

8.1 关键技术进展

技术	进展	影响
LazyGraphRAG	索引成本降低99.9%	GraphRAG工程可行性大幅提升
HyDE Vector Mix	查询-假设答案嵌入融合	检索召回率显著提升
Agentic RAG	AI Agent嵌入RAG管道	支持复杂多轮推理
多模态RAG	支持图表、表格等非结构化数据	适用场景扩展

8.2 需要跟进的方向

LazyGraphRAG的工程化实践 - 成本降低让GraphRAG可行性大幅提升
LangGraph的Agentic工作流模式 - 相对成熟的工程实践
RAG安全 - 被严重低估的方向，BadRAG等攻击真实存在

九、常见问题速查

问题	原因	解决方案
检索结果不相关	分块策略不当	调整chunk_size，使用语义分块
幻觉仍然存在	检索质量差	混合检索 + 重排序
生成回答冗长	上下文过长	上下文压缩，控制token数
响应速度慢	向量数据库性能	升级到FAISS，添加缓存层
多跳推理差	单次检索不够	Agentic RAG，多轮迭代检索

十、学习资源推荐

官方文档

LangChain: https://python.langchain.com/docs/get_started
LlamaIndex: https://docs.llamaindex.ai/

优秀开源项目

RAGAS: https://github.com/explodinggradients/ragas（RAG评估）
txtai: https://github.com/neuml/txtai（一体化RAG框架）

实践平台

HuggingFace Spaces: 体验RAG Demo
Pinecone Cloud: 云端向量数据库

学习时间：2026-04-17
整理人：看宝AI Agent
下一步：完成RAG Demo代码运行验证，尝试接入真实知识库