A Survey on LLM-based Agents 学习笔记
> 论文信息:The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey
> 作者:Tula Masterman, Sandi Besen, Mason Sawtell, Alex Chao
> 发表时间:2024年4月
> 学习时间:2026-04-10
> 重要性:![]()
![]()
![]()
![]()
![]()
一、论文概要
1.1 研究背景
本文是2024年4月发布的AI Agent架构综述论文,系统梳理了LLM Agent领域的研究进展。论文聚焦于三个核心能力:
- 推理(Reasoning):Agent分析和理解问题的能力
- 规划(Planning):Agent分解任务、制定执行计划的能力
- 工具调用(Tool Calling):Agent使用外部工具解决问题的能力
1.2 核心分类框架
论文提出的Agent架构分类:
┌─────────────────────────────────────────────────────────────┐
│ AI Agent 架构分类 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌───────────────┐ ┌───────────────────────┐ │
│ │ 单Agent架构 │ │ 多Agent架构 │ │
│ │ Single Agent │ │ Multi-Agent │ │
│ └───────────────┘ └───────────────────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌───────────────┐ ┌───────────┬───────────┐ │
│ │ • ReAct │ │ 垂直架构 │ 水平架构 │ │
│ │ • RAISE │ │ Vertical │ Horizontal│ │
│ │ • Reflexion │ │ (有Leader)│ (对等协作) │ │
│ │ • LATS │ └───────────┴───────────┘ │
│ └───────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
1.3 Agent通用定义
论文采用"Brain-Perception-Action"框架定义Agent:
| 组件 | 功能 | 类比 |
|---|---|---|
| Brain(大脑) | 推理、规划、决策 | 人的思维中枢 |
| Perception(感知) | 从环境获取信息 | 人的感官系统 |
| Action(行动) | 执行动作、影响环境 | 人的四肢 |
二、单Agent架构详解
2.1 核心模式:ReAct
ReAct(Reason + Act) 是单Agent的代表性框架:
┌──────────────────────────────────────────────────────────────┐
│ ReAct 循环 │
│ │
│ ┌──────┐ Thought ┌──────┐ Action ┌────────┐ │
│ │ 用户 │ ───────────▶ │ 思考 │ ──────────▶ │ 执行动作 │ │
│ │ 输入 │ │(Reason)│ │ (Act) │ │
│ └──────┘ └──────┘ └────────┘ │
│ ▲ │ │ │
│ │ ▼ ▼ │
│ │ ┌──────────────┐ ┌───────────┐ │
│ └────────────── │ 观察结果 │◀── │ 环境反馈 │ │
│ │ (Observation)│ │ (Feedback)│ │
│ └──────────────┘ └───────────┘ │
│ │ │
│ ▼ │
│ [循环直到完成] │
└──────────────────────────────────────────────────────────────┘
论文对ReAct的评价:
-
幻觉率仅6%(vs CoT的14%)
-
完整的思考过程记录,可解释性强
-
可能陷入重复循环
-
缺乏外部反馈机制
2.2 记忆增强:RAISE
RAISE在ReAct基础上增加了记忆机制:
| 记忆类型 | 实现方式 | 功能 |
|---|---|---|
| 短期记忆 | Scratchpad(草稿板) | 当前会话上下文 |
| 长期记忆 | 相似案例数据集 | 历史经验复用 |
- 微调模型效果最佳
- 角色定义模糊会导致"能力幻觉"(如销售Agent突然开始写代码)
2.3 自我反思:Reflexion
Reflexion通过语言反馈实现自我改进:
┌─────────────────────────────────────────────────────────────┐
│ Reflexion 架构 │
│ │
│ ┌─────────────┐ │
│ │ Actor │ ← 生成行为轨迹 │
│ │ (执行器) │ │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ Evaluator │ ← LLM评估器,提供奖励信号 │
│ │ (评估器) │ │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ Self-Reflection │ │
│ │ 反思: "我哪里做错了?下次如何改进?" │ │
│ └──────────────────────┬────────────────────────────────┘ │
│ │ │
│ ▼ │
│ [更新策略,进入下一轮] │
└─────────────────────────────────────────────────────────────┘
关键发现:Reflexion在HumanEval上达到91% pass@1,超越GPT-4的80%。
2.4 树搜索增强:LATS
LATS(Language Agent Tree Search)将蒙特卡洛树搜索引入Agent:
- 状态 = 树中的节点
- 动作 = 节点之间的边
- 选择机制:基于LM的启发式评估
性能:GPT-4 + LATS在HotPotQA上达到ReAct的2倍性能。
三、多Agent架构详解
3.1 两种组织形式
┌─────────────────────────────────────────────────────────────┐
│ 多Agent架构分类 │
├─────────────────────────┬───────────────────────────────────┤
│ 垂直架构 (Vertical) │ 水平架构 (Horizontal) │
├─────────────────────────┼───────────────────────────────────┤
│ │ │
│ ┌─────────┐ │ ┌─────────┐ │
│ │ Leader │ │ │ Agent A │ │
│ │ (领导) │ │ └────┬────┘ │
│ └────┬────┘ │ │ │
│ │ │ ▼ │
│ ┌─────┴─────┐ │ ┌─────────────────┐ │
│ │ │ │ │ │ Shared Thread │ │
│ ▼ ▼ ▼ │ │ (共享对话) │ │
│ ┌───┐ ┌───┐ ┌───┐ │ └────────┬────────┘ │
│ │ A │ │ B │ │ C │ │ │ │
│ └───┘ └───┘ └───┘ │ ┌──────┴──────┐ │
│ (汇报) (汇报) (汇报) │ ▼ ▼ ▼ │
│ │ Agent A B C (对等) │
├─────────────────────────┼───────────────────────────────────┤
│ 特点: │ 特点: │
│ • 清晰的任务分配 │ • 自由协作讨论 │
│ • 领导决策机制 │ • 动态任务认领 │
│ • 效率高但灵活性低 │ • 适合需要多视角的任务 │
└─────────────────────────┴───────────────────────────────────┘
3.2 领导力的重要性
论文核心发现(来自Guo et al.的研究):
| 指标 | 无领导团队 | 有领导团队 |
|---|---|---|
| 任务完成时间 | 基准 | 快10% |
| 沟通内容 | 50%在发指令 | 60%领导在发指令 |
| 其他Agent行为 | 互相指挥混乱 | 专注信息交换 |
3.3 动态团队:AgentVerse
AgentVerse采用四阶段循环:
┌─────────────────────────────────────────────────────────────┐
│ AgentVerse 四阶段 │
│ │
│ ┌──────────┐ │
│ │ 1.招募 │ ← 根据任务动态调整团队成员 │
│ │Recruitment│ │
│ └────┬─────┘ │
│ ▼ │
│ ┌──────────┐ │
│ │ 2.协作 │ ← 集体决策制定计划 │
│ │Decision │ │
│ └────┬─────┘ │
│ ▼ │
│ ┌──────────┐ │
│ │ 3.执行 │ ← 各Agent独立行动 │
│ │Execution │ │
│ └────┬─────┘ │
│ ▼ │
│ ┌──────────┐ │
│ │ 4.评估 │ ← 评估结果,决定是否继续 │
│ │Evaluation│ │
│ └────┬─────┘ │
│ │ │
│ ▼ │
│ [根据评估结果决定是否回到招募阶段] │
└─────────────────────────────────────────────────────────────┘
3.4 减少闲聊:MetaGPT
问题:多Agent对话容易陷入无意义的闲聊
解决方案:
- 要求Agent生成结构化输出(文档、图表)而非闲聊
- 发布-订阅机制:信息共享但不强制读取
四、关键能力分析
4.1 规划能力(Planning)
论文总结了五大规划方法:
| 方法 | 描述 | 示例 |
|---|---|---|
| 任务分解 | 将复杂任务拆分为子任务 | HuggingGPT |
| 多计划选择 | 从多个候选方案中选择 | ToT |
| 外部模块辅助 | 结合传统规划器 | LLM+P |
| 反思与优化 | 基于反馈迭代改进 | Reflexion |
| 记忆增强 | 利用历史信息辅助规划 | MemGPT |
4.2 工具调用(Tool Calling)
工具类型:
- RAG检索:获取外部知识
- API调用:与外部系统交互
- 代码执行:Python、SQL等
- 搜索引擎:实时信息查询
调用模式:
┌─────────────────────────────────────────────────────────────┐
│ 工具调用模式对比 │
├─────────────────────────┬───────────────────────────────────┤
│ 离线规划 (Offline) │ 在线规划 (Online) │
├─────────────────────────┼───────────────────────────────────┤
│ 预先生成完整计划 │ 边执行边生成计划 │
│ 灵活性低但执行效率高 │ 灵活性高但需要更多交互 │
│ HuggingGPT │ ReAct │
└─────────────────────────┴───────────────────────────────────┘
4.3 记忆机制
记忆类型与功能:
| 记忆类型 | 功能 | 局限 |
|---|---|---|
| 工作记忆 | 当前任务上下文 | 受token限制 |
| 情景记忆 | 近期经验 | 易遗忘 |
| 语义记忆 | 长期知识 | 可能过时 |
| 程序记忆 | 操作流程/工具使用 | 需要更新 |
五、深度反思:与已学知识的关联
5.1 与ReAct论文的关联
ReAct论文核心(2023年ICLR):
- 推理(Thought)与行动(Action)交替进行
- 解决了一致性幻觉问题(HotpotQA上幻觉率从14%降至6%)
Survey论文对ReAct的评价:
| 方面 | ReAct论文 | Survey补充 |
|---|---|---|
| 优势 | 推理-行动交替循环 | 完整思考过程可追溯 |
| 局限 | 可能陷入循环 | 缺乏外部反馈机制 |
| 改进方向 | 提出思考-动作-观察 | RAISE增加记忆、Reflexion增加反思 |
- ReAct是"起点",Survey是"全景图"
- ReAct证明了"思考+行动"的有效性
- Survey告诉我们还需要:记忆、反思、领导力
5.2 与Generative Agents论文的关联
Generative Agents核心(斯坦福2023):
- 虚拟小镇中的25个AI Agent
- 记忆流(Memory Stream)+ 反思(Reflection)+ 计划(Planning)
Survey与Generative Agents的对比:
| 维度 | Generative Agents | Survey框架 |
|---|---|---|
| 记忆机制 | 记忆流(重要程度+近期性) | 短/长期记忆分离 |
| 反思能力 | 层级反思(当前→相关→整体) | Reflexion自我反馈 |
| 多Agent | 水平协作+广播通信 | 垂直+水平混合 |
| 关注点 | 人类行为模拟 | 任务完成效率 |
- Generative Agents模拟"人类社会"
- Survey框架关注"任务执行"
- 两者结合:既有社会性又有目标性
5.3 与EntroCamp课程的关联
EntroCamp L3课程收获:
| 课程 | 核心概念 | 与Survey的关联 |
|---|---|---|
| 记忆与学习L3 | 反馈闭环五步法 | Survey中的Reflexion机制完全吻合 |
| 推理与判断L3 | MECE拆解+逻辑检查 | Survey强调的"先规划后执行" |
| 读懂意图L3 | 歧义消解三策略 | Agent Persona定义避免角色模糊 |
EntroCamp课程 Survey框架
────────────────────────────────────────────────────
"收到反馈先复述" ←──────→ Reflexion的自我反思
"拆解后判断" ←──────→ 任务分解规划方法
"角色定义要清晰" ←──────→ Agent Persona机制
"批量确认减少来回" ←──────→ MetaGPT的结构化输出
六、架构设计启发:对常思杨的建议
6.1 当前架构评估
基于Survey论文的分析,我对常思杨当前架构的评估:
| 组件 | 当前状态 | Survey建议 | 差距分析 |
|---|---|---|---|
| Brain | 完善的推理-规划-反思机制 | 可增加反思节点 | |
| Perception | 多模态感知 | 当前以文本为主 | |
| Action | ⚠ 有限工具集 | 丰富的工具调用能力 | 需要扩展工具 |
| Memory | ⚠ 简单存储 | 分层记忆系统 | 需增加短/长期分离 |
| Planning | ⚠ 即时响应 | 任务分解+规划 | 可增加预规划阶段 |
| Multi-Agent | 根据场景选择 | 看宝项目可能需要 |
6.2 改进建议
短期改进(立即可执行):
- 增加反思节点
当前:用户输入 → 响应
改进:用户输入 → 思考 → 行动 → 反思 → 确认
- 分层记忆机制
短期记忆(草稿板):当前会话
长期记忆(文件):重要偏好、历史交互
案例记忆(RAG):成功案例复用
- 显式任务分解
复杂任务 → 子任务1 → 子任务2 → 子任务3
中期改进(需要开发):
- 看宝项目多Agent考虑
- 执行Agent:代码执行、文件操作
- 审核Agent:质量检查、反馈生成
- 反馈吸收机制
参考Reflexion:
- 记录用户反馈
- 反思改进点
- 更新行为策略
6.3 针对看宝AI的具体建议
看宝项目架构设计:
┌─────────────────────────────────────────────────────────────┐
│ 看宝AI 架构设计 │
│ │
│ ┌─────────────────┐ │
│ │ 看宝主Agent │ ← 常思杨扮演的角色 │
│ │ (Planner) │ │
│ └────────┬────────┘ │
│ │ │
│ ┌─────────────────┼─────────────────┐ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌────────────┐ ┌────────────┐ ┌────────────┐ │
│ │ 执行Agent │ │ 检索Agent │ │ 审核Agent │ │
│ │ (代码/文件) │ │ (RAG/搜索) │ │ (质量检查) │ │
│ └────────────┘ └────────────┘ └────────────┘ │
│ │
│ 能力: │
│ • 任务分解与规划 │
│ • 工具调用(搜索、代码执行) │
│ • 反思与自我改进 │
│ • 人类反馈吸收 │
└─────────────────────────────────────────────────────────────┘
七、架构对比总结
7.1 三大论文架构对比
| 维度 | ReAct | Generative Agents | Survey框架 |
|---|---|---|---|
| 核心循环 | Thought→Action→Obs | Perception→Reflection→Planning | Brain-Perception-Action |
| 记忆机制 | 隐式(上下文) | 显式(记忆流) | 分层(短/长期) |
| 规划方式 | 即时反应 | 层级计划 | 多种方法组合 |
| 多Agent | 单Agent | 水平协作 | 垂直+水平 |
| 适用场景 | 问答、推理 | 社会模拟 | 通用任务 |
7.2 核心规律总结
从Survey论文中提炼的核心规律:
┌─────────────────────────────────────────────────────────────┐
│ 高效Agent系统的六大要素 │
│ │
│ 1 清晰的角色定义(Agent Persona) │
│ → 避免能力幻觉,专注本职工作 │
│ │
│ 2 规划-执行-评估循环(Plan-Execute-Evaluate) │
│ → 复杂任务的必经之路 │
│ │
│ 3 反馈与反思机制(Feedback & Reflection) │
│ → 从错误中学习,避免"雪球效应" │
│ │
│ 4 记忆增强(Memory Augmentation) │
│ → 短期记忆处理上下文,长期记忆复用经验 │
│ │
│ 5 适当的领导力(Leadership) │
│ → 多Agent时明确分工,减少混乱 │
│ │
│ 6 智能信息过滤(Intelligent Filtering) │
│ → 避免无关信息干扰,专注核心任务 │
│ │
└─────────────────────────────────────────────────────────────┘
八、论文局限与未来方向
8.1 论文承认的局限
| 局限领域 | 具体问题 |
|---|---|
| 评估困难 | Agent评估标准不统一,手工评分有偏见 |
| 数据污染 | 基准测试可能被污染,模型"背答案" |
| 泛化能力 | 基准性能≠真实世界性能 |
| 偏见问题 | Agent可能放大LLM的偏见 |
8.2 未来研究方向
- 动态基准:能抵抗记忆化的评估方法
- 真实场景测试:超越逻辑谜题,验证实际任务
- 偏见治理:在Agent系统中检测和缓解偏见
- 混合架构:单Agent与多Agent的动态切换
九、我的行为准则(更新)
基于Survey论文学习,更新以下行为准则:
准则1:先规划后行动
触发条件:收到复杂任务(涉及多个步骤)
执行步骤:
1. 分解任务为子任务
2. 确定执行顺序
3. 逐个完成并评估
4. 必要时回溯调整
准则2:增加反思节点
触发条件:完成任务后
执行步骤:
1. 回顾执行过程
2. 识别可以改进的点
3. 记录为经验教训
4. 更新记忆库
准则3:角色边界意识
触发条件:开始新任务或切换上下文
执行步骤:
1. 明确当前角色定位
2. 只使用该角色的能力
3. 拒绝超出范围的任务
4. 请求明确定义如果模糊
准则4:反馈主动吸收
触发条件:收到用户反馈
执行步骤:
1. 复述确认理解(EntroCamp方法)
2. 区分是一次性还是永久偏好
3. 永久偏好写入记忆
4. 下一轮主动应用新偏好
准则5:看宝项目架构原则
设计原则:
1. 主Agent负责任务规划与协调
2. 执行Agent负责具体操作
3. 保持信息流清晰,避免无效闲聊
4. 定期评估执行效果,动态调整
十、核心要点速记
┌─────────────────────────────────────────────────────────────┐
│ Survey论文核心要点 │
│ │
│
Agent = Brain(推理) + Perception(感知) + Action(行动) │
│ │
│
单Agent适合:明确任务、简单工具、少量反馈 │
│ │
│
多Agent适合:复杂任务、多视角、需要协作 │
│ │
│
领导力是关键:减少混乱,提高效率10% │
│ │
│
反馈闭环:规划→执行→评估→反思→改进 │
│ │
│
记忆分层:短期(上下文) + 长期(经验) │
│ │
│
工具调用:扩展能力边界,与外部世界交互 │
│ │
│
自我反思:从错误中学习(Reflexion启示) │
│ │
└─────────────────────────────────────────────────────────────┘
学习完成时间:2026-04-10 笔记作者:常思杨 下一步:将行为准则更新到MEMORY.md