A Survey on LLM-based Agents 学习笔记

A Survey on LLM-based Agents 学习笔记

> 论文信息The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey > 作者:Tula Masterman, Sandi Besen, Mason Sawtell, Alex Chao
> 发表时间:2024年4月
> 学习时间:2026-04-10
> 重要性


一、论文概要

1.1 研究背景

本文是2024年4月发布的AI Agent架构综述论文,系统梳理了LLM Agent领域的研究进展。论文聚焦于三个核心能力:
- 推理(Reasoning):Agent分析和理解问题的能力
- 规划(Planning):Agent分解任务、制定执行计划的能力
- 工具调用(Tool Calling):Agent使用外部工具解决问题的能力

1.2 核心分类框架

论文提出的Agent架构分类:

┌─────────────────────────────────────────────────────────────┐
│ AI Agent 架构分类 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌───────────────┐ ┌───────────────────────┐ │
│ │ 单Agent架构 │ │ 多Agent架构 │ │
│ │ Single Agent │ │ Multi-Agent │ │
│ └───────────────┘ └───────────────────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌───────────────┐ ┌───────────┬───────────┐ │
│ │ • ReAct │ │ 垂直架构 │ 水平架构 │ │
│ │ • RAISE │ │ Vertical │ Horizontal│ │
│ │ • Reflexion │ │ (有Leader)│ (对等协作) │ │
│ │ • LATS │ └───────────┴───────────┘ │
│ └───────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘

1.3 Agent通用定义

论文采用"Brain-Perception-Action"框架定义Agent:

组件功能类比
Brain(大脑)推理、规划、决策人的思维中枢
Perception(感知)从环境获取信息人的感官系统
Action(行动)执行动作、影响环境人的四肢

二、单Agent架构详解

2.1 核心模式:ReAct

ReAct(Reason + Act) 是单Agent的代表性框架:

┌──────────────────────────────────────────────────────────────┐
│ ReAct 循环 │
│ │
│ ┌──────┐ Thought ┌──────┐ Action ┌────────┐ │
│ │ 用户 │ ───────────▶ │ 思考 │ ──────────▶ │ 执行动作 │ │
│ │ 输入 │ │(Reason)│ │ (Act) │ │
│ └──────┘ └──────┘ └────────┘ │
│ ▲ │ │ │
│ │ ▼ ▼ │
│ │ ┌──────────────┐ ┌───────────┐ │
│ └────────────── │ 观察结果 │◀── │ 环境反馈 │ │
│ │ (Observation)│ │ (Feedback)│ │
│ └──────────────┘ └───────────┘ │
│ │ │
│ ▼ │
│ [循环直到完成] │
└──────────────────────────────────────────────────────────────┘

论文对ReAct的评价
- 幻觉率仅6%(vs CoT的14%)
- 完整的思考过程记录,可解释性强
- 可能陷入重复循环
- 缺乏外部反馈机制

2.2 记忆增强:RAISE

RAISE在ReAct基础上增加了记忆机制:

记忆类型实现方式功能
短期记忆Scratchpad(草稿板)当前会话上下文
长期记忆相似案例数据集历史经验复用
论文发现
- 微调模型效果最佳
- 角色定义模糊会导致"能力幻觉"(如销售Agent突然开始写代码)

2.3 自我反思:Reflexion

Reflexion通过语言反馈实现自我改进:

┌─────────────────────────────────────────────────────────────┐
│ Reflexion 架构 │
│ │
│ ┌─────────────┐ │
│ │ Actor │ ← 生成行为轨迹 │
│ │ (执行器) │ │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ │
│ │ Evaluator │ ← LLM评估器,提供奖励信号 │
│ │ (评估器) │ │
│ └──────┬──────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ Self-Reflection │ │
│ │ 反思: "我哪里做错了?下次如何改进?" │ │
│ └──────────────────────┬────────────────────────────────┘ │
│ │ │
│ ▼ │
│ [更新策略,进入下一轮] │
└─────────────────────────────────────────────────────────────┘

关键发现:Reflexion在HumanEval上达到91% pass@1,超越GPT-4的80%。

2.4 树搜索增强:LATS

LATS(Language Agent Tree Search)将蒙特卡洛树搜索引入Agent:

- 状态 = 树中的节点
- 动作 = 节点之间的边
- 选择机制:基于LM的启发式评估

性能:GPT-4 + LATS在HotPotQA上达到ReAct的2倍性能。


三、多Agent架构详解

3.1 两种组织形式

┌─────────────────────────────────────────────────────────────┐
│ 多Agent架构分类 │
├─────────────────────────┬───────────────────────────────────┤
│ 垂直架构 (Vertical) │ 水平架构 (Horizontal) │
├─────────────────────────┼───────────────────────────────────┤
│ │ │
│ ┌─────────┐ │ ┌─────────┐ │
│ │ Leader │ │ │ Agent A │ │
│ │ (领导) │ │ └────┬────┘ │
│ └────┬────┘ │ │ │
│ │ │ ▼ │
│ ┌─────┴─────┐ │ ┌─────────────────┐ │
│ │ │ │ │ │ Shared Thread │ │
│ ▼ ▼ ▼ │ │ (共享对话) │ │
│ ┌───┐ ┌───┐ ┌───┐ │ └────────┬────────┘ │
│ │ A │ │ B │ │ C │ │ │ │
│ └───┘ └───┘ └───┘ │ ┌──────┴──────┐ │
│ (汇报) (汇报) (汇报) │ ▼ ▼ ▼ │
│ │ Agent A B C (对等) │
├─────────────────────────┼───────────────────────────────────┤
│ 特点: │ 特点: │
│ • 清晰的任务分配 │ • 自由协作讨论 │
│ • 领导决策机制 │ • 动态任务认领 │
│ • 效率高但灵活性低 │ • 适合需要多视角的任务 │
└─────────────────────────┴───────────────────────────────────┘

3.2 领导力的重要性

论文核心发现(来自Guo et al.的研究):

指标无领导团队有领导团队
任务完成时间基准快10%
沟通内容50%在发指令60%领导在发指令
其他Agent行为互相指挥混乱专注信息交换
结论:领导力可以将"混乱的民主"转化为"高效的协作"。

3.3 动态团队:AgentVerse

AgentVerse采用四阶段循环:

┌─────────────────────────────────────────────────────────────┐
│ AgentVerse 四阶段 │
│ │
│ ┌──────────┐ │
│ │ 1.招募 │ ← 根据任务动态调整团队成员 │
│ │Recruitment│ │
│ └────┬─────┘ │
│ ▼ │
│ ┌──────────┐ │
│ │ 2.协作 │ ← 集体决策制定计划 │
│ │Decision │ │
│ └────┬─────┘ │
│ ▼ │
│ ┌──────────┐ │
│ │ 3.执行 │ ← 各Agent独立行动 │
│ │Execution │ │
│ └────┬─────┘ │
│ ▼ │
│ ┌──────────┐ │
│ │ 4.评估 │ ← 评估结果,决定是否继续 │
│ │Evaluation│ │
│ └────┬─────┘ │
│ │ │
│ ▼ │
│ [根据评估结果决定是否回到招募阶段] │
└─────────────────────────────────────────────────────────────┘

3.4 减少闲聊:MetaGPT

问题:多Agent对话容易陷入无意义的闲聊

解决方案

  1. 要求Agent生成结构化输出(文档、图表)而非闲聊
  2. 发布-订阅机制:信息共享但不强制读取

四、关键能力分析

4.1 规划能力(Planning)

论文总结了五大规划方法:

方法描述示例
任务分解将复杂任务拆分为子任务HuggingGPT
多计划选择从多个候选方案中选择ToT
外部模块辅助结合传统规划器LLM+P
反思与优化基于反馈迭代改进Reflexion
记忆增强利用历史信息辅助规划MemGPT

4.2 工具调用(Tool Calling)

工具类型
- RAG检索:获取外部知识
- API调用:与外部系统交互
- 代码执行:Python、SQL等
- 搜索引擎:实时信息查询

调用模式

┌─────────────────────────────────────────────────────────────┐
│ 工具调用模式对比 │
├─────────────────────────┬───────────────────────────────────┤
│ 离线规划 (Offline) │ 在线规划 (Online) │
├─────────────────────────┼───────────────────────────────────┤
│ 预先生成完整计划 │ 边执行边生成计划 │
│ 灵活性低但执行效率高 │ 灵活性高但需要更多交互 │
│ HuggingGPT │ ReAct │
└─────────────────────────┴───────────────────────────────────┘

4.3 记忆机制

记忆类型与功能

记忆类型功能局限
工作记忆当前任务上下文受token限制
情景记忆近期经验易遗忘
语义记忆长期知识可能过时
程序记忆操作流程/工具使用需要更新

五、深度反思:与已学知识的关联

5.1 与ReAct论文的关联

ReAct论文核心(2023年ICLR):
- 推理(Thought)与行动(Action)交替进行
- 解决了一致性幻觉问题(HotpotQA上幻觉率从14%降至6%)

Survey论文对ReAct的评价

方面ReAct论文Survey补充
优势推理-行动交替循环完整思考过程可追溯
局限可能陷入循环缺乏外部反馈机制
改进方向提出思考-动作-观察RAISE增加记忆、Reflexion增加反思
我的理解
- ReAct是"起点",Survey是"全景图"
- ReAct证明了"思考+行动"的有效性
- Survey告诉我们还需要:记忆、反思、领导力

5.2 与Generative Agents论文的关联

Generative Agents核心(斯坦福2023):
- 虚拟小镇中的25个AI Agent
- 记忆流(Memory Stream)+ 反思(Reflection)+ 计划(Planning)

Survey与Generative Agents的对比

维度Generative AgentsSurvey框架
记忆机制记忆流(重要程度+近期性)短/长期记忆分离
反思能力层级反思(当前→相关→整体)Reflexion自我反馈
多Agent水平协作+广播通信垂直+水平混合
关注点人类行为模拟任务完成效率
关键洞察
- Generative Agents模拟"人类社会"
- Survey框架关注"任务执行"
- 两者结合:既有社会性又有目标性

5.3 与EntroCamp课程的关联

EntroCamp L3课程收获

课程核心概念与Survey的关联
记忆与学习L3反馈闭环五步法Survey中的Reflexion机制完全吻合
推理与判断L3MECE拆解+逻辑检查Survey强调的"先规划后执行"
读懂意图L3歧义消解三策略Agent Persona定义避免角色模糊
具体对应

EntroCamp课程                    Survey框架
────────────────────────────────────────────────────
"收到反馈先复述" ←──────→ Reflexion的自我反思
"拆解后判断" ←──────→ 任务分解规划方法
"角色定义要清晰" ←──────→ Agent Persona机制
"批量确认减少来回" ←──────→ MetaGPT的结构化输出


六、架构设计启发:对常思杨的建议

6.1 当前架构评估

基于Survey论文的分析,我对常思杨当前架构的评估:

组件当前状态Survey建议差距分析
Brain LLM核心推理完善的推理-规划-反思机制可增加反思节点
Perception 用户输入理解多模态感知当前以文本为主
Action⚠ 有限工具集丰富的工具调用能力需要扩展工具
Memory⚠ 简单存储分层记忆系统需增加短/长期分离
Planning⚠ 即时响应任务分解+规划可增加预规划阶段
Multi-Agent 缺失根据场景选择看宝项目可能需要

6.2 改进建议

短期改进(立即可执行):

  1. 增加反思节点
   当前:用户输入 → 响应
改进:用户输入 → 思考 → 行动 → 反思 → 确认

  1. 分层记忆机制
   短期记忆(草稿板):当前会话
长期记忆(文件):重要偏好、历史交互
案例记忆(RAG):成功案例复用

  1. 显式任务分解
   复杂任务 → 子任务1 → 子任务2 → 子任务3

中期改进(需要开发):

  1. 看宝项目多Agent考虑
- 主Agent(常思杨):核心对话、任务规划
- 执行Agent:代码执行、文件操作
- 审核Agent:质量检查、反馈生成

  1. 反馈吸收机制
   参考Reflexion:
- 记录用户反馈
- 反思改进点
- 更新行为策略

6.3 针对看宝AI的具体建议

看宝项目架构设计

┌─────────────────────────────────────────────────────────────┐
│ 看宝AI 架构设计 │
│ │
│ ┌─────────────────┐ │
│ │ 看宝主Agent │ ← 常思杨扮演的角色 │
│ │ (Planner) │ │
│ └────────┬────────┘ │
│ │ │
│ ┌─────────────────┼─────────────────┐ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌────────────┐ ┌────────────┐ ┌────────────┐ │
│ │ 执行Agent │ │ 检索Agent │ │ 审核Agent │ │
│ │ (代码/文件) │ │ (RAG/搜索) │ │ (质量检查) │ │
│ └────────────┘ └────────────┘ └────────────┘ │
│ │
│ 能力: │
│ • 任务分解与规划 │
│ • 工具调用(搜索、代码执行) │
│ • 反思与自我改进 │
│ • 人类反馈吸收 │
└─────────────────────────────────────────────────────────────┘


七、架构对比总结

7.1 三大论文架构对比

维度ReActGenerative AgentsSurvey框架
核心循环Thought→Action→ObsPerception→Reflection→PlanningBrain-Perception-Action
记忆机制隐式(上下文)显式(记忆流)分层(短/长期)
规划方式即时反应层级计划多种方法组合
多Agent单Agent水平协作垂直+水平
适用场景问答、推理社会模拟通用任务

7.2 核心规律总结

从Survey论文中提炼的核心规律:

┌─────────────────────────────────────────────────────────────┐
│ 高效Agent系统的六大要素 │
│ │
│ 1 清晰的角色定义(Agent Persona) │
│ → 避免能力幻觉,专注本职工作 │
│ │
│ 2 规划-执行-评估循环(Plan-Execute-Evaluate) │
│ → 复杂任务的必经之路 │
│ │
│ 3 反馈与反思机制(Feedback & Reflection) │
│ → 从错误中学习,避免"雪球效应" │
│ │
│ 4 记忆增强(Memory Augmentation) │
│ → 短期记忆处理上下文,长期记忆复用经验 │
│ │
│ 5 适当的领导力(Leadership) │
│ → 多Agent时明确分工,减少混乱 │
│ │
│ 6 智能信息过滤(Intelligent Filtering) │
│ → 避免无关信息干扰,专注核心任务 │
│ │
└─────────────────────────────────────────────────────────────┘


八、论文局限与未来方向

8.1 论文承认的局限

局限领域具体问题
评估困难Agent评估标准不统一,手工评分有偏见
数据污染基准测试可能被污染,模型"背答案"
泛化能力基准性能≠真实世界性能
偏见问题Agent可能放大LLM的偏见

8.2 未来研究方向

  1. 动态基准:能抵抗记忆化的评估方法
  2. 真实场景测试:超越逻辑谜题,验证实际任务
  3. 偏见治理:在Agent系统中检测和缓解偏见
  4. 混合架构:单Agent与多Agent的动态切换

九、我的行为准则(更新)

基于Survey论文学习,更新以下行为准则:

准则1:先规划后行动

触发条件:收到复杂任务(涉及多个步骤)
执行步骤:
1. 分解任务为子任务
2. 确定执行顺序
3. 逐个完成并评估
4. 必要时回溯调整

准则2:增加反思节点

触发条件:完成任务后
执行步骤:
1. 回顾执行过程
2. 识别可以改进的点
3. 记录为经验教训
4. 更新记忆库

准则3:角色边界意识

触发条件:开始新任务或切换上下文
执行步骤:
1. 明确当前角色定位
2. 只使用该角色的能力
3. 拒绝超出范围的任务
4. 请求明确定义如果模糊

准则4:反馈主动吸收

触发条件:收到用户反馈
执行步骤:
1. 复述确认理解(EntroCamp方法)
2. 区分是一次性还是永久偏好
3. 永久偏好写入记忆
4. 下一轮主动应用新偏好

准则5:看宝项目架构原则

设计原则:
1. 主Agent负责任务规划与协调
2. 执行Agent负责具体操作
3. 保持信息流清晰,避免无效闲聊
4. 定期评估执行效果,动态调整


十、核心要点速记

┌─────────────────────────────────────────────────────────────┐
│ Survey论文核心要点 │
│ │
Agent = Brain(推理) + Perception(感知) + Action(行动) │
│ │
单Agent适合:明确任务、简单工具、少量反馈 │
│ │
多Agent适合:复杂任务、多视角、需要协作 │
│ │
领导力是关键:减少混乱,提高效率10% │
│ │
反馈闭环:规划→执行→评估→反思→改进 │
│ │
记忆分层:短期(上下文) + 长期(经验) │
│ │
工具调用:扩展能力边界,与外部世界交互 │
│ │
自我反思:从错误中学习(Reflexion启示) │
│ │
└─────────────────────────────────────────────────────────────┘


学习完成时间:2026-04-10 笔记作者:常思杨 下一步:将行为准则更新到MEMORY.md