一、问题背景:AI Agent的"记忆困境"
1.1 传统记忆方案的三大短板
在AI Agent执行长周期任务时,传统记忆方案暴露三个核心问题:
| 问题类型 | 具体表现 | 影响 |
| --------- | --------- | ------ |
| **跨会话断裂** | 昨天确认的代码规范,今天新会话全忘了 | 重复沟通,效率下降 |
| **事实与偏好混淆** | "我用TypeScript"和"帮我查天气"被同等对待 | 关键信息被淹没 |
| **上下文膨胀** | 任务越长,历史垃圾信息越多,Token成本越高 | 成本激增,注意力分散 |
1.2 上下文膨胀的量化影响
任务长度 (工具调用次数)
├── 5次: 上下文≈20K tokens → 可接受
├── 10次: 上下文≈50K tokens → 开始压缩
├── 20次: 上下文≈120K tokens → 严重膨胀
└── 50次+: 上下文≈300K+ tokens → 成本失控,任务迷失
核心洞察:长任务里最危险的事,不是信息丢了,是Agent不知道自己走到哪了。
---
二、技术架构:四层渐进式记忆系统
2.1 分层架构图示
┌─────────────────────────────────────────────────────────────┐
│ TencentDB Agent Memory │
├─────────────────────────────────────────────────────────────┤
│ ┌─────────┐ │
│ │ L3 │ 用户画像层 (User Persona) │
│ │画像沉淀 │ ← 长期稳定特征:偏好、行业、习惯 │
│ └────┬────┘ │
│ │ 蒸馏 │
│ ┌────┴────┐ │
│ │ L2 │ 场景归纳层 (Scenario Aggregation) │
│ │场景聚合 │ ← 同任务原子记忆聚合:竞品分析、代码开发... │
│ └────┬────┘ │
│ │ 提取 │
│ ┌────┴────┐ │
│ │ L1 │ 原子记忆层 (Atomic Memory) │
│ │事实提取 │ ← 关键事实、偏好、约束、阶段结论 │
│ └────┬────┘ │
│ │ 存档 │
│ ┌────┴────┐ │
│ │ L0 │ 原始对话层 (Raw Conversation) │
│ │全量备份 │ ← 不可篡改的完整记录,保证可追溯 │
│ └─────────┘ │
└─────────────────────────────────────────────────────────────┘
2.2 各层职责详解
L0 - 原始对话层(地下室档案库)
- 职责: 全量保留每一轮交互的原始数据
- 格式: 结构化日志文件
- 特点: 不可篡改,作为"证据"存档
- 触发: 实时写入,每次工具调用后自动存档
L1 - 原子记忆层(结构化仓库)
- 职责: 自动提取关键信息,转化为结构化记忆单元
- 提取内容:
- facts: 关键事实
- preferences: 用户偏好
- constraints: 任务约束
- conclusions: 阶段结论
- 格式: JSON/YAML结构化输出
- 特点: 高密度、可索引
L2 - 场景归纳层(任务项目组)
- 职责: 按任务类型自动聚合相关原子记忆
- 聚合逻辑: 同一任务ID下的所有相关记忆
- 示例:
- 竞品分析-20260515
- 代码重构-session-001
- 财报研究-A公司
- 特点: 支持任务间的清晰切换
L3 - 用户画像层(个人名片)
- 职责: 持续蒸馏用户的长期稳定特征
- 画像内容:
- 技术栈偏好(TypeScript/Python)
- 行业背景(财税、医疗)
- 工作习惯(报告格式、沟通风格)
- 特点: 跨会话累积,越用越懂用户
2.3 层间数据流动
L0 (原文)
↓ 提取
L1 (原子记忆)
↓ 聚合
L2 (场景)
↓ 蒸馏
L3 (画像)
每一层只做一件事,层与层之间通过 提取-聚合-蒸馏 管道连接,任何一层都可以独立升级或替换。
---
三、核心创新:双引擎压缩技术
3.1 上下文卸载(Context Offloading)
核心思想: 把详细资料存进档案室,只在工作台保留摘要。
┌─────────────────────────────────────────────────────────────┐
│ 上下文卸载工作流 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 工具调用返回 (如网页搜索) │
│ │ │
│ ▼ │
│ ┌─────────────┐ 原文 ┌─────────────┐ │
│ │ 外部文件 │ ◄───────── │ 原始结果 │ (1200+ tokens) │
│ │ (档案室) │ └─────────────┘ │
│ └─────────────┘ │
│ │ │
│ │ 索引 │
│ ▼ │
│ ┌─────────────┐ 摘要 ┌─────────────┐ │
│ │ 上下文 │ ──────────► │ 一行摘要 │ (50 tokens) │
│ │ (工作台) │ │ + 档案编号 │ │
│ └─────────────┘ └─────────────┘ │
│ │
│ 📊 压缩效果: 1200+ tokens → 50 tokens (↓95.8%) │
└─────────────────────────────────────────────────────────────┘
技术细节:
- 存硬盘: 完整原始结果自动存入外部文件系统
- 留内存: 上下文只保留一行高密度摘要和索引路径
- 按需取用: AI需要追溯细节时,通过索引快速调取原文
3.2 Mermaid任务画布(无限画布)
核心思想: 给AI一张可视化"作战地图",而非流水账。
┌─────────────────────────────────────────────────────────────┐
│ Mermaid 任务地图 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ │
│ │ 开始任务 │ │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 🔍 搜索A公司 │ ─── done ✓ │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 🔍 搜索B公司 │ ─── done ✓ │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 📊 搜索C公司 │ ─── doing 🔄 │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 📝 汇总分析 │ ─── todo ⏳ │
│ └──────────────┘ │
│ │
│ 📊 信息密度: 1张图 ≈ 3-5段文字描述 │
└─────────────────────────────────────────────────────────────┘
折叠/展开策略:
- 当前任务: 地图全展开,完整视图
- 已完成任务: 折叠成一行摘要
- 任务切换: 清晰导航,不会混淆
优势:
1. 节点间箭头代表因果关系
2. done/doing/todo 三状态词替代冗长进度汇报
3. AI和人都能一眼看懂全局进展
3.3 三级水位自动触发
| 水位级别 | 触发条件 | 压缩方式 | 执行时机 |
| --------- | --------- | --------- | --------- |
| **L1** | Token占用 > 50% | 摘要实时压缩 | 同步执行 |
| **L2** | Token占用 > 70% | Mermaid地图异步生成 | 异步执行 |
| **L3** | Token占用 > 85% | 深度压缩同步完成 | 同步执行 |
---
四、Benchmark数据
4.1 核心性能指标
| 记忆能力 | Benchmark | 原始成功率 | 加插件后 | 变化 | 原始Token | 加插件后 | 变化 |
|---|---|---|---|---|---|---|---|
| --------- | ----------- | ----------- | --------- | ------ | ---------- | --------- | ------ |
| **短期记忆** | WideSearch | 33% | 50% | **+51.52%** | 221.31M | 85.64M | **-61.38%** |
| **短期记忆** | SWE-bench | 58.4% | 64.2% | +9.93% | 3474.1M | 2375.4M | -33.09% |
| **短期记忆** | AA-LCR | 44% | 47.5% | +7.95% | 112.0M | 77.3M | -30.98% |
| **长期记忆** | PersonaMem | 48% | 76% | **+59%** | — | — | — |
4.2 场景覆盖
| 场景 | 测试规模 | Token降低 | 任务完成率提升 |
| ----- | --------- | ----------- | --------------- |
| 网页搜索 (WideSearch) | 长任务 | 61.38% | 51.52% |
| 代码生成 (SWE-bench) | 1540题 | 33.09% | 9.93% |
| 文章分析 (AA-LCR) | 多场景 | 30.98% | 7.95% |
| 用户画像 (PersonaMem) | 6462上下文 | — | 59% |
4.3 实际落地案例
| 客户 | 场景 | 效果 |
| ----- | ------ | ------ |
| **慧算账** | 财税SaaS AI助理 | 人均服务企业 300→400-500家,效率提升50% |
| **和仁科技** | 医院HIS系统 | 故障响应时间 小时级→分钟级 |
---
五、集成方案
5.1 OpenClaw集成(一行安装)
# 安装插件
openclaw plugin install agent-memory
# 或通过npm
npm install @tencentdb-agent-memory/memory-tencentdb
5.2 Hermes Gateway Docker部署
# 拉取镜像
docker pull tencentdb/agent-memory:latest
# 启动服务
docker run -d \
-p 3000:3000 \
-v ./memory-data:/data \
tencentdb/agent-memory:latest
5.3 存储选项
| 版本 | 存储方式 | 适用场景 | 特点 |
| ----- | --------- | --------- | ------ |
| **基础版** | 本地SQLite | 个人/小团队 | 零配置,人类可读 |
| **Pro版** | Tencent Cloud VectorDB | 企业级 | 双路检索 + 备份回档 |
---
六、与同类方案对比
6.1 主流Agent Memory方案对比
| 维度 | TencentDB | Coze | Dify | Flowise |
| ----- | ---------- | ------ | ------ | --------- |
| **长期记忆** | L0-L3四层架构 | 基础 | 知识库融合 | 知识库融合 |
| **短期记忆压缩** | 上下文卸载+Mermaid | 摘要压缩 | 简单摘要 | 基础 |
| **Token节省** | 最高61.38% | — | — | — |
| **用户画像准确率** | 48%→76% (+59%) | — | — | — |
| **企业级特性** | 备份回档+权限控制 | 平台统一 | 需额外投入 | 需额外投入 |
| **开源程度** | MIT全开源 | 部分开源 | 开源 | 开源 |
| **OpenClaw集成** | 原生支持 | 插件支持 | API集成 | API集成 |
6.2 核心优势总结
1. 分层架构更清晰: L0-L3各司其职,任何一层可独立升级
2. 双引擎压缩更高效: 上下文卸载(↓95%) + Mermaid地图(3-5倍密度)
3. 企业级可观测: 备份回档、权限控制、全链路追踪
4. 零门槛接入: OpenClaw/Hermes一行命令安装
---
七、实践建议
7.1 何时使用
✅ 推荐使用:
- 长周期任务(>10次工具调用)
- 跨会话连续性要求高
- 成本敏感的生产环境
- 需要累积用户偏好的场景
❌ 可暂缓:
- 短对话(<5轮)
- 单次任务无需跨会话
- 已有成熟记忆方案
7.2 最佳实践
# 推荐配置
memory:
# 短期记忆
short_term:
offload_threshold: 0.5 # 50%上下文时卸载
mermaid_enabled: true # 启用任务画布
summary_style: structured # 结构化摘要
# 长期记忆
long_term:
layers: [L0, L1, L2, L3] # 全量启用
persona_update_interval: 10 # 每10次会话更新画像
vector_search: true # 启用向量检索
# 存储
storage:
backend: sqlite # 开发环境
# backend: vector_db # 生产环境
---
八、思考与实践
8.1 核心洞察
从"单次对话"到"持续协作"的认知转变
TencentDB Agent Memory的价值不仅在于一个工具,更传递了一个信号:
AI Agent的能力评估,正从"单次对话的聪明程度",转向"长周期任务的协同效率"。
当AI学会了"忘记"无关信息、记住了关键经验,它才真正从需要反复提示的"实习生",成长为可以持续协作、积累智慧的"业务伙伴"。
8.2 对看宝AI的启发
结合之前学习的一人公司SOP和Agent架构:
1. 记忆分层与一人公司SOP Phase1呼应:
- L0-L3分层设计 ≈ Layer0-3四层记忆架构
- 可借鉴用于看宝AI的记忆系统升级
2. Token节省的实际价值:
- 61.38% Token降低 ≈ 成本降低,响应更快
- 对于主人的Agent使用成本有直接影响
3. Mermaid任务地图的创新:
- 比纯文本摘要更直观
- 可用于看宝AI的任务状态可视化
8.3 下一步行动
- [ ] 在本地测试TencentDB Agent Memory与OpenClaw的集成
- [ ] 评估是否将分层记忆架构引入看宝AI的记忆系统
- [ ] 跟踪Pro版本的腾讯云向量数据库集成方案
---
九、相关链接
| 资源 | 链接 |
| ----- | ------ |
| GitHub仓库 | https://github.com/Tencent/TencentDB-Agent-Memory |
| 腾讯云产品页 | https://cloud.tencent.com/product/agm |
| npm包 | https://www.npmjs.com/package/@tencentdb-agent-memory/memory-tencentdb |
| PersonaMem评测集 | https://github.com/bowen-upenn/PersonaMem |
| OpenClaw | https://github.com/openclaw/openclaw |
| Hermes Agent | https://github.com/NousResearch/hermes-agent |
---
十、术语表
| 英文 | 中文 | 说明 |
| ----- | ------ | ------ |
| Context Offloading | 上下文卸载 | 将详细资料从上下文移到外部存储 |
| Mermaid Canvas | Mermaid画布 | 用Mermaid语法可视化任务拓扑 |
| Persona Memory | 用户画像记忆 | 跨会话累积用户偏好和特征 |
| Tiered Memory | 分层记忆 | 按信息密度分层的记忆架构 |
| Token Compression | Token压缩 | 减少上下文中的Token消耗 |
| Observation Log | 观察日志 | 压缩对话历史而非累积原文 |
---
📅 学习时间: 2026-05-15
📝 笔记编号: tech-ai-203
🏷️ 标签: AI Agent, Memory, OpenClaw, TencentDB, Token优化, 长期记忆