> - 类型:AI开发者大会实录与深度分析
> - 来源:36氪、量子位、AI科技大本营、VibeCoder等多源整合
> - 链接:
> - https://36kr.com/p/3807022326619650(36氪全程实录)
> - https://blog.csdn.net/Paid_AI_circle/article/details/160984641(技术详解)
> - http://m.toutiao.com/group/7639160347265434150(深度解读)
> - http://m.toutiao.com/group/7639428963839918644(行业分析)
> - 作者:综合整理
> - 平台:Anthropic / 36氪 / CSDN / 头条
> - 时间:2026年5月6日-17日
> - 完成时间:2026年05月17日
---
🎯 核心收获
---
📖 正文内容
一、大会背景:AI编程进入工程系统阶段
2026年5月6日,Anthropic在旧金山举办第二届开发者大会 "Code w/ Claude SF 2026"。这场大会释放的信号比功能发布更明确:AI Coding正在从工具能力,进入工程系统阶段。
大会的核心主题只有一个:AI模型的能力正在呈"指数级"增长,但大多数企业的开发模式仍停留在"线性"阶段。为了弥合这道鸿沟,Anthropic祭出了三大杀手锏:
1. 更强的底层模型(Claude Opus 4.7)
2. 全新的Claude Platform代理编排能力
3. 彻底颠覆日常开发的Claude Code桌面端
1.1 算力基础:SpaceX合作解决后顾之忧
Anthropic与SpaceX达成算力合作,租用Colossus 1数据中心全部算力,带来:
- **超过300兆瓦新增容量**
- **等效22万块英伟达GPU**
- **一个月内上线**
直接用户收益:
- Claude Code服务时长限制从5小时→**10小时**
- **取消高峰时段使用限制**
- **大幅提高Claude Opus模型的API请求上限**
---
二、Stripe案例:效率提升17.5倍的降维打击
大会开篇,Anthropic CEO Dario Amodei分享了Stripe的震撼案例:
任务:5万行Scala代码转Java(JDK升级)
- **传统估算**:工程师需要整整**10周**
- **Claude介入后**:实际只花了**4天**
- **效率提升**:**17.5倍**
这并非孤例。Stripe内部的自动化代码代理系统 Minions:
- **每周生成并推动超过1300个PR合并**
- 代码全程由AI生成,仅经人工审核
Stripe开发基础设施负责人Scott MacVicar分享时表示:*"我们正在见证软件工程史上最大的一次范式转移。"*
---
三、Claude Code:从CLI到全链路开发工作台
Claude Code的本质是一个代理式(Agentic)编码环境,它从"问答工具"演变为"终端里的特种兵"。
3.1 核心能力闭环
当开发者下达指令时,Claude Code会自动执行闭环流程:
指令 → 读取文件 → 检索配置 → 直接修改 → 运行测试 → 自我修复
这种全自动能力,使其更像一个"手速极快的工程师",而非被动应答的助手。
3.2 三大执行界面
Claude Code已从CLI起步,扩展到三个执行界面:
3.3 Routines:异步开发流
Claude Code的云端session可以被schedule、API和GitHub event触发。演示中,/create-pr 之后能继续监听CI,失败时自动修复,还能处理review comments。
这改变了开发者与PR的关系:
- **过去**:同步工具(我说需求,它改代码,我看diff)
- **未来**:异步任务队列(我定义目标、边界、权限和验收标准,agent在后台跑,完成后给我PR)
---
四、Claude Managed Agents:三件套全面升级
Anthropic推出 Claude托管智能体(Managed Agents) 的三项重大新特性:
4.1 Multi-agent Orchestration(多智能体编排)
核心架构:Commander + N Workers
Commander(指挥官)
│
├── Worker A(探测员)
│ └── 独立上下文窗口
│
├── Worker B(领航员)
│ └── 独立上下文窗口
│
└── Worker C(评估员)
└── 独立上下文窗口
工作原理:
- Commander负责任务分解和结果汇总
- 每个Worker有独立上下文,互不干扰
- Worker可以配备不同的模型和工具
典型应用:
- Netflix用它做故障排查,子智能体分别负责部署历史、错误日志等维度分析
- Stripe用它做代码迁移,并行处理多个模块
4.2 Outcomes(目标导向)
核心创新:Eval从发布前指标表,变成运行时控制结构
工作流程:
1. 开发者编写Markdown格式的验收标准(rubric)
2. 独立Grader在专属上下文窗口评估Agent输出
3. Agent根据评估结果返工,直到达标
配置示例:
## 成功条件
- [ ] 无人机必须软着陆(冲击加速度 < 2G)
- [ ] 着陆点地势必须平坦(坡度 < 5度)
- [ ] 必须保留足够返程燃料(> 30%)
性能数据:
4.3 Dreaming(模型造梦)
核心突破:AI拥有了自主学习能力
工作原理:
- 主任务负责解决问题
- 后台任务负责整理经验
- 在空闲时回顾历史会话,把重复错误、有效流程、团队偏好沉淀成更有用的memory
实际效果:
- 自动发现登月无人机演示中的能源管理漏洞
- 生成playbook.md指导后续任务
- 任务完成率显著提升
Memory的工程化设计:
Managed Agents把memory变成一种可读写、可整理、可治理的数据层:
- 支持权限范围
- 乐观并发控制
- 版本历史
- 团队知识沉淀(known issues、recent incidents、triage log等)
---
五、Advisor Tool:成本降低5倍的智能组合
Anthropic推出导师策略(Advisor strategy),实现"执行"与"指导"的分离:
架构:
- **执行层**:Haiku/Sonnet(成本低,干体力活)
- **指导层**:Opus(大模型在背后坐镇,一语道破)
效果:
- Sonnet表现远超单兵作战
- **整个流程成本比单独跑Sonnet还便宜**
- Eve Legal用它做到**1/5成本,前沿大模型质量**
适用场景:
- 免费增值(Freemium)商业模式
- 高并发、低ROI场景
- 快速迭代原型
---
六、Datadog案例:Policy Gates生产级安全
Datadog分享了如何给Claude Code建一个 universal machine tool,核心是 Policy Gates:
Policy Gates架构
Agent请求动作 → Policy判断权限 → 状态机判断状态 → 工具执行副作用 → 事件日志审计
关键设计:
- Agent不直接拿全能token
- 动作必须声明,由Policy决定能否执行
- 状态机判断当前状态是否允许动作
- 工具执行具体副作用
- 事件日志负责审计和回放
这就是生产系统需要的agent边界。不能只靠prompt写一句"请谨慎操作"。
---
七、行业影响:从"手艺活"到"指挥活"
7.1 范式转移
Dario Amodei指出:
> "团队正用Claude加速自身开发,在模型能力提升下,可以写出两倍、四倍、五倍数量的代码。"
编程产品的发展轨迹表明,当模型能力沿指数曲线突破时,原本不可行的产品会"被点亮"。
7.2 开发者角色转变
Claude Code正在把编程从"手艺活"变成"指挥活":
7.3 企业采纳数据
- Anthropic年化收入:**300亿美元**
- 企业客户:**突破1000家**
- Claude平台API调用量同比增长:**近17倍**
- 开发者平均每周使用Claude:**20小时**
---
八、竞争格局:四大玩家分化
从大会和Playlist来看,几个玩家的方向已经开始分化:
选型建议:
单次任务成功率只是入口指标。更应该看:
- 能不能接入真实repo
- 能不能跑CI
- 能不能管理memory
- 能不能定义outcome
- 能不能限制权限
- 能不能留下审计链路
- 能不能在云端长时间运行
---
九、技术启示:Harness架构的核心价值
9.1 模型 vs Harness
> "模型决定了Agent的能力上限,harness决定了Agent能发挥出多少。"
2026年的竞争格局,两者缺一不可,但harness的投资回报率当前远高于模型本身。
9.2 Harness八组件
Claude Code的Harness包含八大组件:
9.3 进阶路线
---
十、未来展望
10.1 三个确定趋势
1. Eval成为运行时控制:从发布前指标表,变成运行时控制结构
2. 异步开发成为默认:开发者与PR的关系从同步变为异步
3. Memory成为数据层:团队知识可读写、可治理、可版本控制
10.2 关键判断
> "以后讨论AI Coding,不能只问它会不会写代码。更要问它能不能持续工作,能不能被评估,能不能被约束,出了问题能不能追回来。"
10.3 下一个爆点
Anthropic正在攻克的目标:
- 更高阶的判断力和更卓越的代码品味
- 深不见底的上下文窗口 + 高质量记忆库
- 多智能体协同,驱动Claude分身协作团队
---
🔗 相关链接
官方资源
- [Code w/ Claude 2026 YouTube Playlist](https://www.youtube.com)(19个视频完整回顾)
- [Claude Code官方文档](https://docs.anthropic.com)
- [Claude Platform托管智能体](https://www.anthropic.com/platform/managed-agents)
技术解读
- [Claude Code 2026最新版技术详解](https://blog.csdn.net/Paid_AI_circle/article/details/160984641)
- [Harness架构深度解析](https://devpress.csdn.net/v1/article/detail/159681983)
- [Claude Code + Harness工程级架构分析](https://devpress.csdn.net/v1/article/detail/160097519)
行业分析
- [AI Agent 2026技术进展:从工具调用到自主决策](https://blog.csdn.net/qq_39914918/article/details/160878221)
- [Claude Opus 4.7发布详解](https://blog.csdn.net/chen695969/article/details/160382988)
- [Code w/ Claude 2026:Agent开始工程化](http://m.toutiao.com/group/7639160347265434150)
---
💭 思考与实践
对老常的启发
1. 看宝AI的Agent化改造
- 当前任务执行模式可以借鉴Outcomes机制
- 定义清晰的成功标准,让Agent自主迭代
- 关键问题:如何评估任务完成质量?
2. Memory系统的工程化
- 当前记忆文件(MEMORY.md)需要升级
- 引入权限控制和版本历史
- 团队知识结构化存储
3. 异步任务流的引入
- 很多任务不需要即时响应
- 可以后台执行,完成后通知
- 与飞书/邮件通知集成
4. 竞争格局监控
- Claude Code vs Cursor vs Replit的分化
- 对看宝AI的定位启示
- 差异化方向思考
下一步行动
- [ ] 深入研究Claude Code的Memory设计
- [ ] 探索Outcomes评估机制的本地实现
- [ ] 考虑异步任务流在知识库更新中的应用
- [ ] 跟进Claude Code Desktop的正式发布
---
📊 信息卡片
{
"主题": "Code w/ Claude 2026 Anthropic开发者大会",
"日期": "2026-05-06",
"地点": "旧金山",
"核心发布": [
"Claude Code 5h→10h扩容",
"Multi-agent Orchestration",
"Outcomes目标导向",
"Dreaming自主学习",
"Advisor Tool智能组合"
],
"标杆案例": "Stripe: 5万行代码10周→4天",
"行业信号": "AI Coding进入工程系统阶段",
"角色转变": "手艺活→指挥活",
"评估方式": "单次成功率→持续工作+可评估+可约束+可追回"
}