"帮我分析一下这个数据。"
"给我写一段 PRD。"
"总结一下这篇文章。"
`
Agent进入浏览器后的指令:
`
"帮我检查这 5 个页面有没有表单报错。"
"把竞品官网的价格页整理成表格。"
"登录后台,看一下昨天转化率下降是不是某个渠道导致的。"
"打开 CRM,把本周未跟进客户筛出来,并生成跟进建议。"
`
三个根本性变化:
| 变化 | 传统问答 | 浏览器代办 |
|------|----------|------------|
| 任务形式 | 单轮生成 | 多步执行(理解→拆解→访问→读取→处理→汇报) |
| 界面定位 | 给人看 | 给Agent可理解的操作空间 |
| 结果形式 | 答案 | 过程+证据+可回退动作 |
3. 五大核心应用场景
第一类:重复、低风险、跨页面操作
网页测试
竞品信息收集
后台巡检
数据录入
表单核对
订单状态检查
第二类:需要登录态的业务分析
对比埋点后台、客服工单和用户反馈
找出某个版本上线后的异常
在授权范围内自己进入系统查找线索
第三类:开发和产品协作
Codex Chrome扩展核心场景:测试Web应用
打开页面、观察交互、查看DevTools
跨标签并行工作
AI参与验证、复现问题、检查前端表现
4. "委托设计"五要素
第一要素:任务边界
用户要知道Agent这次能做什么、不能做什么
"只读页面"
"可以填写表单但不能提交"
"可以创建草稿但不能发送"
第二要素:权限授权
不是给了浏览器权限就万事大吉,而是要细到:
站点级别
账号级别
动作类型
时间范围
第三要素:过程可见
Agent不能像黑盒一样默默操作
用户需要看到它正在访问哪个页面
准备做什么
遇到了什么判断点
低风险步骤可以自动执行
高风险步骤必须暂停确认
第四要素:结果可验证
Agent完成任务后,不能只说"已完成",应该给出:
操作摘要
关键证据
数据来源
失败项
下一步建议
企业场景里,审计日志会成为标配
第五要素:异常恢复
真实网页充满变化:
按钮位置变了
登录过期了
弹窗挡住了
接口报错了
权限不足了
Agent产品必须设计"卡住时怎么办"
5. 风险治理框架
五类核心风险:
| 风险类型 | 描述 |
|----------|------|
| 误操作 | 点错按钮、提交错误信息、覆盖数据 |
| 越权访问 | 读取不该看的页面或系统 |
| 数据泄露 | 把内部信息带到外部服务 |
| 责任不清 | 出了问题不知道是用户、Agent还是系统的问题 |
| 审计困难 | 只看到结果,看不到执行过程和意图 |
OpenAI Codex 安全实践五大机制:
| 机制 | 作用 |
|------|------|
| 沙箱 | 限制写入范围 |
| 审批机制 | 区分低风险和高风险动作 |
| 网络策略 | 限制可访问域名 |
| 身份凭证管理 | 企业身份体系 |
| Agent原生日志 | 记录用户请求、工具调用、审批决策、执行结果 |
🔍 技术生态动态
1. Coder Agents 发布 Beta
定位:企业级自托管Agent解决方案
核心特点:
完全在客户基础设施上运行
不发送源代码、prompts或模型交互
整个Agent系统(包括控制平面、编排、执行)运行在客户拥有的基础设施上
支持集中治理和安全可扩展的开发
数据:70%的企业在部署Agent的基础设施从未被设计用来支持它们
2. Opsera + Cursor 合作
定位:将DevSecOps Agents嵌入Cursor IDE
三大核心Agent:
Architecture Analyzer:验证AI生成的代码是否符合企业设计模式和架构标准
Security and SQL Scanner:使用高级静态分析识别风险,防止在创建时数据泄露
Compliance Auditor:自动化收集SOC 2、HIPAA、PCI-DSS和GDPR的证据
价值:从第一行代码开始,安全性、合规性和架构护栏就内置到Cursor工作流中
3. Prismatic Skills for Claude Code
定位:让Claude Code能构建和运营集成
五大Skill:
CNI Builder:使用自定义组件和现有连接器构建或修改代码原生集成
Component Builder:为需要连接的API构建自定义组件
Embed Advisor:通过嵌入式市场或自定义UI帮助启动面向客户的集成体验
Orby:监控和运营环境,包括日志、故障排除和更新
Migration Analyzer:帮助将现有集成迁移到Prismatic
💭 思考与实践
对看宝AI的启发
知识库交互升级
- 传统:用户通过搜索/导航找到笔记
- 新范式:用户可以委托Agent"帮我检查知识库有没有关于XXX的笔记",Agent直接帮你整理
"委托设计"思维
- 看宝AI现在的交互主要是问答
- 未来可以考虑:任务边界清晰化、执行过程可视化、结果可验证
记忆系统的"异常恢复"
- 当Agent"卡住"时(如找不到记忆),如何优雅地恢复?
- 如何让用户知道Agent"在做什么"?
对AI产品的五点启示
未来产品不只服务人,也要服务Agent
- 页面结构、按钮语义、错误提示、API可用性、权限模型
- 都会影响Agent的执行质量
后台产品的"可操作性"变成新竞争力
- 过去:好看、易用、少点击
- 未来:任务可拆解、状态可观察、动作可审计
AI功能不一定要做成聊天框
- 更自然的入口可能是"帮我完成这批操作""帮我检查这个流程""帮我找出异常"
- 嵌入任务流,而不是悬浮在页面角落
权限和审计要前置设计
- 不要等Agent能力上线后再补安全方案
- 只要AI能进入真实业务系统,权限、日志、确认、回滚就应该和核心功能一起设计
从"设计工具"转向"设计协作关系"
- 未来用户不是单独操作产品,而是和Agent一起操作产品
- 定义:人负责什么、AI负责什么、什么时候自动、什么时候确认、什么时候交还控制权
📖 正文内容
一、为什么浏览器成为Agent的天然工作台
对大多数知识工作者来说,浏览器已经不是"上网工具",而是工作系统的外壳。
典型工作场景:
销售在浏览器里用 CRM
运营在浏览器里看后台
产品经理在浏览器里查数据、写文档、看埋点、开需求系统
客服在浏览器里处理工单
财务、人事、法务也越来越多地依赖 SaaS 系统
过去AI Agent最大的问题,不是不会思考,而是"够不到现场"。它能告诉你怎么分析用户反馈,但进不了工单系统;能帮你写SQL思路,但看不到BI看板;能生成测试用例,但无法真的打开网页点一遍。
浏览器扩展把这个断点补上了。
一旦Agent能在用户授权下进入浏览器,它获得的就不是一个网页,而是一整套真实工作流:
已登录的业务系统
多标签页中的上下文
页面状态、按钮、表单和报错
DevTools、控制台、网络请求
企业内部工具和第三方SaaS
这意味着,AI产品的交互对象从"文本"扩展到了"界面"和"流程"。
这也是为什么浏览器会成为Agent的天然工作台。因为它既承载了用户的真实任务,也保留了足够多的可观察、可控制、可回退的界面结构。
二、任务边界的精确设计
"委托设计"的本质是让用户能够放心地把一件事交给AI,同时仍然保留必要的控制权。
任务边界设计要回答的问题:
这次能做什么?
不能做什么?
如果遇到边界情况怎么办?
常见的边界类型:
读/写边界:只读页面 vs 可以修改数据
提交边界:可以填写表单 vs 可以提交
范围边界:只操作这个系统 vs 可以跨系统
权限边界:当前登录用户 vs 管理员权限
好的边界设计例子:
`
"帮我检查这5个页面有没有表单报错" → 只读,自动执行
"帮我整理竞品价格" → 只读,自动执行
"帮我给客户发邮件" → 需要确认草稿
"帮我修改订单状态" → 需要二次确认
"帮我删除数据" → 禁止执行
`
三、过程可见性的设计哲学
传统AI的问题:黑盒执行,用户只能看到输入和输出,不知道中间发生了什么。
过程可见性的四个层次:
| 层次 | 用户看到 | Agent行为 |
|------|----------|-----------|
| L1 | 正在访问页面A | 截图/日志 |
| L2 | 准备填写表单 | 展示即将操作的内容 |
| L3 | 遇到判断点,需要确认 | 暂停,等待用户决策 |
| L4 | 操作完成,给出证据 | 展示做了什么、结果如何 |
设计原则:
低风险步骤 → 自动执行,用户可在日志中查看
高风险步骤 → 必须暂停确认,不能自动执行
异常情况 → 主动报告,不要默默失败
四、企业级Agent的五大技术支柱
1. 沙箱隔离
限制Agent的写入范围
防止误操作影响生产环境
典型实现:容器化、只读文件系统、临时存储
2. 审批机制
区分低风险和高风险动作
低风险:自动执行
高风险:触发审批流程
审批可以是:用户确认、系统规则、监管要求
3. 网络策略
限制Agent可访问的域名/IP
白名单模式:只允许访问明确授权的地址
防止Agent访问恶意网站或泄露数据
4. 身份凭证管理
企业级身份体系
Agent操作要有明确的身份标识
凭证不能明文存储,使用临时token
5. 审计日志
记录完整操作链路
用户请求 → 工具调用 → 审批决策 → 执行结果
支持追溯和合规要求
五、从"功能设计"到"治理设计"
Agent产品的底层逻辑演变:
| 维度 | 传统功能设计 | Agent治理设计 |
|------|--------------|---------------|
| 核心问题 | 能做什么? | 怎样安全地做事? |
| 风险处理 | 功能上线后补充 | 与核心功能一起设计 |
| 用户关系 | 人操作工具 | 人委托AI做事 |
| 成功标准 | 功能完成度 | 功能+安全+可控 |
治理设计的四个原则:
纵深防御:多层安全机制,一层失效不影响整体
最小权限:Agent只应有完成任务的最小权限
可观测性:所有操作可记录、可追溯、可审计
可控回退:任何操作都可撤销或回退
六、对产品经理的实践建议
1. 建立"Agent兼容性"检查清单
| 检查项 | 好 | 差 |
|--------|-----|-----|
| 按钮语义 | "保存"明确表示保存 | 图标按钮无文字 |
| 页面结构 | 层级清晰,可程序化遍历 | 大量动态加载、延迟渲染 |
| 错误提示 | 明确告知哪里错了 | "操作失败,请重试" |
| API可用性 | RESTful接口规范 | 需要登录态的复杂操作 |
| 权限模型 | 细粒度权限控制 | 全有或全无 |
2. 设计"委托确认"流程
`
用户发起任务
↓
Agent解析任务,识别边界
↓
展示任务计划(做什么、怎么做、有哪些风险点)
↓
用户确认/调整/取消
↓
Agent执行(低风险自动,高风险暂停)
↓
展示执行结果(做了什么、有哪些证据、下一步建议)
↓
用户验收/修正
``
3. 预设"异常恢复"机制
| 异常类型 | Agent响应 | 用户看到的 |
|----------|-----------|------------|
| 页面加载失败 | 重试3次,记录失败 | "第2页加载超时,正在重试..." |
| 登录过期 | 暂停,报告 | "登录已过期,请重新授权" |
| 权限不足 | 暂停,报告 | "需要管理员权限才能XXX" |
| 操作被拒绝 | 暂停,报告 | "提交被拒绝,原因:XXX" |
| 网络中断 | 暂停,保存进度 | "网络中断,已保存当前进度" |
🔗 相关链接
OpenAI Codex Chrome扩展官方介绍
Running Codex safely at OpenAI - 安全白皮书
Coder Agents Beta发布公告
Opsera + Cursor合作方案
Prismatic Skills for Claude Code - GitHub
📊 行业数据
| 指标 | 数据 | 来源 |
|------|------|------|
| Agent部署现状 | 70%企业在部署Agent的基础设施从未被设计用来支持它们 | Coder研究 |
| 任务完成率提升 | 12%-35% | 腾讯云Agent Memory实测 |
| Token消耗降低 | 33%-64% | 腾讯云Agent Memory实测 |
| 开发效率提升 | 60%任务流转效率 | A2A协议金融场景实测 |
🎓 术语表
| 术语 | 英文 | 解释 |
|------|------|------|
| 委托设计 | Delegation Design | 设计用户如何放心地把任务委托给AI |
| 任务边界 | Task Boundary | Agent能做什么和不能做什么的明确定义 |
| 过程可见性 | Process Visibility | 用户能看到Agent执行过程的程度 |
| 沙箱 | Sandbox | 隔离环境,限制操作范围 |
| Agent原生日志 | Native Logging | 完整记录Agent操作的日志系统 |
*笔记状态:✅ 已完成*
*下次复习:2026-05-18*