CUA (Computer Use Agent) 深度研究报告 CUA (Computer Use Agent) In-Depth Research Report
🎯 核心定位
构建、评测和部署"用电脑"的AI Agent全栈工具链。包含cua-driver(macOS后台驱动)、cua-sandbox(跨OS沙箱)、cuabot(多Agent协作CLI)、cua-bench(评测框架)、lume(Apple Silicon虚拟化)。Build, benchmark, and deploy agents that use computers. Includes cua-driver (macOS background driver), cua-sandbox (cross-OS sandbox), cuabot (multi-agent CLI), cua-bench (benchmarking framework), and lume (Apple Silicon virtualization).
📑 目录Table of Contents
一、项目概览
1.1 基本信息
CUA (Computer Use Agent) 是一个开源的全栈工具链项目,专注于构建、评测和部署能够操控电脑的AI Agent。截至2026年5月,该项目已经积累了:
- 479个Release版本
- 3223次Commits提交
- 604个Tags标签
- 活跃的GitHub社区
1.2 项目组成模块
CUA项目由多个核心模块组成,形成了一个完整的Computer Use Agent开发生态:
| 模块名称 | 编程语言占比 | 核心功能 |
|---|---|---|
| cua-driver | Swift 6.9% | macOS后台驱动,实现无焦点操控 |
| cua-sandbox | Python 20.4% | 跨OS统一API沙箱 |
| cuabot | TypeScript 3.0% | 多Agent协作CLI工具 |
| cua-bench | Python 20.4% | 评测框架和基准测试 |
| lume | Swift 6.9% | Apple Silicon虚拟化方案 |
| 文档和示例 | HTML 66.9% | 完整的文档和示例 |
1.3 License与开源策略
- 主License: MIT License
- 第三方组件License:
- Kasm: MIT
- OmniParser: CC-BY-4.0
- ultralytics (可选): AGPL-3.0
项目采用开源核心 + 云服务商业化的混合模式,MIT License允许商业使用和二次开发。
二、核心技术架构深度解析
2.1 cua-driver: macOS后台操控的核心
2.1.1 设计理念:"No-Foreground Contract"
cua-driver是CUA项目中技术含量最高的模块之一,它实现了一个核心承诺:从不抢占用户前台应用的焦点。这个设计理念体现在四个不变式(invariants)中:
- 光标位置不变:真实的鼠标光标保持在用户离开的位置,不会发生 warp
- 窗口Z序不变:目标窗口保持在当前的Z轴位置,不会被 raise
- Space不变:用户的桌面Space不会跟随目标窗口移动,不会发生 bounce
- 前台应用不变:用户的前台应用在整个操作过程中保持不变
2.1.2 三种操控路径(Dispatch Paths)
cua-driver根据目标应用的不同特性,采用了三种不同的操控机制:
| 路径 | 适用场景 | 技术实现 |
|---|---|---|
| 路径一 | 标准Accessibility元素 | 公共AX API + AXUIElementPerformAction |
| 路径二 | Chromium/Electron应用 | 私有SPI + AX Observer |
| 路径三 | 非AX表面(Canvas、WebView) | SLEventPostToPid + yabai模式 |
2.1.3 三种捕获模式(Capture Modes)
capture_mode 配置项控制 get_window_state 返回的内容:
| 模式 | 说明 | 适用场景 |
|---|---|---|
| som (默认) | Set-of-Mark,同时返回AX树和截图 | 元素索引点击,视觉歧义消除 |
| ax | 仅返回Accessibility树 | 结构化循环,AX覆盖良好的应用 |
| vision | 仅返回窗口PNG | 视觉优先模型,像素级点击 |
2.1.4 Claude Code集成
# 标准MCP注册
claude mcp add --transport stdio cua-driver -- cua-driver mcp
# Claude Code风格兼容模式
claude mcp add --transport stdio cua-computer-use -- cua-driver mcp --claude-code-computer-use-compat
2.2 cua-sandbox: 跨OS统一API设计
2.2.1 支持的运行环境
| 环境类型 | 云端 (cua.ai) | 本地 (QEMU/Docker) |
|---|---|---|
| Linux容器 | ✅ | ✅ |
| Linux VM | ✅ | ✅ |
| macOS | ✅ | ✅ (需Apple Silicon) |
| Windows | ✅ | ✅ |
| Android | ✅ | ✅ |
| BYOI (自定义镜像) | 🔜即将支持 | ✅ |
2.2.2 Python API示例
from cua import Sandbox, Image
# 相同的API,不受OS或运行时影响
async with Sandbox.ephemeral(Image.linux()) as sb:
result = await sb.shell.run("echo hello")
screenshot = await sb.screenshot()
await sb.mouse.click(100, 200)
await sb.keyboard.type("Hello from Cua!")
await sb.mobile.gesture((100, 500), (100, 200))
2.3 cuabot: 多Agent协作CLI
cuabot的核心价值是:为任何编程Agent提供无缝的沙箱计算机使用能力。它支持Agent和人类在同一屏幕上共存(Co-op模式),开创了多用户计算机使用的新范式。
支持的Agent
cuabot claude # Claude Code (Anthropic)
cuabot gemini # Gemini CLI (Google)
cuabot codex # Codex CLI (OpenAI)
cuabot aider # Aider
cuabot openclaw # OpenClaw
cuabot vibe # Vibe (Mistral)
2.4 cua-bench: 评测框架与基准测试
cua-bench是用于评估计算机使用Agent能力的框架和任务集。测试场景涵盖桌面操作系统任务和移动设备触摸屏任务。
框架组成
- 基础镜像:预配置的Windows、Linux、macOS和Android环境
- 任务数据集:包含描述、配置、设置脚本、测试脚本和参考解决方案
- 评估/训练工具:类似Electron/Playwright的API设计
2.5 lume: Apple Silicon虚拟化
lume是Apple Silicon上的macOS/Linux VM运行时,利用Apple的Virtualization.Framework实现接近原生的性能。
技术特点
- 原生速度:CPU指令通过硬件虚拟化直接执行
- 半虚拟化图形:基本GPU支持
- 高效存储:稀疏磁盘文件仅占用实际使用量
- Rosetta 2支持:在ARM Linux VM中运行x86二进制文件
- 自动化golden images:从IPSW到完全配置的macOS VM
三、商业模式与生态分析
3.1 定价策略
CUA采用开源免费 + 云服务商业化的双轨模式。
开源版本(MIT License)
- MIT授权核心代码
- 无限本地Agent
- 社区Discord支持
- 完整文档访问
Pro版本($10+起步)
$75/月方案(最受欢迎):
- 5,100积分,约425小时典型运行时间
- 支持Linux、Windows、macOS云环境
- 所有公共云区域访问
- Slack优先支持
积分定价表
| 资源 | 单价 |
|---|---|
| Linux Small沙箱 | 5积分/小时 |
| Linux Medium沙箱 | 9积分/小时 |
| Linux Large沙箱 | 24积分/小时 |
| Windows Small沙箱 | 8积分/小时 |
| Windows Medium沙箱 | 15积分/小时 |
| Windows Large沙箱 | 31积分/小时 |
| Claude Haiku 4.5 | ~435积分/百万Token |
| Claude Sonnet 4.5 | ~1305积分/百万Token |
四、与竞品对比分析
4.1 OpenAI Operator (CUA Model)
OpenAI于2025年1月发布的Operator由CUA(Computer-Using Agent)模型驱动,结合了GPT-4o的视觉能力与强化学习的高级推理。
基准测试表现
| 基准测试 | OpenAI CUA | 说明 |
|---|---|---|
| WebArena | 58.1% | 开源网站离线模拟 |
| WebVoyager | 87% | 真实网站导航 |
| OSWorld | 38.1% | 完整操作系统控制 |
4.2 UI-TARS(字节跳动)
UI-TARS是字节跳动开发的开源多模态Agent,专为桌面和移动环境中的GUI自动化交互而设计。
基准测试对比
| 基准测试 | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 |
|---|---|---|---|
| OSWorld | 42.5% | 36.4% | 28.0% |
| WebVoyager | 84.8% | 87.0% | 84.1% |
| ScreenSpot-V2 | 94.2% | 87.9% | 87.6% |
| ScreenSpotPro | 61.6% | 23.4% | 27.7% |
4.3 功能对比总结
| 功能维度 | OpenAI CUA | Claude Computer Use | UI-TARS | trycua/cua |
|---|---|---|---|---|
| 开源程度 | 闭源 | 部分开源 | 部分开源 | 完全开源 |
| 浏览器控制 | ✅ | ✅ | ✅ | ✅ |
| 桌面OS控制 | 部分 | ✅ | ✅ | ✅ |
| 移动控制 | ❌ | ❌ | ✅ | ✅ |
| 本地驱动 | ❌ | ❌ | ❌ | ✅ |
| 云沙箱 | ✅ | ✅ | ❌ | ✅ |
| 多Agent协作 | ❌ | ❌ | ❌ | ✅ |
五、技术生态与集成
5.1 MCP协议支持
CUA全面支持Model Context Protocol (MCP),可以与主流开发工具集成:Claude Code、Cursor、Codex等。
5.2 VLM路由器
CUA提供了VLM Router功能,可以轻松切换不同的计算机使用模型提供商:OpenAI、Anthropic、Google、ByteDance等。
5.3 Python SDK
from computer import Computer, VMProviderType
from agent import ComputerAgent, LLMProvider, LLM, AgentLoop
computer = Computer(
os_type="linux",
api_key=os.getenv("CUA_API_KEY"),
provider_type=VMProviderType.CLOUD,
)
agent = ComputerAgent(
computer=computer,
loop=AgentLoop.ANTHROPIC,
model=LLM(provider="anthropic", name="claude-sonnet-4"),
save_trajectory=True,
)
六、对一人公司AI团队的启发
6.1 实用价值分析
6.1.1 自动化重复性任务
场景示例:
- 自动填写和提交表单
- 批量处理文档(PDF转换、格式统一)
- 自动化测试报告生成
- 社交媒体内容发布和监控
6.1.2 质量保证自动化
场景示例:
- 自动化UI测试(跨浏览器、跨平台)
- 截图对比和视觉回归测试
- 自动化代码审查
- 文档一致性检查
6.2 成本效益分析
| 场景 | 自动化前 | 自动化后 | 节省 |
|---|---|---|---|
| 日报表生成 | 30分钟/天 | 2分钟/天 | 93% |
| GitHub Issue处理 | 60分钟/天 | 5分钟/天 | 92% |
| 竞品监控 | 120分钟/周 | 10分钟/周 | 92% |
6.3 实施建议
- 第一阶段(1-2周):部署本地沙箱进行技术验证
- 第二阶段(2-4周):扩展自动化覆盖范围
- 第三阶段(持续):迭代优化现有自动化
七、未来展望与技术趋势
7.1 技术发展方向
- 模型能力提升:更强的视觉理解、更长的上下文窗口、更准确的坐标定位
- 安全机制进化:更智能的Prompt注入检测、更细粒度的权限控制
- 平台扩展:更多移动平台支持、更好的Web应用支持
7.2 行业影响
- RPA行业的变革:从规则驱动到AI驱动,从固定流程到动态适应
- 软件测试的自动化:从脚本测试到自然语言测试
- 数据获取的民主化:从API受限到UI可操作
八、结论
8.1 CUA项目的核心价值
- 开源透明:MIT License让任何人都可以使用和改进
- 架构优雅:模块化设计满足不同层次的需求
- 全栈覆盖:从驱动到沙箱,从评测到部署的完整闭环
- 商业可行:成功的开源+云服务商业模式验证
8.2 对AI团队的启示
CUA代表了AI Agent领域的一个重要方向:让AI像人类一样使用计算机。对于一人公司AI团队:
- 入门门槛低:开源免费,可本地验证
- 价值产出高:自动化重复任务,提升效率
- 扩展性强:从小规模到大规模,从单Agent到多Agent
- 风险可控:沙箱隔离,安全可靠
8.3 行动建议
- 立即开始:使用本地沙箱验证技术可行性
- 选择场景:识别团队最高价值的重复性任务
- 快速迭代:从简单任务开始,逐步复杂化
- 持续优化:收集指标,优化Prompt和工作流
- 分享经验:参与社区,贡献案例和最佳实践
参考资源
官方资源
- GitHub仓库: https://github.com/trycua/cua
- 官方文档: https://cua.ai/docs
- 云服务平台: https://cua.ai
- 定价页面: https://cua.ai/pricing
- 博客更新: https://cua.ai/blog
- Discord社区: https://discord.gg/mVnXXpdE85
技术文档
- cua-driver文档: https://cua.ai/docs/cua-driver
- cua-sandbox文档: https://cua.ai/docs/cua/guide/get-started/set-up-sandbox
- cuabot文档: https://docs.trycua.com/cuabot
- cua-bench文档: https://cua.ai/docs/cuabench
- lume文档: https://cua.ai/docs/lume
竞品资料
- OpenAI Operator: https://openai.com/index/introducing-operator/
- Anthropic Claude Computer Use: https://docs.anthropic.com/en/docs/claude-code
- UI-TARS: https://github.com/bytedance/UI-TARS
基准测试
- OSWorld: https://os-world.github.io/
- WebVoyager: https://webvoyager.site/
- ScreenSpot: https://screenspot.ai/
- Windows Agent Arena: https://microsoft.github.io/windowsagentarena/
本报告由AI辅助研究生成,数据截止至2026年5月10日。