AI Agent Computer Use 开源项目 技术架构 YC W25

CUA (Computer Use Agent) 深度研究报告 CUA (Computer Use Agent) In-Depth Research Report

📅 2026年5月10日May 10, 2026 🔗 GitHub: trycua/cua 📊 3223+ Commits3223+ Commits 📦 479 Releases479 Releases

🎯 核心定位

构建、评测和部署"用电脑"的AI Agent全栈工具链。包含cua-driver(macOS后台驱动)、cua-sandbox(跨OS沙箱)、cuabot(多Agent协作CLI)、cua-bench(评测框架)、lume(Apple Silicon虚拟化)。Build, benchmark, and deploy agents that use computers. Includes cua-driver (macOS background driver), cua-sandbox (cross-OS sandbox), cuabot (multi-agent CLI), cua-bench (benchmarking framework), and lume (Apple Silicon virtualization).


一、项目概览

1.1 基本信息

CUA (Computer Use Agent) 是一个开源的全栈工具链项目,专注于构建、评测和部署能够操控电脑的AI Agent。截至2026年5月,该项目已经积累了:

1.2 项目组成模块

CUA项目由多个核心模块组成,形成了一个完整的Computer Use Agent开发生态:

模块名称 编程语言占比 核心功能
cua-driver Swift 6.9% macOS后台驱动,实现无焦点操控
cua-sandbox Python 20.4% 跨OS统一API沙箱
cuabot TypeScript 3.0% 多Agent协作CLI工具
cua-bench Python 20.4% 评测框架和基准测试
lume Swift 6.9% Apple Silicon虚拟化方案
文档和示例 HTML 66.9% 完整的文档和示例

1.3 License与开源策略

项目采用开源核心 + 云服务商业化的混合模式,MIT License允许商业使用和二次开发。


二、核心技术架构深度解析

2.1 cua-driver: macOS后台操控的核心

2.1.1 设计理念:"No-Foreground Contract"

cua-driver是CUA项目中技术含量最高的模块之一,它实现了一个核心承诺:从不抢占用户前台应用的焦点。这个设计理念体现在四个不变式(invariants)中:

  1. 光标位置不变:真实的鼠标光标保持在用户离开的位置,不会发生 warp
  2. 窗口Z序不变:目标窗口保持在当前的Z轴位置,不会被 raise
  3. Space不变:用户的桌面Space不会跟随目标窗口移动,不会发生 bounce
  4. 前台应用不变:用户的前台应用在整个操作过程中保持不变

2.1.2 三种操控路径(Dispatch Paths)

cua-driver根据目标应用的不同特性,采用了三种不同的操控机制:

路径 适用场景 技术实现
路径一 标准Accessibility元素 公共AX API + AXUIElementPerformAction
路径二 Chromium/Electron应用 私有SPI + AX Observer
路径三 非AX表面(Canvas、WebView) SLEventPostToPid + yabai模式

2.1.3 三种捕获模式(Capture Modes)

capture_mode 配置项控制 get_window_state 返回的内容:

模式 说明 适用场景
som (默认) Set-of-Mark,同时返回AX树和截图 元素索引点击,视觉歧义消除
ax 仅返回Accessibility树 结构化循环,AX覆盖良好的应用
vision 仅返回窗口PNG 视觉优先模型,像素级点击

2.1.4 Claude Code集成

# 标准MCP注册
claude mcp add --transport stdio cua-driver -- cua-driver mcp

# Claude Code风格兼容模式
claude mcp add --transport stdio cua-computer-use -- cua-driver mcp --claude-code-computer-use-compat

2.2 cua-sandbox: 跨OS统一API设计

2.2.1 支持的运行环境

环境类型 云端 (cua.ai) 本地 (QEMU/Docker)
Linux容器
Linux VM
macOS✅ (需Apple Silicon)
Windows
Android
BYOI (自定义镜像)🔜即将支持

2.2.2 Python API示例

from cua import Sandbox, Image

# 相同的API,不受OS或运行时影响
async with Sandbox.ephemeral(Image.linux()) as sb:
    result = await sb.shell.run("echo hello")
    screenshot = await sb.screenshot()
    await sb.mouse.click(100, 200)
    await sb.keyboard.type("Hello from Cua!")
    await sb.mobile.gesture((100, 500), (100, 200))

2.3 cuabot: 多Agent协作CLI

cuabot的核心价值是:为任何编程Agent提供无缝的沙箱计算机使用能力。它支持Agent和人类在同一屏幕上共存(Co-op模式),开创了多用户计算机使用的新范式。

支持的Agent

cuabot claude      # Claude Code (Anthropic)
cuabot gemini      # Gemini CLI (Google)
cuabot codex       # Codex CLI (OpenAI)
cuabot aider       # Aider
cuabot openclaw    # OpenClaw
cuabot vibe        # Vibe (Mistral)

2.4 cua-bench: 评测框架与基准测试

cua-bench是用于评估计算机使用Agent能力的框架和任务集。测试场景涵盖桌面操作系统任务和移动设备触摸屏任务。

框架组成

  1. 基础镜像:预配置的Windows、Linux、macOS和Android环境
  2. 任务数据集:包含描述、配置、设置脚本、测试脚本和参考解决方案
  3. 评估/训练工具:类似Electron/Playwright的API设计

2.5 lume: Apple Silicon虚拟化

lume是Apple Silicon上的macOS/Linux VM运行时,利用Apple的Virtualization.Framework实现接近原生的性能。

技术特点


三、商业模式与生态分析

3.1 定价策略

CUA采用开源免费 + 云服务商业化的双轨模式。

开源版本(MIT License)

Pro版本($10+起步)

$75/月方案(最受欢迎):

积分定价表

资源单价
Linux Small沙箱5积分/小时
Linux Medium沙箱9积分/小时
Linux Large沙箱24积分/小时
Windows Small沙箱8积分/小时
Windows Medium沙箱15积分/小时
Windows Large沙箱31积分/小时
Claude Haiku 4.5~435积分/百万Token
Claude Sonnet 4.5~1305积分/百万Token

四、与竞品对比分析

4.1 OpenAI Operator (CUA Model)

OpenAI于2025年1月发布的Operator由CUA(Computer-Using Agent)模型驱动,结合了GPT-4o的视觉能力与强化学习的高级推理。

基准测试表现

基准测试OpenAI CUA说明
WebArena58.1%开源网站离线模拟
WebVoyager87%真实网站导航
OSWorld38.1%完整操作系统控制

4.2 UI-TARS(字节跳动)

UI-TARS是字节跳动开发的开源多模态Agent,专为桌面和移动环境中的GUI自动化交互而设计。

基准测试对比

基准测试UI-TARS-1.5OpenAI CUAClaude 3.7
OSWorld42.5%36.4%28.0%
WebVoyager84.8%87.0%84.1%
ScreenSpot-V294.2%87.9%87.6%
ScreenSpotPro61.6%23.4%27.7%

4.3 功能对比总结

功能维度OpenAI CUAClaude Computer UseUI-TARStrycua/cua
开源程度闭源部分开源部分开源完全开源
浏览器控制
桌面OS控制部分
移动控制
本地驱动
云沙箱
多Agent协作

五、技术生态与集成

5.1 MCP协议支持

CUA全面支持Model Context Protocol (MCP),可以与主流开发工具集成:Claude Code、Cursor、Codex等。

5.2 VLM路由器

CUA提供了VLM Router功能,可以轻松切换不同的计算机使用模型提供商:OpenAI、Anthropic、Google、ByteDance等。

5.3 Python SDK

from computer import Computer, VMProviderType
from agent import ComputerAgent, LLMProvider, LLM, AgentLoop

computer = Computer(
    os_type="linux",
    api_key=os.getenv("CUA_API_KEY"),
    provider_type=VMProviderType.CLOUD,
)

agent = ComputerAgent(
    computer=computer,
    loop=AgentLoop.ANTHROPIC,
    model=LLM(provider="anthropic", name="claude-sonnet-4"),
    save_trajectory=True,
)

六、对一人公司AI团队的启发

6.1 实用价值分析

6.1.1 自动化重复性任务

场景示例

6.1.2 质量保证自动化

场景示例

6.2 成本效益分析

场景自动化前自动化后节省
日报表生成30分钟/天2分钟/天93%
GitHub Issue处理60分钟/天5分钟/天92%
竞品监控120分钟/周10分钟/周92%

6.3 实施建议

  1. 第一阶段(1-2周):部署本地沙箱进行技术验证
  2. 第二阶段(2-4周):扩展自动化覆盖范围
  3. 第三阶段(持续):迭代优化现有自动化

七、未来展望与技术趋势

7.1 技术发展方向

7.2 行业影响


八、结论

8.1 CUA项目的核心价值

  1. 开源透明:MIT License让任何人都可以使用和改进
  2. 架构优雅:模块化设计满足不同层次的需求
  3. 全栈覆盖:从驱动到沙箱,从评测到部署的完整闭环
  4. 商业可行:成功的开源+云服务商业模式验证

8.2 对AI团队的启示

CUA代表了AI Agent领域的一个重要方向:让AI像人类一样使用计算机。对于一人公司AI团队:

8.3 行动建议

  1. 立即开始:使用本地沙箱验证技术可行性
  2. 选择场景:识别团队最高价值的重复性任务
  3. 快速迭代:从简单任务开始,逐步复杂化
  4. 持续优化:收集指标,优化Prompt和工作流
  5. 分享经验:参与社区,贡献案例和最佳实践

参考资源

官方资源

技术文档

竞品资料

基准测试


本报告由AI辅助研究生成,数据截止至2026年5月10日。

← 返回技能笔记