CUA (Computer Use Agent) 深度研究报告 CUA (Computer Use Agent) In-Depth Research Report

📅 2026年5月10日May 10, 2026 🔗 GitHub: trycua/cua 📊 3223+ Commits3223+ Commits 📦 479 Releases479 Releases

🎯 核心定位

构建、评测和部署"用电脑"的AI Agent全栈工具链。包含cua-driver（macOS后台驱动）、cua-sandbox（跨OS沙箱）、cuabot（多Agent协作CLI）、cua-bench（评测框架）、lume（Apple Silicon虚拟化）。Build, benchmark, and deploy agents that use computers. Includes cua-driver (macOS background driver), cua-sandbox (cross-OS sandbox), cuabot (multi-agent CLI), cua-bench (benchmarking framework), and lume (Apple Silicon virtualization).

一、项目概览

1.1 基本信息

CUA (Computer Use Agent) 是一个开源的全栈工具链项目，专注于构建、评测和部署能够操控电脑的AI Agent。截至2026年5月，该项目已经积累了：

479个Release版本
3223次Commits提交
604个Tags标签
活跃的GitHub社区

1.2 项目组成模块

CUA项目由多个核心模块组成，形成了一个完整的Computer Use Agent开发生态：

模块名称	编程语言占比	核心功能
cua-driver	Swift 6.9%	macOS后台驱动，实现无焦点操控
cua-sandbox	Python 20.4%	跨OS统一API沙箱
cuabot	TypeScript 3.0%	多Agent协作CLI工具
cua-bench	Python 20.4%	评测框架和基准测试
lume	Swift 6.9%	Apple Silicon虚拟化方案
文档和示例	HTML 66.9%	完整的文档和示例

1.3 License与开源策略

主License: MIT License
第三方组件License:
- Kasm: MIT
- OmniParser: CC-BY-4.0
- ultralytics (可选): AGPL-3.0

项目采用开源核心 + 云服务商业化的混合模式，MIT License允许商业使用和二次开发。

二、核心技术架构深度解析

2.1 cua-driver: macOS后台操控的核心

2.1.1 设计理念："No-Foreground Contract"

cua-driver是CUA项目中技术含量最高的模块之一，它实现了一个核心承诺：从不抢占用户前台应用的焦点。这个设计理念体现在四个不变式（invariants）中：

光标位置不变：真实的鼠标光标保持在用户离开的位置，不会发生 warp
窗口Z序不变：目标窗口保持在当前的Z轴位置，不会被 raise
Space不变：用户的桌面Space不会跟随目标窗口移动，不会发生 bounce
前台应用不变：用户的前台应用在整个操作过程中保持不变

2.1.2 三种操控路径（Dispatch Paths）

cua-driver根据目标应用的不同特性，采用了三种不同的操控机制：

路径	适用场景	技术实现
路径一	标准Accessibility元素	公共AX API + AXUIElementPerformAction
路径二	Chromium/Electron应用	私有SPI + AX Observer
路径三	非AX表面（Canvas、WebView）	SLEventPostToPid + yabai模式

2.1.3 三种捕获模式（Capture Modes）

capture_mode 配置项控制 get_window_state 返回的内容：

模式	说明	适用场景
som (默认)	Set-of-Mark，同时返回AX树和截图	元素索引点击，视觉歧义消除
ax	仅返回Accessibility树	结构化循环，AX覆盖良好的应用
vision	仅返回窗口PNG	视觉优先模型，像素级点击

2.1.4 Claude Code集成

# 标准MCP注册
claude mcp add --transport stdio cua-driver -- cua-driver mcp

# Claude Code风格兼容模式
claude mcp add --transport stdio cua-computer-use -- cua-driver mcp --claude-code-computer-use-compat

2.2 cua-sandbox: 跨OS统一API设计

2.2.1 支持的运行环境

环境类型	云端 (cua.ai)	本地 (QEMU/Docker)
Linux容器	✅	✅
Linux VM	✅	✅
macOS	✅	✅ (需Apple Silicon)
Windows	✅	✅
Android	✅	✅
BYOI (自定义镜像)	🔜即将支持	✅

2.2.2 Python API示例

from cua import Sandbox, Image

# 相同的API，不受OS或运行时影响
async with Sandbox.ephemeral(Image.linux()) as sb:
    result = await sb.shell.run("echo hello")
    screenshot = await sb.screenshot()
    await sb.mouse.click(100, 200)
    await sb.keyboard.type("Hello from Cua!")
    await sb.mobile.gesture((100, 500), (100, 200))

2.3 cuabot: 多Agent协作CLI

cuabot的核心价值是：为任何编程Agent提供无缝的沙箱计算机使用能力。它支持Agent和人类在同一屏幕上共存（Co-op模式），开创了多用户计算机使用的新范式。

支持的Agent

cuabot claude      # Claude Code (Anthropic)
cuabot gemini      # Gemini CLI (Google)
cuabot codex       # Codex CLI (OpenAI)
cuabot aider       # Aider
cuabot openclaw    # OpenClaw
cuabot vibe        # Vibe (Mistral)

2.4 cua-bench: 评测框架与基准测试

cua-bench是用于评估计算机使用Agent能力的框架和任务集。测试场景涵盖桌面操作系统任务和移动设备触摸屏任务。

框架组成

基础镜像：预配置的Windows、Linux、macOS和Android环境
任务数据集：包含描述、配置、设置脚本、测试脚本和参考解决方案
评估/训练工具：类似Electron/Playwright的API设计

2.5 lume: Apple Silicon虚拟化

lume是Apple Silicon上的macOS/Linux VM运行时，利用Apple的Virtualization.Framework实现接近原生的性能。

技术特点

原生速度：CPU指令通过硬件虚拟化直接执行
半虚拟化图形：基本GPU支持
高效存储：稀疏磁盘文件仅占用实际使用量
Rosetta 2支持：在ARM Linux VM中运行x86二进制文件
自动化golden images：从IPSW到完全配置的macOS VM

三、商业模式与生态分析

3.1 定价策略

CUA采用开源免费 + 云服务商业化的双轨模式。

开源版本（MIT License）

MIT授权核心代码
无限本地Agent
社区Discord支持
完整文档访问

Pro版本（$10+起步）

$75/月方案（最受欢迎）：

5,100积分，约425小时典型运行时间
支持Linux、Windows、macOS云环境
所有公共云区域访问
Slack优先支持

积分定价表

资源	单价
Linux Small沙箱	5积分/小时
Linux Medium沙箱	9积分/小时
Linux Large沙箱	24积分/小时
Windows Small沙箱	8积分/小时
Windows Medium沙箱	15积分/小时
Windows Large沙箱	31积分/小时
Claude Haiku 4.5	~435积分/百万Token
Claude Sonnet 4.5	~1305积分/百万Token

四、与竞品对比分析

4.1 OpenAI Operator (CUA Model)

OpenAI于2025年1月发布的Operator由CUA（Computer-Using Agent）模型驱动，结合了GPT-4o的视觉能力与强化学习的高级推理。

基准测试表现

基准测试	OpenAI CUA	说明
WebArena	58.1%	开源网站离线模拟
WebVoyager	87%	真实网站导航
OSWorld	38.1%	完整操作系统控制

4.2 UI-TARS（字节跳动）

UI-TARS是字节跳动开发的开源多模态Agent，专为桌面和移动环境中的GUI自动化交互而设计。

基准测试对比

基准测试	UI-TARS-1.5	OpenAI CUA	Claude 3.7
OSWorld	42.5%	36.4%	28.0%
WebVoyager	84.8%	87.0%	84.1%
ScreenSpot-V2	94.2%	87.9%	87.6%
ScreenSpotPro	61.6%	23.4%	27.7%

4.3 功能对比总结

功能维度	OpenAI CUA	Claude Computer Use	UI-TARS	trycua/cua
开源程度	闭源	部分开源	部分开源	完全开源
浏览器控制	✅	✅	✅	✅
桌面OS控制	部分	✅	✅	✅
移动控制	❌	❌	✅	✅
本地驱动	❌	❌	❌	✅
云沙箱	✅	✅	❌	✅
多Agent协作	❌	❌	❌	✅

五、技术生态与集成

5.1 MCP协议支持

CUA全面支持Model Context Protocol (MCP)，可以与主流开发工具集成：Claude Code、Cursor、Codex等。

5.2 VLM路由器

CUA提供了VLM Router功能，可以轻松切换不同的计算机使用模型提供商：OpenAI、Anthropic、Google、ByteDance等。

5.3 Python SDK

from computer import Computer, VMProviderType
from agent import ComputerAgent, LLMProvider, LLM, AgentLoop

computer = Computer(
    os_type="linux",
    api_key=os.getenv("CUA_API_KEY"),
    provider_type=VMProviderType.CLOUD,
)

agent = ComputerAgent(
    computer=computer,
    loop=AgentLoop.ANTHROPIC,
    model=LLM(provider="anthropic", name="claude-sonnet-4"),
    save_trajectory=True,
)

六、对一人公司AI团队的启发

6.1 实用价值分析

6.1.1 自动化重复性任务

场景示例：

自动填写和提交表单
批量处理文档（PDF转换、格式统一）
自动化测试报告生成
社交媒体内容发布和监控

6.1.2 质量保证自动化