← 返回方法论

Anthropic Skill-Creator 深度研究:评估与优化机制

研究时间:2026年
来源:Anthropic 官方 GitHub Skills 仓库 + 社区实践

---

2026年3月,Anthropic 发布了 skill-creator 的史诗级升级。新版 skill-creator 不再是单纯的 SKILL.md 模板生成器,而是一套包含 "Skill 草稿 → 评测 → 迭代" 的完整工作流。

核心升级点:

  • 评估系统:跑完直接告诉你这个 Skill 到底行不行
  • 基准测试:把通过率、耗时、Token 用量全部量化
  • 多代理并行测试:每个测试在干净的环境里独立跑,支持 A/B 盲评
  • 描述调优:可以自动帮你改 skill 描述,该触发的触发,不该触发的别乱触发
---

┌─────────────────────────────────────────────────────────────────┐
│                      skill-creator 架构                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   ┌─────────────────┐           ┌─────────────────┐             │
│   │    评估系统     │◄────────►│    优化系统      │             │
│   └────────┬────────┘           └────────┬────────┘             │
│            │                             │                       │
│   ┌────────┴────────┐           ┌────────┴────────┐             │
│   │ 触发评估        │           │ description 优化│             │
│   │ Trigger Eval   │           │ (自动迭代)       │             │
│   ├─────────────────┤           └─────────────────┘             │
│   │ 功能评估        │           ┌─────────────────┐             │
│   │ Functional Eval│           │ 功能优化         │             │
│   └─────────────────┘           │ (半自动+人工)   │             │
│                                  └─────────────────┘             │
└─────────────────────────────────────────────────────────────────┘

角色 职责 输入 输出
Executor 隔离环境并行执行 Skill + Prompt 输出文件 + transcript.md
Grader 依据断言评分 输出 + 断言清单 grading.json
Comparator A/B 盲测比较 输出A + 输出B comparison.json
Analyzer 深度分析归因 比较结果 + Skills analysis.json

---

指标 计算公式 含义
TP (True Positive) 应该触发且确实触发 正确的触发
FP (False Positive) 不应触发但触发了 错误的触发
TN (True Negative) 不应触发且没触发 正确的不触发
FN (False Negative) 应该触发但没触发 遗漏的触发
Precision TP / (TP + FP) 触发准确率
Recall TP / (TP + FN) 召回率(覆盖率)
Accuracy (TP + TN) / Total 总体准确率

指标 说明
Pass Rate 通过的断言数 / 总断言数
Passed / Failed / Total 通过/失败/总计数量
Claims Verification 隐性声明验证(防幻觉)

指标 单位
Time Seconds 执行时间
Tokens Token 消耗
Tool Calls 工具调用次数
Errors 错误数量

{
  "delta": {
    "pass_rate": "+0.50",
    "time_seconds": "+13.0",
    "tokens": "+1700"
  }
}

---

生成测试用例 → Executor(并行) → Grader → Analyzer → Comparator(可选) → Human Review → 迭代

关键步骤:

1. 生成 evals.json:包含 prompt、expected_output、files、expectations 2. 并行执行:Spawn all runs (with-skill AND baseline) in the same turn 3. 评分:Grader 依据断言判定 PASS/FAIL 4. 启动查看器generate_review.py 生成 HTML 报告 5. 人工审查:用户通过浏览器逐个查看并留下反馈 6. 读取反馈:从 feedback.json 读取用户意见 7. 迭代优化:根据反馈改进 Skill

准备 trigger_eval.json → run_loop.py (后台) → 自动迭代(≤5次) → best_description

核心机制:

  • Train/Test 分割:60% 训练集 + 40% 测试集,防止过拟合
  • 多次验证:每个查询跑 3 次以获得稳定的触发率
  • 防过拟合设计:向 improve 提供 history 时会隐藏 test 分数
  • 最佳结果选择:根据 test 分数选择 best_description

脚本 功能
run_eval.py 触发评估,监控 stream events 检测触发
run_loop.py 串联 eval 和 improve 成迭代循环
improve_description.py 调用 Claude 生成改进的 description
generate_review.py 生成 HTML 查看器

---

┌──────────────────────────────────────────────────────────────┐
│  第一层:YAML Frontmatter                                      │
│  - name, description                                           │
│  - Claude 根据这段决定是否加载技能                              │
│  - "恰好足够"原则:提供最小必要信息                             │
└──────────────────────────────────────────────────────────────┘
                              ▼
┌──────────────────────────────────────────────────────────────┐
│  第二层:SKILL.md 正文                                         │
│  - 仅在任务与技能相关时加载                                    │
│  - 可包含详细步骤(按需使用)                                  │
└──────────────────────────────────────────────────────────────┘
                              ▼
┌──────────────────────────────────────────────────────────────┐
│  第三层:关联文件                                              │
│  - references/: 按需查阅的参考文档                             │
│  - scripts/: 可执行的脚本                                      │
│  - assets/: 模板、字体等资源                                   │
└──────────────────────────────────────────────────────────────┘

实测数据显示,在处理长链条业务流程时,渐进式披露能将上下文 Token 消耗降低 60%-80%

  • SKILL.md 控制在约 150 行,复杂内容移到 references/
  • 避免 "educational tone"——写给 Claude 的指令而非解释性文档
  • 使用命令式而非描述式语言
  • description 要有足够的关键词密度便于触发
---

维度 GenericAgent skill-creator
技能来源 自主探索结晶,从执行路径中固化 用户设计 + 评测验证,从需求出发
验证方式 实际任务成功/失败 断言 + A/B 对比 + 量化指标
迭代方式 自动固化(自动捕获最佳路径) 半自动优化(description 自动,body 需人工)
适用场景 通用探索、发现未知最佳实践 专业工作流、需要保证质量一致性
触发控制 无显式触发机制 明确的 description 触发评估
评估深度 结果导向(成/败) 过程导向(断言 + 性能指标 + 方差分析)
上下文隔离 单一会话 多 Subagent 隔离执行
Human-in-loop 最小化 关键环节必须人工介入

┌────────────────────────────────────────────────────────────┐
│           完整的技能进化框架                                   │
│                                                            │
│   ┌──────────────────────┐    ┌──────────────────────┐    │
│   │    GenericAgent      │ +  │   skill-creator     │    │
│   │   (自进化)           │    │   (可验证)           │    │
│   └──────────┬───────────┘    └──────────┬───────────┘    │
│              │                             │                 │
│              ▼                             ▼                 │
│   ┌──────────────────────────────────────────────────┐      │
│   │           技能资产层                              │      │
│   │  • 执行路径自动固化为 Skill                       │      │
│   │  • 通过评估验证质量                               │      │
│   │  • 量化指标驱动迭代优化                           │      │
│   └──────────────────────────────────────────────────┘      │
│                          │                                    │
│                          ▼                                    │
│   ┌──────────────────────────────────────────────────┐      │
│   │           可信赖的技能生态                         │      │
│   │  自进化 + 可验证 = 持续改进的技能资产               │      │
│   └──────────────────────────────────────────────────┘      │
└────────────────────────────────────────────────────────────┘

---

通过 Subagent 机制严格隔离上下文,避免了主 Agent 与 Subagent 之间、不同测试用例之间的 Context 污染。

Grader Agent 不仅是打分: 1. Evaluate:核对 Rubric 判定 PASS/FAIL 2. Verify Claims:主动提取隐性声明(Implicit Claims)做事实核查 3. Critique Evals:反向审视测试用例本身的合理性

A/B 双盲比较确保评判基于输出质量本身,而非"新旧=好坏"的先入为主。

不仅关注最终成功率,还将方差、异常值、Token 消耗等性能指标纳入考量。

从 Prompt Engineering → Eval-Driven Engineering (Harness Engineering)

---

1. 从小技能开始:用 skill-creator 构建你的第一个 skill,利用已有的 MCP server 构建核心工作流 2. 建立评测习惯:每次修改 skill 后运行评测,而非仅凭感觉判断 3. 关注触发准确性:好的 description 是技能被使用的前提 4. 利用渐进式披露:长技能内容放到 references/,SKILL.md 保持精简

┌────────────────────────────────────────────────────────────┐
│              技能进化飞轮                                     │
│                                                            │
│   ┌─────────┐     ┌─────────┐     ┌─────────┐           │
│   │  Generic │     │ Skill   │     │ Evalu-  │           │
│   │  Agent  │────►│ Assets  │────►│ ation   │           │
│   │ (探索)   │     │ (沉淀)   │     │ (验证)   │           │
│   └─────────┘     └─────────┘     └────┬────┘           │
│        ▲                              │                   │
│        │                              ▼                   │
│        │                       ┌─────────────┐           │
│        └───────────────────────│  迭代优化    │           │
│                                │  (Human-in- │           │
│                                │   loop)      │           │
│                                └─────────────┘           │
└────────────────────────────────────────────────────────────┘

1. 捕获团队最佳实践:将重复的工作流固化为 Skills 2. 建立质量门槛:设定 Pass Rate、Time、Tokens 的基线 3. 持续迭代:根据实际使用反馈不断优化 4. 可组合使用:多个 Skills 可以同时启用,Claude 会自动协调

1. 治理框架:建立 Skill 的评审、发布、版本管理流程 2. 共享技能库:团队共享经过验证的 Skills,避免重复造轮子 3. 量化 ROI:通过对比测试(有 Skill vs 无 Skill)证明价值 4. 与业务流程绑定:Skills 是将 AI 从实验性工具变为生产力工具的清晰路径

---

  • description 优化可以自动化,但 Skill Body 的指令与代码优化依然高度依赖人机协作
  • 触发评估存在"简单查询问题":Claude 能直接处理的简单任务不会触发 Skills
  • 评估用例设计质量直接影响优化效果,"坏查询导致坏描述"

  • Skill-RL:北卡大学教堂山分校的论文提出将 agent 的"原始轨迹记忆"升级为"可复用 skill"的递归技能增强 RL 框架
  • Skills 在这一过程中扮演知识沉淀和经验抽象的核心作用,推动 Agent 真正从过去经验中抽象出高层策略
---

skill-creator 的评测与优化机制代表了 Agent 开发模式从手动调优向评估驱动工程的范式转变。其核心价值在于:

1. 可验证:通过量化指标证明 Skill 的价值 2. 可迭代:通过评测闭环持续改进 3. 可信赖:通过隔离执行、双盲比较确保评估客观性 4. 可组合:与 GenericAgent 等工具形成完整的技能进化框架

对于 AI Agent 的未来,Skills 正是这个生态中一块重要的拼图,它将挖掘更多的隐式知识,抽象更多的人类先验,为 agent 的持续进化提供知识沉淀和经验抽象的核心作用。

---