Anthropic Skill-Creator 深度研究：评估与优化机制

研究时间：2026年

来源：Anthropic 官方 GitHub Skills 仓库 + 社区实践

---

2026年3月，Anthropic 发布了 skill-creator 的史诗级升级。新版 skill-creator 不再是单纯的 SKILL.md 模板生成器，而是一套包含 "Skill 草稿 → 评测 → 迭代" 的完整工作流。

核心升级点：

评估系统：跑完直接告诉你这个 Skill 到底行不行
基准测试：把通过率、耗时、Token 用量全部量化
多代理并行测试：每个测试在干净的环境里独立跑，支持 A/B 盲评
描述调优：可以自动帮你改 skill 描述，该触发的触发，不该触发的别乱触发

---

┌─────────────────────────────────────────────────────────────────┐
│                      skill-creator 架构                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   ┌─────────────────┐           ┌─────────────────┐             │
│   │    评估系统     │◄────────►│    优化系统      │             │
│   └────────┬────────┘           └────────┬────────┘             │
│            │                             │                       │
│   ┌────────┴────────┐           ┌────────┴────────┐             │
│   │ 触发评估        │           │ description 优化│             │
│   │ Trigger Eval   │           │ (自动迭代)       │             │
│   ├─────────────────┤           └─────────────────┘             │
│   │ 功能评估        │           ┌─────────────────┐             │
│   │ Functional Eval│           │ 功能优化         │             │
│   └─────────────────┘           │ (半自动+人工)   │             │
│                                  └─────────────────┘             │
└─────────────────────────────────────────────────────────────────┘

角色	职责	输入	输出
Executor	隔离环境并行执行	Skill + Prompt	输出文件 + transcript.md
Grader	依据断言评分	输出 + 断言清单	grading.json
Comparator	A/B 盲测比较	输出A + 输出B	comparison.json
Analyzer	深度分析归因	比较结果 + Skills	analysis.json

---

指标	计算公式	含义
TP (True Positive)	应该触发且确实触发	正确的触发
FP (False Positive)	不应触发但触发了	错误的触发
TN (True Negative)	不应触发且没触发	正确的不触发
FN (False Negative)	应该触发但没触发	遗漏的触发
Precision	TP / (TP + FP)	触发准确率
Recall	TP / (TP + FN)	召回率（覆盖率）
Accuracy	(TP + TN) / Total	总体准确率

指标	说明
Pass Rate	通过的断言数 / 总断言数
Passed / Failed / Total	通过/失败/总计数量
Claims Verification	隐性声明验证（防幻觉）

指标	单位
Time Seconds	执行时间
Tokens	Token 消耗
Tool Calls	工具调用次数
Errors	错误数量

{
  "delta": {
    "pass_rate": "+0.50",
    "time_seconds": "+13.0",
    "tokens": "+1700"
  }
}

---

生成测试用例 → Executor(并行) → Grader → Analyzer → Comparator(可选) → Human Review → 迭代

关键步骤：

1. 生成 evals.json：包含 prompt、expected_output、files、expectations 2. 并行执行：Spawn all runs (with-skill AND baseline) in the same turn 3. 评分：Grader 依据断言判定 PASS/FAIL 4. 启动查看器：generate_review.py 生成 HTML 报告 5. 人工审查：用户通过浏览器逐个查看并留下反馈 6. 读取反馈：从 feedback.json 读取用户意见 7. 迭代优化：根据反馈改进 Skill

准备 trigger_eval.json → run_loop.py (后台) → 自动迭代(≤5次) → best_description

核心机制：

Train/Test 分割：60% 训练集 + 40% 测试集，防止过拟合
多次验证：每个查询跑 3 次以获得稳定的触发率
防过拟合设计：向 improve 提供 history 时会隐藏 test 分数
最佳结果选择：根据 test 分数选择 best_description

脚本	功能
`run_eval.py`	触发评估，监控 stream events 检测触发
`run_loop.py`	串联 eval 和 improve 成迭代循环
`improve_description.py`	调用 Claude 生成改进的 description
`generate_review.py`	生成 HTML 查看器

---

┌──────────────────────────────────────────────────────────────┐
│  第一层：YAML Frontmatter                                      │
│  - name, description                                           │
│  - Claude 根据这段决定是否加载技能                              │
│  - "恰好足够"原则：提供最小必要信息                             │
└──────────────────────────────────────────────────────────────┘
                              ▼
┌──────────────────────────────────────────────────────────────┐
│  第二层：SKILL.md 正文                                         │
│  - 仅在任务与技能相关时加载                                    │
│  - 可包含详细步骤（按需使用）                                  │
└──────────────────────────────────────────────────────────────┘
                              ▼
┌──────────────────────────────────────────────────────────────┐
│  第三层：关联文件                                              │
│  - references/: 按需查阅的参考文档                             │
│  - scripts/: 可执行的脚本                                      │
│  - assets/: 模板、字体等资源                                   │
└──────────────────────────────────────────────────────────────┘

实测数据显示，在处理长链条业务流程时，渐进式披露能将上下文 Token 消耗降低 60%-80%。

SKILL.md 控制在约 150 行，复杂内容移到 references/
避免 "educational tone"——写给 Claude 的指令而非解释性文档
使用命令式而非描述式语言
description 要有足够的关键词密度便于触发

---

维度	GenericAgent	skill-creator
技能来源	自主探索结晶，从执行路径中固化	用户设计 + 评测验证，从需求出发
验证方式	实际任务成功/失败	断言 + A/B 对比 + 量化指标
迭代方式	自动固化（自动捕获最佳路径）	半自动优化（description 自动，body 需人工）
适用场景	通用探索、发现未知最佳实践	专业工作流、需要保证质量一致性
触发控制	无显式触发机制	明确的 description 触发评估
评估深度	结果导向（成/败）	过程导向（断言 + 性能指标 + 方差分析）
上下文隔离	单一会话	多 Subagent 隔离执行
Human-in-loop	最小化	关键环节必须人工介入

┌────────────────────────────────────────────────────────────┐
│           完整的技能进化框架                                   │
│                                                            │
│   ┌──────────────────────┐    ┌──────────────────────┐    │
│   │    GenericAgent      │ +  │   skill-creator     │    │
│   │   (自进化)           │    │   (可验证)           │    │
│   └──────────┬───────────┘    └──────────┬───────────┘    │
│              │                             │                 │
│              ▼                             ▼                 │
│   ┌──────────────────────────────────────────────────┐      │
│   │           技能资产层                              │      │
│   │  • 执行路径自动固化为 Skill                       │      │
│   │  • 通过评估验证质量                               │      │
│   │  • 量化指标驱动迭代优化                           │      │
│   └──────────────────────────────────────────────────┘      │
│                          │                                    │
│                          ▼                                    │
│   ┌──────────────────────────────────────────────────┐      │
│   │           可信赖的技能生态                         │      │
│   │  自进化 + 可验证 = 持续改进的技能资产               │      │
│   └──────────────────────────────────────────────────┘      │
└────────────────────────────────────────────────────────────┘

---

通过 Subagent 机制严格隔离上下文，避免了主 Agent 与 Subagent 之间、不同测试用例之间的 Context 污染。

Grader Agent 不仅是打分： 1. Evaluate：核对 Rubric 判定 PASS/FAIL 2. Verify Claims：主动提取隐性声明（Implicit Claims）做事实核查 3. Critique Evals：反向审视测试用例本身的合理性

A/B 双盲比较确保评判基于输出质量本身，而非"新旧=好坏"的先入为主。

不仅关注最终成功率，还将方差、异常值、Token 消耗等性能指标纳入考量。

从 Prompt Engineering → Eval-Driven Engineering (Harness Engineering)

---

1. 从小技能开始：用 skill-creator 构建你的第一个 skill，利用已有的 MCP server 构建核心工作流 2. 建立评测习惯：每次修改 skill 后运行评测，而非仅凭感觉判断 3. 关注触发准确性：好的 description 是技能被使用的前提 4. 利用渐进式披露：长技能内容放到 references/，SKILL.md 保持精简

┌────────────────────────────────────────────────────────────┐
│              技能进化飞轮                                     │
│                                                            │
│   ┌─────────┐     ┌─────────┐     ┌─────────┐           │
│   │  Generic │     │ Skill   │     │ Evalu-  │           │
│   │  Agent  │────►│ Assets  │────►│ ation   │           │
│   │ (探索)   │     │ (沉淀)   │     │ (验证)   │           │
│   └─────────┘     └─────────┘     └────┬────┘           │
│        ▲                              │                   │
│        │                              ▼                   │
│        │                       ┌─────────────┐           │
│        └───────────────────────│  迭代优化    │           │
│                                │  (Human-in- │           │
│                                │   loop)      │           │
│                                └─────────────┘           │
└────────────────────────────────────────────────────────────┘

1. 捕获团队最佳实践：将重复的工作流固化为 Skills 2. 建立质量门槛：设定 Pass Rate、Time、Tokens 的基线 3. 持续迭代：根据实际使用反馈不断优化 4. 可组合使用：多个 Skills 可以同时启用，Claude 会自动协调

1. 治理框架：建立 Skill 的评审、发布、版本管理流程 2. 共享技能库：团队共享经过验证的 Skills，避免重复造轮子 3. 量化 ROI：通过对比测试（有 Skill vs 无 Skill）证明价值 4. 与业务流程绑定：Skills 是将 AI 从实验性工具变为生产力工具的清晰路径

---

description 优化可以自动化，但 Skill Body 的指令与代码优化依然高度依赖人机协作
触发评估存在"简单查询问题"：Claude 能直接处理的简单任务不会触发 Skills
评估用例设计质量直接影响优化效果，"坏查询导致坏描述"

Skill-RL：北卡大学教堂山分校的论文提出将 agent 的"原始轨迹记忆"升级为"可复用 skill"的递归技能增强 RL 框架
Skills 在这一过程中扮演知识沉淀和经验抽象的核心作用，推动 Agent 真正从过去经验中抽象出高层策略

---

skill-creator 的评测与优化机制代表了 Agent 开发模式从手动调优向评估驱动工程的范式转变。其核心价值在于：

1. 可验证：通过量化指标证明 Skill 的价值 2. 可迭代：通过评测闭环持续改进 3. 可信赖：通过隔离执行、双盲比较确保评估客观性 4. 可组合：与 GenericAgent 等工具形成完整的技能进化框架

对于 AI Agent 的未来，Skills 正是这个生态中一块重要的拼图，它将挖掘更多的隐式知识，抽象更多的人类先验，为 agent 的持续进化提供知识沉淀和经验抽象的核心作用。

---