研究时间:2026年
来源:Anthropic 官方 GitHub Skills 仓库 + 社区实践
---
2026年3月,Anthropic 发布了 skill-creator 的史诗级升级。新版 skill-creator 不再是单纯的 SKILL.md 模板生成器,而是一套包含 "Skill 草稿 → 评测 → 迭代" 的完整工作流。
核心升级点:
- 评估系统:跑完直接告诉你这个 Skill 到底行不行
- 基准测试:把通过率、耗时、Token 用量全部量化
- 多代理并行测试:每个测试在干净的环境里独立跑,支持 A/B 盲评
- 描述调优:可以自动帮你改 skill 描述,该触发的触发,不该触发的别乱触发
┌─────────────────────────────────────────────────────────────────┐
│ skill-creator 架构 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ 评估系统 │◄────────►│ 优化系统 │ │
│ └────────┬────────┘ └────────┬────────┘ │
│ │ │ │
│ ┌────────┴────────┐ ┌────────┴────────┐ │
│ │ 触发评估 │ │ description 优化│ │
│ │ Trigger Eval │ │ (自动迭代) │ │
│ ├─────────────────┤ └─────────────────┘ │
│ │ 功能评估 │ ┌─────────────────┐ │
│ │ Functional Eval│ │ 功能优化 │ │
│ └─────────────────┘ │ (半自动+人工) │ │
│ └─────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
| 角色 | 职责 | 输入 | 输出 |
|---|---|---|---|
| Executor | 隔离环境并行执行 | Skill + Prompt | 输出文件 + transcript.md |
| Grader | 依据断言评分 | 输出 + 断言清单 | grading.json |
| Comparator | A/B 盲测比较 | 输出A + 输出B | comparison.json |
| Analyzer | 深度分析归因 | 比较结果 + Skills | analysis.json |
---
| 指标 | 计算公式 | 含义 |
|---|---|---|
| TP (True Positive) | 应该触发且确实触发 | 正确的触发 |
| FP (False Positive) | 不应触发但触发了 | 错误的触发 |
| TN (True Negative) | 不应触发且没触发 | 正确的不触发 |
| FN (False Negative) | 应该触发但没触发 | 遗漏的触发 |
| Precision | TP / (TP + FP) | 触发准确率 |
| Recall | TP / (TP + FN) | 召回率(覆盖率) |
| Accuracy | (TP + TN) / Total | 总体准确率 |
| 指标 | 说明 |
|---|---|
| Pass Rate | 通过的断言数 / 总断言数 |
| Passed / Failed / Total | 通过/失败/总计数量 |
| Claims Verification | 隐性声明验证(防幻觉) |
| 指标 | 单位 |
|---|---|
| Time Seconds | 执行时间 |
| Tokens | Token 消耗 |
| Tool Calls | 工具调用次数 |
| Errors | 错误数量 |
{
"delta": {
"pass_rate": "+0.50",
"time_seconds": "+13.0",
"tokens": "+1700"
}
}
---
生成测试用例 → Executor(并行) → Grader → Analyzer → Comparator(可选) → Human Review → 迭代
关键步骤:
1. 生成 evals.json:包含 prompt、expected_output、files、expectations
2. 并行执行:Spawn all runs (with-skill AND baseline) in the same turn
3. 评分:Grader 依据断言判定 PASS/FAIL
4. 启动查看器:generate_review.py 生成 HTML 报告
5. 人工审查:用户通过浏览器逐个查看并留下反馈
6. 读取反馈:从 feedback.json 读取用户意见
7. 迭代优化:根据反馈改进 Skill
准备 trigger_eval.json → run_loop.py (后台) → 自动迭代(≤5次) → best_description
核心机制:
- Train/Test 分割:60% 训练集 + 40% 测试集,防止过拟合
- 多次验证:每个查询跑 3 次以获得稳定的触发率
- 防过拟合设计:向 improve 提供 history 时会隐藏 test 分数
- 最佳结果选择:根据 test 分数选择 best_description
| 脚本 | 功能 |
|---|---|
run_eval.py |
触发评估,监控 stream events 检测触发 |
run_loop.py |
串联 eval 和 improve 成迭代循环 |
improve_description.py |
调用 Claude 生成改进的 description |
generate_review.py |
生成 HTML 查看器 |
---
┌──────────────────────────────────────────────────────────────┐
│ 第一层:YAML Frontmatter │
│ - name, description │
│ - Claude 根据这段决定是否加载技能 │
│ - "恰好足够"原则:提供最小必要信息 │
└──────────────────────────────────────────────────────────────┘
▼
┌──────────────────────────────────────────────────────────────┐
│ 第二层:SKILL.md 正文 │
│ - 仅在任务与技能相关时加载 │
│ - 可包含详细步骤(按需使用) │
└──────────────────────────────────────────────────────────────┘
▼
┌──────────────────────────────────────────────────────────────┐
│ 第三层:关联文件 │
│ - references/: 按需查阅的参考文档 │
│ - scripts/: 可执行的脚本 │
│ - assets/: 模板、字体等资源 │
└──────────────────────────────────────────────────────────────┘
实测数据显示,在处理长链条业务流程时,渐进式披露能将上下文 Token 消耗降低 60%-80%。
- SKILL.md 控制在约 150 行,复杂内容移到 references/
- 避免 "educational tone"——写给 Claude 的指令而非解释性文档
- 使用命令式而非描述式语言
- description 要有足够的关键词密度便于触发
| 维度 | GenericAgent | skill-creator |
|---|---|---|
| 技能来源 | 自主探索结晶,从执行路径中固化 | 用户设计 + 评测验证,从需求出发 |
| 验证方式 | 实际任务成功/失败 | 断言 + A/B 对比 + 量化指标 |
| 迭代方式 | 自动固化(自动捕获最佳路径) | 半自动优化(description 自动,body 需人工) |
| 适用场景 | 通用探索、发现未知最佳实践 | 专业工作流、需要保证质量一致性 |
| 触发控制 | 无显式触发机制 | 明确的 description 触发评估 |
| 评估深度 | 结果导向(成/败) | 过程导向(断言 + 性能指标 + 方差分析) |
| 上下文隔离 | 单一会话 | 多 Subagent 隔离执行 |
| Human-in-loop | 最小化 | 关键环节必须人工介入 |
┌────────────────────────────────────────────────────────────┐
│ 完整的技能进化框架 │
│ │
│ ┌──────────────────────┐ ┌──────────────────────┐ │
│ │ GenericAgent │ + │ skill-creator │ │
│ │ (自进化) │ │ (可验证) │ │
│ └──────────┬───────────┘ └──────────┬───────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌──────────────────────────────────────────────────┐ │
│ │ 技能资产层 │ │
│ │ • 执行路径自动固化为 Skill │ │
│ │ • 通过评估验证质量 │ │
│ │ • 量化指标驱动迭代优化 │ │
│ └──────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────────┐ │
│ │ 可信赖的技能生态 │ │
│ │ 自进化 + 可验证 = 持续改进的技能资产 │ │
│ └──────────────────────────────────────────────────┘ │
└────────────────────────────────────────────────────────────┘
---
通过 Subagent 机制严格隔离上下文,避免了主 Agent 与 Subagent 之间、不同测试用例之间的 Context 污染。
Grader Agent 不仅是打分: 1. Evaluate:核对 Rubric 判定 PASS/FAIL 2. Verify Claims:主动提取隐性声明(Implicit Claims)做事实核查 3. Critique Evals:反向审视测试用例本身的合理性
A/B 双盲比较确保评判基于输出质量本身,而非"新旧=好坏"的先入为主。
不仅关注最终成功率,还将方差、异常值、Token 消耗等性能指标纳入考量。
从 Prompt Engineering → Eval-Driven Engineering (Harness Engineering)
---
1. 从小技能开始:用 skill-creator 构建你的第一个 skill,利用已有的 MCP server 构建核心工作流 2. 建立评测习惯:每次修改 skill 后运行评测,而非仅凭感觉判断 3. 关注触发准确性:好的 description 是技能被使用的前提 4. 利用渐进式披露:长技能内容放到 references/,SKILL.md 保持精简
┌────────────────────────────────────────────────────────────┐
│ 技能进化飞轮 │
│ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ Generic │ │ Skill │ │ Evalu- │ │
│ │ Agent │────►│ Assets │────►│ ation │ │
│ │ (探索) │ │ (沉淀) │ │ (验证) │ │
│ └─────────┘ └─────────┘ └────┬────┘ │
│ ▲ │ │
│ │ ▼ │
│ │ ┌─────────────┐ │
│ └───────────────────────│ 迭代优化 │ │
│ │ (Human-in- │ │
│ │ loop) │ │
│ └─────────────┘ │
└────────────────────────────────────────────────────────────┘
1. 捕获团队最佳实践:将重复的工作流固化为 Skills 2. 建立质量门槛:设定 Pass Rate、Time、Tokens 的基线 3. 持续迭代:根据实际使用反馈不断优化 4. 可组合使用:多个 Skills 可以同时启用,Claude 会自动协调
1. 治理框架:建立 Skill 的评审、发布、版本管理流程 2. 共享技能库:团队共享经过验证的 Skills,避免重复造轮子 3. 量化 ROI:通过对比测试(有 Skill vs 无 Skill)证明价值 4. 与业务流程绑定:Skills 是将 AI 从实验性工具变为生产力工具的清晰路径
---
- description 优化可以自动化,但 Skill Body 的指令与代码优化依然高度依赖人机协作
- 触发评估存在"简单查询问题":Claude 能直接处理的简单任务不会触发 Skills
- 评估用例设计质量直接影响优化效果,"坏查询导致坏描述"
- Skill-RL:北卡大学教堂山分校的论文提出将 agent 的"原始轨迹记忆"升级为"可复用 skill"的递归技能增强 RL 框架
- Skills 在这一过程中扮演知识沉淀和经验抽象的核心作用,推动 Agent 真正从过去经验中抽象出高层策略
skill-creator 的评测与优化机制代表了 Agent 开发模式从手动调优向评估驱动工程的范式转变。其核心价值在于:
1. 可验证:通过量化指标证明 Skill 的价值 2. 可迭代:通过评测闭环持续改进 3. 可信赖:通过隔离执行、双盲比较确保评估客观性 4. 可组合:与 GenericAgent 等工具形成完整的技能进化框架
对于 AI Agent 的未来,Skills 正是这个生态中一块重要的拼图,它将挖掘更多的隐式知识,抽象更多的人类先验,为 agent 的持续进化提供知识沉淀和经验抽象的核心作用。
---