适用于想建立自己的技能评测体系的个人开发者或小型团队
---
┌─────────────┐
│ 性能比较 │ ← 证明 Skill 带来了改善
├─────────────┤
│ 功能测试 │ ← 验证输出质量
├─────────────┤
│ 触发测试 │ ← 确保该触发时触发
└─────────────┘
[
{"query": "帮我填写这个 PDF 表单", "should_trigger": true},
{"query": "创建带 5 个任务的项目", "should_trigger": true},
{"query": "今天天气怎么样", "should_trigger": false},
{"query": "帮我写个 Python 脚本", "should_trigger": false}
]
注意事项:
- should-not-trigger 的查询要有挑战性("写 Python 脚本" 作为 PDF 技能的负例太简单)
- 寻找"near-misses":那些共享关键词但实际需求不同的查询
- 至少 10 个正例 + 10 个负例
{
"skill_name": "pdf-filler",
"evals": [
{
"id": 1,
"prompt": "帮我填写 ~/Downloads/application.pdf,姓名为张三",
"expected_output": "成功生成填写后的 PDF 文件",
"files": ["~/Downloads/application.pdf"],
"expectations": [
"输出文件存在于文件系统",
"PDF 内容包含'张三'",
"其他原有内容保持不变"
]
}
]
}
┌─────────────────────────────────────────────────────────┐
│ 评测迭代飞轮 │
│ │
│ 准备测试集 ──► 运行评测 ──► 审查结果 ──► 优化 Skill │
│ ▲ │ │
│ └──────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────┘
---
┌────────────────────────────────────────────────────────────┐
│ 一体化技能进化系统 │
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐│
│ │ GenericAgent │ + │ skill-creator│ + │ 业务知识 ││
│ │ (探索) │ │ (验证) │ │ (沉淀) ││
│ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘│
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────────────────────────────────────────────────┤
│ │ 技能资产层 │
│ │ • 执行路径自动捕获 → GenericAgent │
│ │ • 评测验证质量保障 → skill-creator │
│ │ • 业务逻辑深度嵌入 → 你自己 │
│ └─────────────────────────────────────────────────────────┤
└────────────────────────────────────────────────────────────┘
| 技能类别 | 示例 | 触发关键词 |
|---|---|---|
| 内容创作 | 写小红书笔记、公众号文章 | "写一篇关于..." |
| 数据分析 | 生成图表、处理 CSV | "分析这份数据" |
| 文档处理 | PDF 填写、Word 转换 | "帮我填写这个表" |
| 代码开发 | 编写测试、重构代码 | "为这个函数写测试" |
参考 Anthropic 建议的成功指标:
| 指标 | 目标值 | 测量方法 |
|---|---|---|
| 触发率 | ~90% 相关查询 | 运行 10-20 个测试查询 |
| 通过率 | ≥80% | 断言通过数 / 总断言数 |
| Token 节省 | 相比无 Skill 节省 30%+ | benchmark 对比 |
| API 错误 | 0 次失败 | 监控执行日志 |
1. 编写 Skill 后立即创建测试集
2. 运行基础功能测试(2-3 个用例)
3. 审查输出质量
4. 根据反馈优化
5. 上线后收集真实使用反馈
6. 每月进行一次全面评测
---
A: 从 3-5 个核心用例开始,重点覆盖:
- 最常见的用户场景
- 最容易出错的边界情况
- 最有区分度的对比场景
A: 检查 description 是否包含足够的关键词。参考模式:
"当用户说 [具体动作] + [具体对象] 时使用,例如:[示例触发语]"
A: 建议配比:
- 简单判断(文件存在、格式正确):自动化 ✓
- 质量判断(表达流畅、逻辑清晰):人工审查 ✓
- 风格判断(符合个人/品牌调性):人工审查 ✓
| 指标 | 含义 | 目标 |
|---|---|---|
| Precision | 触发时正确的比例 | > 90% |
| Recall | 覆盖了多少该触发的场景 | > 85% |
| Pass Rate | 断言通过比例 | > 80% |
| Delta | 相比基线的改善 | 越高越好 |
| 脚本 | 用途 |
|---|---|
run_eval.py |
运行触发评估 |
run_loop.py |
自动迭代优化 |
generate_review.py |
生成 HTML 查看器 |
---
本文档基于 Anthropic skill-creator 官方文档和社区实践整理