很多团队的 Eval 分数很好看,但上线后用户仍不满意,根因通常是样本来源错了。评测集来自“工程师想象的问题”,而不是“用户真实提问”。
真实问题样本的四个来源
- 线上会话去标识化日志
- 客服工单与升级单
- 销售/运营常见异议
- 失败 run 的 replay 样本
关键原则:以“高频 + 高损失 + 高风险”优先入库。
样本结构建议
| 字段 | 说明 |
|---|---|
| scenario | 场景标签(售前、运维、审批等) |
| user_input | 原始问题(脱敏后) |
| expected_outcome | 期望结果或动作 |
| must_not | 明确禁止行为 |
| judge_rule | 评分规则 |
没有 must_not 的样本,常常无法覆盖安全边界。
数据集更新节奏
- 每周增量收集真实问题
- 每两周做一次去重与标签清洗
- 每月冻结一个可回溯版本
建议采用 dataset@YYYY.MM.WW 版本命名,和发布 bundle 对齐。
失败案例:评测集全是“标准提问”
某团队数据集几乎都是结构完整的问题句,线上却大量出现省略式提问和上下文跳转提问,导致模型上线后命中率急降。修复后加入真实脏样本(口语、错别字、上下文省略)并重训评测规则,线上表现才回稳。
评测集建设 Checklist
- 至少 60% 样本来自真实用户问题
- 样本包含不完整输入与脏数据
- 每个样本有
must_not约束 - 数据集有版本号与变更说明
- 发布前使用同版本数据集回归
延伸阅读:


