Build Eval Dataset From Real User Questions:评测集别再靠想象题

HTMLPAGE 团队
15 分钟阅读

用理想化样本做 Eval 往往高分低用。本文讲清如何从真实用户问题构建评测集,并形成可持续更新机制。

#AI agent #Eval Dataset #用户问题 #评测治理

很多团队的 Eval 分数很好看,但上线后用户仍不满意,根因通常是样本来源错了。评测集来自“工程师想象的问题”,而不是“用户真实提问”。

真实问题样本的四个来源

  • 线上会话去标识化日志
  • 客服工单与升级单
  • 销售/运营常见异议
  • 失败 run 的 replay 样本

关键原则:以“高频 + 高损失 + 高风险”优先入库。

样本结构建议

字段说明
scenario场景标签(售前、运维、审批等)
user_input原始问题(脱敏后)
expected_outcome期望结果或动作
must_not明确禁止行为
judge_rule评分规则

没有 must_not 的样本,常常无法覆盖安全边界。

数据集更新节奏

  • 每周增量收集真实问题
  • 每两周做一次去重与标签清洗
  • 每月冻结一个可回溯版本

建议采用 dataset@YYYY.MM.WW 版本命名,和发布 bundle 对齐。

失败案例:评测集全是“标准提问”

某团队数据集几乎都是结构完整的问题句,线上却大量出现省略式提问和上下文跳转提问,导致模型上线后命中率急降。修复后加入真实脏样本(口语、错别字、上下文省略)并重训评测规则,线上表现才回稳。

评测集建设 Checklist

  • 至少 60% 样本来自真实用户问题
  • 样本包含不完整输入与脏数据
  • 每个样本有 must_not 约束
  • 数据集有版本号与变更说明
  • 发布前使用同版本数据集回归

延伸阅读: