Build Eval Dataset From Real User Questions：评测集别再靠想象题

HTMLPAGE 团队

2026年5月28日

15 分钟阅读

用理想化样本做 Eval 往往高分低用。本文讲清如何从真实用户问题构建评测集，并形成可持续更新机制。

#AI agent #Eval Dataset #用户问题 #评测治理

很多团队的 Eval 分数很好看，但上线后用户仍不满意，根因通常是样本来源错了。评测集来自“工程师想象的问题”，而不是“用户真实提问”。

真实问题样本的四个来源

线上会话去标识化日志
客服工单与升级单
销售/运营常见异议
失败 run 的 replay 样本

关键原则：以“高频 + 高损失 + 高风险”优先入库。

样本结构建议

字段	说明
scenario	场景标签（售前、运维、审批等）
user_input	原始问题（脱敏后）
expected_outcome	期望结果或动作
must_not	明确禁止行为
judge_rule	评分规则

没有 must_not 的样本，常常无法覆盖安全边界。

数据集更新节奏

每周增量收集真实问题
每两周做一次去重与标签清洗
每月冻结一个可回溯版本

建议采用 dataset@YYYY.MM.WW 版本命名，和发布 bundle 对齐。

失败案例：评测集全是“标准提问”

某团队数据集几乎都是结构完整的问题句，线上却大量出现省略式提问和上下文跳转提问，导致模型上线后命中率急降。修复后加入真实脏样本（口语、错别字、上下文省略）并重训评测规则，线上表现才回稳。

评测集建设 Checklist

至少 60% 样本来自真实用户问题
样本包含不完整输入与脏数据
每个样本有 must_not 约束
数据集有版本号与变更说明
发布前使用同版本数据集回归

延伸阅读：

相关标签

# AI agent # Eval Dataset # 用户问题 # 评测治理

返回专题列表

相关文章推荐

Cursor 快捷键速查表（macOS/Windows）：从“会用”到“能提效”的 10 个工作流

Cursor 快捷键速查表（macOS/Windows）：从“会用”到“能提效”的 10 个工作流

把 Cursor 常用快捷键按任务分组（查代码、改代码、多文件、对话、审查与回滚），给出可直接照抄的工作流与最小回归清单，避免“快捷键背了也没变快”。

Cursor vs GitHub Copilot vs VS Code：怎么选、怎么搭配、怎么把风险关在笼子里

Cursor vs GitHub Copilot vs VS Code：怎么选、怎么搭配、怎么把风险关在笼子里

用“任务类型×风险×验收成本”的选择矩阵解释 Cursor/Copilot/VS Code 的差异，并给出一套可落地的协作工作流（范围闸门、最小回归集、回滚策略）。

AI 辅助调试与问题排查：让 AI 成为你的调试搭档

AI 辅助调试与问题排查：让 AI 成为你的调试搭档

深入探讨如何利用 AI 工具提升调试效率，包括错误信息分析、日志解读、性能问题定位、复杂 bug 排查等实战场景，构建 AI 驱动的调试工作流。