AI MVP 范围模板：验收标准、评测集、上线门槛，以及哪些内容应写进 SoW

为 AI MVP 划定范围与普通软件 MVP 不同，因为这个系统是概率性的，而不是确定性的。"用户可以重置密码"是一个二元判断，你可以把它写成通过或失败的测试。"助手回答正确"则不是，因为同一个问题在模型版本、温度或措辞改变时会产生不同的答案。所以你要用四样东西取代"它能用"，而且这四样必须在钱易手之前就写进工作说明书：一个带有黄金答案的版本化评测集、该评测集上的目标指标与阈值、一个决定能否上线的上线门槛，以及对不确定情形的明确处理外加回滚机制。如果某供应商的范围写着"构建一个 AI 助手"却不含这四样中的任何一样，那他划定的只是一个演示，而你将在加固阶段为这道缺口买单。下方附有一份可直接复制的模板。

这正是创始人在采购之前在内部传阅的那份文档。它从构建方的角度撰写，把那些棘手的问题都摆到了明面上。监管日期截至 2026 年中有效，凡处于变动中的均已注明保留。

想在与代理机构签约之前对这份范围做一次压力测试吗？

预约免费咨询

为什么"它能用"对 AI 不管用

在普通软件中，验收是二元的：给定输入 X，断言输出 Y，完成。对于同一个输入，LLM 在多次运行之间会给出不同的输出，所以"聊天机器人回答精准"背后并没有任何测试。没有数字、没有界定好的集合、没有底线，没有东西可签字确认，质量糟糕时也没有东西可据理力争。解决办法是统计性的，而非二元的。你在一个界定好的集合上接受一个测得的比率，最好在多次运行间取平均，而对于可复现的回归检查，在用例允许之处把温度固定为零。第二个陷阱紧随而来：对某个情形的修复会悄悄破坏另一个，所以评测集必须在每次提示词或模型变更时都作为门槛运行，而不是只在最后跑一次。正是这一个转变，从"它能用"转到"它每一次都在这个集合上越过这道线"，才是把一个 AI 构建范围划好的全部意义所在。

AI MVP 的工作说明书必须钉死哪些内容

每一节都得对得起自己的位置。承重的几节是评测集、验收标准和上线门槛。

章节	它必须钉死什么
问题 + 一个结果	一句话。MVP 必须完成的那一项用户任务。凡不为它服务的，都在范围之外。
范围内与范围外	两份清单。范围外清单才是承重的那一份：把你不打算构建的那些诱人功能（多语言、语音、微调、移动端）点名列出，让它们成为变更请求，而不是默认假设。
功能 + AI 行为规格	常规需求外加 AI 行为：任务、语气、拒答行为（何时必须说"我不知道"）、引用要求，以及在低置信度或检索未命中时的回退。这里就是你为不确定情形编码的地方。
验收标准	在一个具名评测集上的目标指标加阈值。绝不能是"它能用"。示例见下。
评测集	多少个案例（大约 100 个是一个可行的 MVP 底线，~200 个用于更完整的集合；十个几乎说明不了什么）、黄金答案归谁所有（你这一方的领域专家，而非供应商一家）、以及每个案例如何打分：对客观字段做确定性检查，用 LLM-as-judge 以二元通过或失败来评判细微的质量，再用人工复核来校准。
上线门槛 + 回滚	可衡量的上线门槛，由产品、工程和 QA 在编写测试之前共同商定，外加一个自动回滚触发器和一个终止判据。
数据	来源、出处、使用权（训练与检索）、PII 处理以及数据驻留。看得到提示词的模型 API 是一个次级处理者：它需要一份 DPA 以及不训练、零留存的配置，而不是面向消费者的条款。
非功能性	延迟预算（对于流式 UI，time-to-first-token 是首要 SLA）、每次动作的成本预算（输出 token 的成本是输入的数倍，且智能体式流程会把一次动作扇出成许多次调用），以及对每一次模型调用的日志记录。
安全与合规	认证、权限模型与租户隔离、GDPR（处理活动记录、合法依据、对高风险的 DPIA、次级处理者 DPA），以及在应用与用户对话之处的 EU AI Act 透明度。
里程碑、付款、IP、交接	分阶段的探索、构建、评测与加固、上线，按阶段付款。付款后 IP 归你所有。一份具名的交接产物清单。

验收标准：错与对

正是这一节决定了你能否对供应商有所约束。

错，因为没有数字、没有集合、也没有底线："聊天机器人正确回答客户的问题"、"助手准确而有帮助"、"模型很少幻觉"、"它在测试中表现良好"。

对，在商定好的、带固定黄金答案的 100 案例评测集上：

至少 90% 的忠实回答，扎根于检索到的上下文，由 LLM-as-judge 以二元通过或失败打分，并对照人工标注进行校准；
至少 85% 的回答相关性；
有害或违反政策的输出低于 2%，作为硬性门槛，任何单条有害输出都阻止上线；
在至少 95% 的无法回答的测试案例上拒答或上报；
p95 time-to-first-token 低于 2 秒，p95 完整响应低于 4 秒；
在商定的模型下每次对话成本低于 EUR 0.05；
部署前的评测运行中，任何指标都不低于其底线。

把这些确切阈值当作根据你的风险来谈判的起点，而非金科玉律。供应商通常把忠实度达到或高于 0.75、幻觉低于 5%（高风险场景为 1%）作为生产起点；你应根据一个错误答案对你意味着多大代价来设定自己的阈值。你在这里划定的评测集，正是投资人技术尽调将索要的同一份证据，我们在AI MVP 技术尽调清单中有所覆盖，而打分方法见LLM 评测何时值得构建。

可直接复制的范围模板

粘贴它，填好方括号，删掉不适用的部分。在你拿到任何一份提案之前就把它传阅一遍。

AI MVP 范围 / SoW，[项目名称]
日期 [日期] · 版本 [v0.1] · 负责人 [姓名]

1. 问题 + 一个结果。 问题：[一句话]。这个 MVP 必须交付的那一个结果：[用户] 能够 [做 X]，以便 [Y]。

2. 范围。 范围内：[功能 1]、[功能 2]。范围外，仅限变更请求：[多语言]、[语音]、[微调]、[移动端]。

3. 功能 + AI 行为。 功能：[清单]。AI 行为：任务 [具体做什么]、语气 [简洁，不臆测]、引用 [必须或不得扎根于来源]、拒答 [当超出范围或低置信度时，说"我不知道"或上报]、回退 [备用模型、缓存答案或转交人工]。

4. 验收标准。 在商定好的 [100] 案例评测集上：忠实度 >= [90]%；相关性 >= [85]%；有害输出 < [2]%（任何单条失败都阻止上线）；无法回答案例上的正确拒答 >= [95]%；p95 time-to-first-token < [2]s；p95 完整响应 < [4]s；在模型 [X] 下每次对话成本 < [EUR 0.05]；部署前任何指标都不低于其底线。

5. 评测集。 规模 [100] 个案例（[X] 个顺畅路径、[Y] 个边缘、[Z] 个无法回答）。黄金答案负责人：[客户方领域专家]。打分：对 [客观字段] 做确定性检查，对 [质量] 用 LLM-as-judge 通过或失败，人工复核用于校准。存储并版本化于 [位置]。

6. 上线门槛 + 回滚。 当第 4 节的所有底线均达成、并经 [产品] + [工程] + [QA] 签字确认后上线。回滚：若 [指标] 在一个 [窗口] 内跌破 [底线]，自动回退。终止判据：若 [忠实度 < X% 或出现任何有害输出]，则不发布。

7. 数据。 来源 [清单]、出处与权利 [按来源]、PII [处理什么以及如何处理]、驻留 [欧盟区域]。模型提供方：已签 DPA、不训练、零留存。

8. 非功能性。 延迟与成本预算如第 4 节所述。可观测性：将每一次模型调用（提示词、响应、token、成本）记录到 [工具]，每日成本告警阈值为 [阈值]。

9. 安全 + 合规。 认证 [方法]、权限与租户隔离 [模型]、GDPR（处理活动记录、合法依据、高风险时的 DPIA、次级处理者 DPA）、若应用与用户对话则自 2026 年 8 月 2 日起的 EU AI Act 第 50 条透明度，且不得制定任何假设某项尚未生效的延期的计划。

10. 里程碑 + 付款。 探索、构建、评测与加固、上线，按阶段付款。付款后 IP 归 [客户] 所有。交接：评测集与结果、提示词与模型登记表、架构与数据流图、运行手册、日志访问、凭据。签字确认：客户 [__] 供应商 [__] 日期 [__]。

"如果范围无法用数字告诉你足够好长什么样、以及模型出错时会发生什么，那它就不是范围。它只是一个愿望。评测集和上线门槛是把一个 AI 演示变成你真正能够采购之物的那两行字。"

关于 AI Act 的一点说明

如果你的应用与用户交互，EU AI Act 第 50 条的透明度义务，包括告知用户他们正在与 AI 打交道，自 2026 年 8 月 2 日起适用，且基本不受拟议变更影响。大多数高风险义务原本也在那时到期。2026 年的一项临时协议会把独立的高风险义务推迟到 2027 年末，但截至 2026 年中，这尚未成为法律，且只有在正式通过后才生效。不要围绕一项尚未颁布生效的延期来划定你的合规计划。

常见问题

如何为一项 AI 功能编写验收标准？

不要写成"它能用。"你要在一个具名评测集上定义目标指标和阈值，例如在 100 案例集上至少 90% 的忠实回答、有害输出低于 2%、p95 延迟低于 4 秒、每次对话成本低于 EUR 0.05。由于系统是概率性的，你接受的是多次运行间测得的比率，而不是单次的通过或失败。

什么是评测集？

一个版本化、归属明确的代表性输入案例集合，配有商定好的黄金答案，用于客观衡量质量，并在每次提示词或模型变更时捕捉回归。大约 100 个案例是一个可行的 MVP 底线，约 200 个用于更完整的集合。十个案例几乎说明不了什么。

评测集应归谁所有？

你这一方的领域专家，而非供应商一家。知道正确答案长什么样的那个人必须定义黄金答案，否则你就是在让构建方批改自己的作业。

评测案例如何打分？

三种方式，常常组合使用：对日期、ID、JSON 结构等客观字段做确定性代码检查；用 LLM-as-judge 评判细微的质量，采用二元通过或失败而非 1 到 5 的评分；以及用人工复核来构建和校准这个评判器。

LLM 应用的上线门槛是什么？

决定能否上线的可衡量门槛：系统在评测集上必须达到的阈值，由产品、工程和 QA 在编写任何测试之前共同商定。低于门槛就不发布。它还定义了回滚触发器和终止判据。

AI 工作说明书里应该包含什么？

问题与一个结果、范围内与范围外、功能需求外加 AI 行为规格（语气、拒答、引用、回退）、作为评测集上指标加阈值的验收标准、评测集本身、上线门槛与回滚、数据权利及 PII 与驻留、非功能性（延迟、每次动作成本、日志记录）、安全与合规，以及里程碑、付款、IP 和交接产物。

为什么我不能在范围里直接写"AI 回答正确"？

因为模型是非确定性的。同一个问题可能产生不同的答案，所以"正确"背后并没有任何测试。你需要一个界定好的集合、一个指标和一道底线，否则就没有东西可签字确认，质量糟糕时也没有东西可据理力争。

AI 出错或不确定时我该如何处理？

在范围里把它写明：一条拒答或"我不知道"的路径、向人工上报，或一个回退。然后通过在评测集中纳入无法回答的案例来测试它，并要求系统在比如至少 95% 的此类案例上拒答或上报。

AI MVP 的 SoW 需要哪些数据条款？

训练与检索数据的出处和使用权、PII 处理、相关情况下的欧盟数据驻留，以及与模型提供方签订的、配置为不训练且零留存的 DPA。看得到用户提示词的模型 API 是一个次级处理者。

EU AI Act 会影响我的 AI MVP 范围吗？

如果你的应用与用户交互，第 50 条透明度义务自 2026 年 8 月 2 日起适用。大多数高风险义务原本也在那时到期；一项拟议的延期会把独立的高风险义务移到 2027 年末，但这尚未成为法律，所以不要围绕它来划定范围。

最终思考

一份 AI MVP 范围的好坏，取决于它的评测集和上线门槛。这两行字把一句含糊的"给我们造个助手"变成了既能约束供应商、日后又能赢得投资人尊重的东西。

所以在你拿到一份提案之前，先写下那一个结果，划出范围外的界线，在一个由你自己的专家拥有的集合上定义指标和底线，决定模型不确定时会发生什么，并点明让它上线的那道门槛。上方的模板就是起点。先把它填好，你拿回来的那些提案才会谈的是同一件事，而这正是比较它们的唯一办法。

想把评测集和上线门槛内置到你的 MVP 范围里吗？