AI 底层逻辑 / 经典论文

AI Requirements Engineering / GQM：Eval Contracts

一句话:

380 行ai-foundations/papers/63-ai-requirements-engineering-gqm-eval-contracts.md

AI Requirements Engineering / GQM / Eval Contracts 解读

面向对象: AI Product Lead / AI Architect / Senior BA / CBAP / Model Risk / QA Lead。核心问题: 很多 AI 项目失败不是因为模型不够强, 而是因为需求仍停留在“做一个智能助手”“提高效率”“减少人工”这类愿望层。没有把业务目标拆成可测问题、指标、样本、阈值、上线门禁和运营反馈, AI 团队就只能用 demo 感觉替代工程证据。学习目标: 用 Goal Question Metric (GQM) 的思想, 把 AI idea 转成 eval contract, 并让 PRD、架构评审、风险接受、上线门禁和生产监控共享同一套度量语言。

Source Anchors

Source	Link	用途
Goal Question Metric Approach	https://www.cs.umd.edu/~basili/publications/technical/T89.pdf	用 goal-question-metric 把抽象目标转化为可回答的问题和可收集的指标
NIST AI Risk Management Framework	https://www.nist.gov/itl/ai-risk-management-framework	把 AI 需求连接到 Govern / Map / Measure / Manage 的风险治理循环
Microsoft Guidelines for Human-AI Interaction	https://www.microsoft.com/en-us/research/publication/guidelines-for-human-ai-interaction/	把用户期望、系统能力表达、失败处理、反馈和人工控制纳入 AI 产品需求
Google PAIR Guidebook	https://pair.withgoogle.com/guidebook/	参考以用户任务、数据、反馈和解释为中心的 AI 产品设计方法

一句话:

AI 需求工程不是把用户故事写得更细, 而是把业务目标、AI 行为、风险边界和上线证据绑定成可验证的 eval contract。

1. 为什么 CBAP 之后还需要升级

CBAP 能力已经覆盖需求获取、分析、建模、验证、干系人管理和价值交付。但 AI 系统引入了几个传统需求方法不擅长的问题:

AI 变化	传统需求容易漏掉	高级需求工程要补上的能力
输出是概率性的	用“系统应当返回正确答案”描述不可验证	定义任务分布、错误类型、可接受阈值和样本集
行为依赖数据和上下文	只写功能流程, 不写数据覆盖	绑定数据来源、样本代表性、权限、freshness 和 lineage
模型会变化	需求看似稳定, 系统行为漂移	把 regression eval、版本、监控和回滚写进需求
用户会过度信任 AI	只写响应内容, 不写信任校准	设计 uncertainty、citation、escalation、human control
风险不是单点缺陷	UAT 通过不代表生产可接受	用 risk-tiered eval gate 和 post-release monitoring 管理残余风险

对高级 BA / PM 来说, 重点不再是“会不会写 user story”, 而是能不能回答:

这个 AI 功能的业务目标能否被测量？
哪些问题必须被回答后才能上线？
哪些指标是产品成功指标, 哪些是模型质量指标, 哪些是风险控制指标？
eval 样本是否代表真实工作流, 而不是只覆盖 demo happy path？
哪些错误可接受, 哪些错误必须人工拦截或禁止自动化？
生产中出现什么信号会触发暂停、回滚、重新训练或策略调整？

2. GQM 的核心思想

GQM 的基本结构是:

Goal -> Question -> Metric

在 AI 项目中需要扩展成:

Business Goal
  -> Decision Question
  -> Product / Model / Risk Metric
  -> Eval Dataset
  -> Acceptance Threshold
  -> Release Gate
  -> Monitoring Signal
  -> Ownership and Review Cadence

这就是 eval contract。它不是单独的测试文档, 而是连接需求、架构、数据、模型、风险和运营的契约。

2.1 Goal

Goal 不是“使用 AI”。Goal 要说明业务对象、改进方向、范围和约束。

弱目标:

用 AI 提高客服效率。

更强目标:

在信用卡争议交易场景中, 用 AI Copilot 帮助一线客服更快定位政策、交易证据和下一步动作, 在不降低合规准确率和客户信任的前提下, 将平均处理时长降低 15%。

2.2 Question

Question 把目标变成必须回答的判断问题:

AI 是否能正确识别客户意图和争议类型？
AI 引用的政策是否来自最新、授权、可审计的知识源？
AI 建议是否减少处理时长, 还是只把认知负担转移给客服？
AI 在不确定时是否会升级给人工或提示置信边界？
AI 是否在高风险交易、投诉、监管敏感话术中保持保守？

2.3 Metric

Metric 需要分层:

层级	示例	说明
Business Metric	AHT、一次解决率、投诉率、返工率、客户满意度	证明业务价值
Product Metric	AI 建议采纳率、人工编辑率、引用点击率、升级率	证明用户在真实流程中如何使用
Model / System Metric	intent accuracy、groundedness、citation precision、latency、cost	证明系统能力
Risk Metric	高风险错误率、PII 泄露率、policy violation、over-automation incident	证明风险可控
Operation Metric	drift、知识库 freshness、case backlog、manual review load	证明生产可运营

3. AI Eval Contract

Eval contract 是 AI 需求的可执行版本。它回答“什么叫满足需求”。

Use Case:
  信用卡争议交易客服 Copilot

Goal:
  降低平均处理时长, 同时保持合规准确率和客户权益保护。

Decision Questions:
  Q1: Copilot 是否能识别争议类型和所需证据?
  Q2: Copilot 是否能从授权政策库引用正确依据?
  Q3: Copilot 是否能识别必须人工升级的场景?
  Q4: Copilot 是否会输出不允许的承诺、误导性话术或未经授权的退款建议?

Metrics:
  - dispute_type_accuracy >= 0.92
  - citation_precision >= 0.95
  - high_risk_escalation_recall >= 0.98
  - prohibited_claim_rate <= 0.01
  - p95_latency <= 4s
  - average_handle_time_reduction >= 15% in pilot

Eval Data:
  - 400 historical cases, stratified by dispute type, risk tier, channel, language
  - 80 adversarial / edge cases
  - 60 policy freshness cases
  - 50 human-written gold responses

Release Gate:
  - offline eval passes all critical thresholds
  - red-team high-risk failures remediated
  - pilot group shows no increase in complaint rate
  - compliance and operations sign-off recorded

Monitoring:
  - weekly regression eval
  - production sample review 5%
  - incident trigger if prohibited_claim_rate > 0.02 for any week
  - rollback if high-risk escalation recall drops below 0.95

Owner:
  PM: business outcome
  Architect: system controls
  Model Risk: eval adequacy
  Ops: review process

4. AI Requirement Taxonomy

高级 AI 需求不能只分 functional / non-functional。更有用的是按 AI 行为链条分类。

需求类型	核心问题	典型产物
Outcome Requirement	业务上要改善什么, 可接受边界是什么	outcome statement、KPI tree
Task Requirement	AI 在工作流中到底做哪类任务	task map、automation level
Data Requirement	需要什么数据、谁拥有、是否可用、是否合规	data contract、source authority
Knowledge Requirement	RAG 知识源如何授权、更新、引用和过期	knowledge policy、retrieval eval
Behavior Requirement	AI 输出应具备什么属性	answer policy、tone、format、constraints
Human Control Requirement	何时人工确认、编辑、拒绝、接管	HITL matrix、override policy
Quality Attribute Requirement	准确性、延迟、成本、可解释、可审计、可恢复等	quality attribute scenarios
Risk Requirement	哪些 harm 必须避免, residual risk 谁接受	risk register、safety constraints
Eval Requirement	用什么样本和阈值证明可上线	eval plan、test set card
Monitoring Requirement	生产中如何发现退化和风险	dashboards、alert rules
Governance Requirement	谁批准、谁复盘、谁能关闭能力	RACI、release gate

5. 从 PRD 到 Eval 的链路

AI PRD 中每个关键需求都应能追到 eval。

PRD Section	Eval Contract Section	架构/治理连接
Problem Statement	Business Goal	业务价值假设和风险分级
User Journey	Task Requirement	human-AI handoff 和流程控制
AI Capability	Decision Questions	pattern choice: RAG、agent、classifier、workflow
Data Scope	Eval Data / Data Contract	数据权限、lineage、privacy
Success Metrics	Metrics / Thresholds	release gate 和 monitoring
Edge Cases	Adversarial / Long-tail Eval	safety、robustness、escalation
Compliance Notes	Risk Metrics / Owner	risk acceptance、audit evidence
Rollout Plan	Release Gate / Monitoring	pilot、fallback、rollback

关键原则:

没有 eval 的 AI 需求只是愿望。
没有风险指标的 eval 只是性能测试。
没有生产监控的 release gate 只是一次性审查。
没有 owner 的 threshold 无法形成治理。

6. 金融零售场景

6.1 AML Alert Triage Copilot

Goal:

在不降低 SAR 风险识别质量的前提下, 帮助 AML analyst 更快聚合客户、交易、规则命中和历史处置依据, 将低风险 alert 的初审时间降低 20%。

Decision Questions:

Copilot 是否正确总结 alert 触发原因？
是否能区分事实、推断和建议？
是否引用正确交易、客户档案和历史 case？
是否遗漏高风险 typology signal？
analyst 是否因为 AI summary 降低必要调查深度？

Metrics:

指标	Gate
critical fact omission rate	<= 1%
citation precision	>= 96%
high-risk escalation recall	>= 98%
analyst edit distance	监控趋势, 不单独作为通过条件
average triage time	pilot 降低 >= 20%

6.2 Customer Service Copilot

重点不是“回答更自然”, 而是:

政策引用正确。
不承诺未经授权补偿。
不暴露内部风险规则。
不把复杂投诉错误降级。
能在信心不足时建议人工升级。

6.3 Credit Decision Support

信贷 AI 不能只看 prediction accuracy。需求要覆盖:

adverse action reason 是否一致、可解释、合规。
模型建议是否被人工理解和适当挑战。
低收入、薄文件客户、特定地区客户是否出现系统性不利影响。
override 是否被记录和复盘。
模型漂移是否会触发 credit policy review。

6.4 Wealth Advisor Assistant

财富/投顾 AI 的 eval contract 要区分:

教育性解释。
产品信息检索。
组合摘要。
个性化建议。
受监管的投资建议。

不同任务对应不同 automation level 和 risk gate。

7. 模板: AI Requirement Brief

# AI Requirement Brief: [Use Case]

## 1. Business Outcome
- Target business process:
- Current pain:
- Expected improvement:
- Non-negotiable constraints:

## 2. AI Task Boundary
- AI will:
- AI will not:
- Automation level: assist / recommend / decide / act
- Human control point:

## 3. Data and Knowledge Scope
- Authorized sources:
- Excluded sources:
- Freshness requirement:
- PII / sensitive data handling:
- Source owner:

## 4. GQM
| Goal | Question | Metric | Threshold | Owner |
|---|---|---|---|---|

## 5. Eval Contract
- Golden set composition:
- Edge cases:
- Red-team cases:
- Human review method:
- Release gate:

## 6. Production Monitoring
- Metrics:
- Alert thresholds:
- Review cadence:
- Rollback trigger:

## 7. Risk Acceptance
- Residual risk:
- Mitigation:
- Approver:
- Expiry / review date:

8. 常见反模式

反模式	症状	修正
Demo-driven requirement	会议上看起来很好, 但没有样本和阈值	先写 GQM, 再做 demo
Accuracy monoculture	所有问题都用 accuracy 解释	分 business、product、risk、ops 指标
Prompt as requirement	把 prompt 当需求文档	prompt 只是实现 artifact, 需求必须描述目标和证据
Vague HITL	写“人工审核”但不定义谁审、审什么、何时审	写 HITL matrix 和 reviewer workload
Eval after build	开发完才问怎么验收	需求阶段定义 eval contract
No negative cases	只测正确使用场景	加 adversarial、edge、policy conflict 和 stale knowledge cases
Metric without owner	阈值没人负责	每个 gate 绑定 owner 和 review cadence

9. 面试回答

Q1: 你如何把一个模糊的 AI 需求变成可交付项目？

30 秒版本:

我会先拒绝把“做 AI 助手”当需求, 用 GQM 把业务目标拆成必须回答的问题和指标, 再形成 eval contract: 样本、阈值、上线门禁、风险 owner 和生产监控。这样 PRD、架构、模型和风险团队讨论的是同一组证据。

2 分钟版本:

先定义业务 outcome 和 AI task boundary。
再用 GQM 找到关键 decision questions。
把问题映射到 business、product、model、risk、operation 指标。
定义 golden set、edge cases、red-team cases 和 human review 方法。
把阈值写成 release gate, 把漂移和异常写成 monitoring gate。
对金融场景, 我会特别关注客户权益、合规准确率、人工控制点和残余风险批准。

Q2: AI 产品的验收标准和普通软件有什么不同？

30 秒版本:

普通软件验收偏 deterministic pass/fail, AI 验收要覆盖概率行为、长尾错误、风险边界、人机协作和上线后漂移, 所以必须把 eval 和 monitoring 纳入需求本身。

追问准备:

追问	回答要点
只用 UAT 不够吗?	UAT 只能覆盖流程接受, 不能证明任务分布、edge case 和风险阈值
指标太多怎么办?	按 risk tier 分 critical gate、supporting metric、diagnostic metric
业务不懂 eval 怎么办?	用真实 case 和错误类型对齐, 不从模型术语开始

10. 作品集交付物

如果要展示高级 AI PM / AI BA / AI Architect 能力, 可以做一套:

AI Requirement Brief。
GQM Matrix。
Eval Contract。
Golden Set Card。
HITL Matrix。
Release Gate Checklist。
Production Monitoring Dashboard Mock。
Risk Acceptance Note。
ADR: why this AI pattern is acceptable。

这套作品比“我会写 PRD”更有辨识度, 因为它说明你能把 AI 的不确定性转化为可治理的交付系统。