AI 扩展计划 / Playbooks

AI Requirements Engineering / GQM Eval Contracts Playbook

以下来源作为需求工程、AI 风险治理和 Human-AI Interaction 的学习锚点。本文把它们转成金融零售 AI 项目的需求、评估、门禁、监控和作品集资产, 不构成法律、合规、审计或模型验证意见。访问日期按 2026-06-29 记录。

899 行AI_REQUIREMENTS_ENGINEERING_GQM_EVAL_CONTRACTS_PLAYBOOK.md

AI Requirements Engineering / GQM / Eval Contracts Playbook

面向对象: 高级 AI PM / AI BA / Product Architect / Solutions Architect / EvalOps Lead / Model Risk / AI Governance / 金融零售转型负责人。核心问题: 如何把一个 AI idea 从“想做一个智能助手”升级为 measurable outcome、GQM questions、metrics、eval contract、release gate、monitoring gate 和可审计证据。使用方式: 每个高价值 AI use case 至少产出一张 GQM-to-Eval Contract Map、一份 Eval Contract、一份 Release Gate Memo 和一份 Monitoring Gate Spec。本文不讲 BA 入门, 重点训练 CBAP 之后的 AI 需求工程升级能力。

Source Anchors

Anchor	Official / primary source	本文使用方式
Basili GQM paper	https://www.cs.umd.edu/~basili/publications/technical/T89.pdf	用 Goal-Question-Metric 思路把 AI idea 拆成目标、问题、指标和解释模型。
NIST AI Risk Management Framework	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 组织 AI 风险识别、测量、门禁、监控和持续改进。
Microsoft Guidelines for Human-AI Interaction	https://www.microsoft.com/en-us/research/publication/guidelines-for-human-ai-interaction/	用 Human-AI Interaction 原则设计 expectation setting、context、uncertainty、correction、feedback、control 和 change notification。
NIST AI RMF Generative AI Profile	https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence	用 GenAI 特有风险组织 hallucination、data leakage、prompt injection、misuse、over-reliance 和 content provenance 的 eval cases。
Microsoft HAX Toolkit	https://www.microsoft.com/en-us/haxtoolkit/	用 failure mode 和 HAI pattern 思路把交互风险转成需求、评审和测试资产。
ISO/IEC 42001 AI Management System	https://www.iso.org/standard/81230.html	用管理体系语言组织 AI owner、policy、lifecycle、operation、performance evaluation 和 improvement。
OWASP Top 10 for LLM Applications	https://owasp.org/www-project-top-10-for-large-language-model-applications/	用 LLM 风险类别补强 prompt injection、sensitive information disclosure、excessive agency 和 insecure output handling 的需求与 red-team cases。

Standards-to-artifacts:

Source lens	可以产出的 artifact	高级面试表达
GQM	GQM sheet、question bank、metric interpretation model	“我不会从模型指标开始, 我会从业务目标和 stakeholder question 反推指标。”
NIST AI RMF	AI risk map、measure plan、release gate、monitoring gate、risk issue log	“我把 AI requirements 放入 Govern / Map / Measure / Manage 的风险闭环, 而不是只写功能验收。”
Microsoft HAI Guidelines	HAI requirement matrix、interaction control checklist、feedback loop spec	“我会把人机交互里的期望、纠错、退出、控制和变更通知写成可评估需求。”
GenAI risk references	Red-team case set、critical failure taxonomy、incident playbook	“我把幻觉、泄露、越权、过度信任和提示注入转成 release blocker 和 monitoring trigger。”

1. One-Sentence Positioning / 一句话定位

AI Requirements Engineering 的核心不是把业务方的 AI idea 写成 user story, 而是:

AI idea
-> measurable business and risk outcome
-> stakeholder questions
-> metrics and interpretation rules
-> eval contract
-> release gate
-> monitoring gate
-> production learning loop

一句话:

AI Requirements Engineering = 用 GQM 把“想要 AI 能力”转成“组织可以测量、放行、限制、监控、问责和持续改进的 AI 行为契约”。

在金融零售场景里, AI requirement 不是一句“回答准确、安全、有用”。合格的 AI requirement 必须同时回答:

业务结果是否可衡量。
AI 在流程中的介入点是否清楚。
哪些行为被允许、禁止、限制和升级。
哪些问题必须被 eval 回答。
指标如何解释为 go / limited go / no-go / rollback。
上线后哪些信号触发人工复核、降级、停用或重新评估。
证据如何支持审计、模型风险、合规和管理层决策。

2. 为什么 CBAP 后还需要升级

CBAP 证明你掌握了成熟业务分析能力: stakeholder analysis、requirements lifecycle、strategy analysis、solution evaluation、elicitation、traceability 和 change management。AI 项目不是否定这些能力, 而是要求把它们升级到概率系统、数据依赖、模型漂移、Human-AI Interaction 和风险门禁的层面。

CBAP 已有能力	AI 项目新增挑战	高级升级方式
Business need	AI idea 往往由技术能力或 vendor demo 驱动	用 measurable outcome 和 no-AI alternative 过滤伪需求
Stakeholder requirement	AI 输出影响用户、员工、模型风险、合规、审计和客户权益	把 stakeholder concern 转成 GQM question 和 evidence requirement
Acceptance criteria	AI 行为不完全确定, 单个 happy path 验收失效	用 eval contract、dataset、rubric、threshold 和 critical failure 定义验收
Requirements traceability	prompt、model、RAG、tool、policy、knowledge base 都会变化	建立 requirement -> eval case -> component version -> gate decision 的 lineage
Solution evaluation	传统 KPI 往往滞后, AI 质量和风险需要先行指标	同时管理 offline eval、online monitoring、business KPI 和 risk trigger
Change management	模型升级和知识库刷新可能改变行为	每次 AI component change 都进入 regression eval 和 release gate
Non-functional requirement	“性能、安全、可用性”不足以覆盖 AI 风险	增加 groundedness、answerability、calibration、human control、tool authority 和 auditability

CBAP 后的 AI 需求工程差异化能力:

高级能力	具体表现	可展示资产
Measurement-first discovery	从 outcome 和 decision question 开始, 不是从模型能力开始	AI Opportunity-to-GQM Canvas
Eval contract design	把需求写成可重复执行的测试、评分、阈值和门禁	Eval Contract Pack
Risk-tiered requirement	低风险问答、高风险建议、工具动作和客户影响分层	AI Requirement Taxonomy
Human-AI control design	定义人何时看见、修改、拒绝、升级、覆盖和负责	HAI Control Matrix
Evidence-driven release	每次上线有数据集、评估、缺陷、例外和审批证据	Release Gate Memo
Continuous requirement management	从线上 trace、QA、投诉和 incident 回流需求和 eval	Monitoring Gate Spec

高级表达:

CBAP 让我能定义业务问题和 stakeholder value；AI 时代的升级是把这些 value 转成可度量、可评估、可门禁、可监控、可审计的行为契约, 并把随机模型的变化纳入需求生命周期。

3. 从 AI Idea 到 Measurable Outcome

3.1 不合格的 AI idea

常见输入:

做一个 AML 智能助手。
客服机器人要更懂客户。
信贷审批用 AI 提升效率。
给理财顾问一个投顾 copilot。
用大模型总结客户画像。

这些不是需求, 只是 solution hint。高级需求工程第一步是把它们改写成业务和风险 outcome。

3.2 Outcome grammar

用下面语法约束 AI outcome:

For [workflow and role],
improve / reduce / control [business or risk metric],
from current baseline [baseline value or baseline measurement method],
to target [target value or target movement],
without violating [risk, policy, customer impact, fairness, privacy, audit constraints],
within [latency, cost, coverage, operating model boundaries].

高质量例子:

场景	不成熟表达	Outcome 表达
AML	AI 帮分析员写 case	在 AML alert investigation 中, 将证据收集和 case narrative 起草时间降低 25%, 同时保持 critical red flag omission 为 0, 所有关键结论必须有 source evidence。
客服	AI 回答更准确	在信用卡费用和争议咨询中, 提升可引用政策回答的 first-contact resolution, 同时 unauthorized fee waiver commitment 为 0, 高风险投诉必须升级人工。
信贷	AI 帮审批贷款	在小微信贷 memo 起草中, 降低资料缺失和政策引用错误, 不让 LLM 做最终 approve / decline 决策, fair lending sensitive attribute 不进入推理链。
财富/投顾	AI 给客户投资建议	为持牌顾问提供 suitability checklist、产品资料摘要和风险揭示草稿, 不让 AI 直接向客户输出个性化买卖建议或收益承诺。

3.3 AI fit 与 no-AI boundary

每个 idea 都要同时写 AI fit 和 no-AI boundary:

AI fit	适合 AI 的原因	no-AI boundary
Read	多来源政策、历史 case、文档检索成本高	权限过滤、source-of-truth、版本生效日期必须由系统控制
Summarize	长文档、通话记录、交易历史需要压缩成可读摘要	摘要不能替代正式记录, 不能省略关键风险或不确定性
Recommend	基于规则、证据和经验提出下一步	高影响建议必须给出证据、限制条件和人工确认
Draft	草拟回复、case note、memo、narrative	草稿发送或归档前必须有人审或规则校验
Decide	只适合低影响、可逆、规则清楚的内部决策	金融高影响决策不应交给 LLM 单独完成
Act	工具动作可提升效率	工具权限必须最小化, 高影响动作必须审批和可回滚

4. AI Requirement Taxonomy

AI 需求要分层, 不能把所有东西塞进 user story。下面 taxonomy 用于发现遗漏、组织评审和追踪到 eval。

Requirement type	核心问题	高质量要求	Eval / evidence
Business outcome requirement	业务结果改善什么	定义 baseline、target、影响范围、归因限制	KPI baseline、pilot measurement plan
Workflow insertion requirement	AI 插入哪个流程节点	明确 read / summarize / recommend / draft / decide / act	BPMN、user journey、control point
User and role requirement	谁使用、谁受影响、谁负责	区分客户、员工、主管、专家、模型风险、合规、审计	RACI、entitlement matrix
Decision boundary requirement	AI 能做什么决定	列出 allowed / blocked / human approval actions	Policy decision table、tool permission log
Data and knowledge requirement	AI 用哪些事实和知识	source-of-truth、权限、生效日期、保留期、数据最小化	Data source inventory、retrieval trace
Grounding requirement	输出如何绑定证据	关键事实必须引用来源, 缺证据时说明不能确认	Citation eval、unsupported claim rate
Behavior requirement	AI 应如何回答、摘要、建议或草拟	结构、语气、字段、推理边界、缺失信息处理	Rubric、schema check、human review
Safety and compliance requirement	哪些输出会造成风险	禁止承诺、泄露、误导、越权、歧视、绕过政策	Critical failure taxonomy、red-team cases
Human oversight requirement	人何时介入	risk tier、review trigger、override、escalation、rollback	HITL log、override analysis
HAI requirement	用户如何理解和控制 AI	能力边界、来源、不确定性、纠错、退出、变更通知	HAI checklist、usability risk review
Evaluation requirement	如何证明能上线	dataset、evaluator、threshold、slice、critical blocker	Eval contract、experiment report
Release gate requirement	谁根据什么放行	go / limited go / no-go / rollback 规则明确	Release gate memo、approval record
Monitoring requirement	上线后看什么	quality、risk、drift、cost、latency、feedback、complaint	Monitoring dashboard、alert rule
Incident requirement	出错后怎么处理	severity、triage、stop switch、customer remediation、root cause	Incident log、postmortem、eval update
Audit and lineage requirement	如何证明过程可信	requirement、dataset、model、prompt、RAG、tool、decision 全链路	Evidence binder、version registry
Lifecycle requirement	变更如何管理	prompt/model/knowledge/tool 变更触发回归 eval	Change record、regression report

4.1 Requirement maturity ladder

Level	写法	问题	升级方向
L0 Idea	“做一个客服 AI”	无法验收	明确流程、用户、价值和风险
L1 Behavior	“能回答信用卡费用问题”	只描述能力	加入来源、边界、禁止行为和升级规则
L2 Metric	“政策回答准确率达到 95%”	指标不清	定义样本、评分、切片、阈值和失败严重度
L3 Eval Contract	“在费用政策 golden set 上, groundedness >= 4/5, critical policy violation = 0”	可离线门禁	加入 release decision 和 owner
L4 Monitored Contract	“上线后按渠道和政策版本监控 citation failure、投诉、人工覆盖和 drift”	可持续管理	纳入 incident、回滚、知识更新和季度复审

5. GQM for AI Requirements

GQM 的价值是把“我们要什么”拆成“我们要回答哪些问题”以及“用哪些指标回答”。在 AI 项目里, 它避免三个常见错误:

直接用模型 benchmark 当业务需求。
只写平均 accuracy, 忽略高风险切片和严重失败。
把 KPI 改善误认为模型质量, 忽略流程、用户采用和控制成本。

5.1 GQM grammar for AI

Goal:
Analyze [AI use case / workflow / component]
for the purpose of [improving / controlling / comparing / deciding / monitoring]
with respect to [business outcome / quality / risk / cost / user trust / compliance]
from the viewpoint of [business owner / user / risk / compliance / audit / platform owner]
in the context of [channel / product / customer segment / risk tier / production environment].

Question:
What must be true, observable or explainable for the stakeholder to trust the goal?

Metric:
What signal, dataset, rubric, threshold and interpretation rule answers the question?

5.2 AI GQM object types

Object	例子	典型问题
Workflow	AML investigation、客服问答、信贷 memo、投顾准备	AI 是否改善流程瓶颈且不引入不可接受风险
AI output	摘要、建议、草稿、解释、工具参数	输出是否 grounded、complete、compliant、actionable
Retrieval layer	policy search、case evidence、product facts	是否找到了正确、有效、授权可见的证据
Tool action	创建工单、冻结卡、发送通知、更新 CRM	是否在权限、审批、限额和回滚边界内
Human-AI interaction	转人工、纠错、确认、拒绝、反馈	用户是否理解边界并能有效控制
Operating model	QA、知识更新、incident、release	组织是否能持续监控和改进

5.3 Metrics interpretation rules

AI 指标必须带解释规则:

Metric type	示例	解释规则
Business metric	AML touch time、客服 FCR、memo rework rate	只能在 pilot 设计和流程控制清楚时作为 outcome, 不能单独证明模型安全
Quality metric	groundedness、completeness、policy compliance	按 risk tier 和 scenario slice 解读, 不能只看平均分
Risk metric	critical violation、PII leakage、unauthorized action	高风险场景常用 hard stop, 目标为 0
Human control metric	override rate、under-escalation、review defect	过高和过低都要分析, 不是越低越好
Operational metric	latency、cost、timeout、fallback	与用户任务时限和质量一起看, 不能单独优化
Trust metric	correction success、handoff quality、complaint rate	反映信任校准, 不是只看满意度

6. GQM 到 Eval Contract 的映射

GQM 让需求可测, Eval Contract 让需求可执行、可门禁、可监控。

GQM Goal
  -> eval decision purpose
GQM Questions
  -> evaluation questions and rubric dimensions
GQM Metrics
  -> metric definition, data source, threshold, slice, severity
Interpretation model
  -> release gate and monitoring gate rule
Evidence collection
  -> dataset, evaluator, run report, approval and audit trail

6.1 Mapping table

GQM element	Eval Contract field	设计要点
Object	Use case / workflow / component	明确评估对象是 AI 输出、RAG、工具动作、流程还是组合系统
Purpose	Decision type	区分 experiment comparison、pilot approval、production release、scale review、rollback
Quality focus	Eval dimensions	groundedness、completeness、compliance、safety、usability、cost、latency
Viewpoint	Reviewer / owner	业务、运营、合规、模型风险、CX、审计各自问题不同
Environment	Slices and constraints	渠道、语言、客户类型、产品、政策版本、风险等级
Questions	Eval questions	每个问题都能被数据、rubric 或人工评审回答
Metrics	Metric definitions	分母、样本、评分、阈值、置信区间、严重度
Interpretation	Gate rule	明确 pass、conditional、fail、rollback 和 exception 条件
Data collection	Dataset and monitoring source	golden set、historical set、red-team set、production trace、QA sample
Feedback	Continuous improvement trigger	失败 case 如何进入 dataset、知识库、prompt、policy 或流程改进

6.2 Eval Contract 最小字段

Field	写法要求
Contract ID	体现 use case、版本和 gate, 例如 `AML-COPILOT-RELEASE-GATE-V1`
Scope	流程、角色、渠道、AI 介入点、客户影响
Risk tier	低、中、高、关键, 并说明原因
Allowed behavior	AI 可以读取、摘要、建议、草拟或调用的动作
Forbidden behavior	AI 不得决定、承诺、泄露、推断或执行的动作
GQM goal	用业务、风险和 stakeholder viewpoint 写成一句完整目标
Eval questions	需要回答的 5 到 10 个关键问题
Dataset	样本来源、切片、覆盖、版本、脱敏和权限
Evaluators	deterministic、human rubric、LLM judge、pairwise、red-team、production sampling
Metrics	定义、分母、阈值、hard stop、slice threshold
Severity	critical / high / medium / low 的失败定义
Release gate	go、limited go、no-go、rollback 的规则
Monitoring gate	线上信号、触发阈值、owner、SLA、升级路径
Evidence	eval run、failed cases、approval、exception、issue closure

6.3 Contract as product boundary

Eval Contract 不只是测试文档, 它同时定义产品边界:

Boundary	Contract 表达
Functional boundary	AI 做 read、summarize、recommend、draft, 不做 final decision
Data boundary	只用授权来源, 引用 source ID 和 effective date
User boundary	客户可见、员工可见、主管可见的内容不同
Risk boundary	高风险输出进入 human review, critical failure 阻断 release
Change boundary	prompt、model、retriever、tool、policy 更新触发 regression
Accountability boundary	每个 gate 有 decision owner 和 risk acceptance owner

7. Eval Contract 示例

下面是成品型示例, 可作为作品集写法。

contract_id: AML-COPILOT-CASE-NARRATIVE-RELEASE-V1
use_case: AML alert investigation copilot for evidence summary and narrative drafting
risk_tier: High, because output influences compliance investigation quality and potential regulatory filing workflow
workflow_insertion_point: Summarize and draft, before analyst review and before SAR decision
allowed_behavior:
  - Summarize transaction patterns from approved case evidence
  - Extract red flags from policy-approved typology checklist
  - Draft case narrative with cited evidence
  - Identify missing information and recommend analyst follow-up
forbidden_behavior:
  - Make final SAR filing decision
  - Invent customer intent or unsupported rationale
  - Suppress red flags because they are inconvenient
  - Use inaccessible customer data or unrelated sensitive attributes
gqm_goal: Evaluate the AML narrative copilot for the purpose of improving analyst investigation efficiency and narrative consistency, with respect to evidence grounding, red-flag coverage and compliance risk, from the viewpoint of AML operations, compliance and model risk, in the context of high-risk retail banking alerts.
eval_questions:
  - Does every material claim cite approved evidence?
  - Are mandatory red flags covered when present in source data?
  - Does the output clearly state missing evidence?
  - Does the output avoid final filing decisions?
  - Does the output preserve analyst control and review accountability?
metrics:
  grounding_score: Human rubric 1-5, release threshold >= 4.5 average and no high-risk unsupported claim
  red_flag_coverage: Mandatory red flags covered / mandatory red flags present, release threshold >= 98%
  critical_violation_count: SAR decision, invented evidence, unauthorized data use, release threshold = 0
  narrative_rework_rate: Analyst major edit rate in pilot, monitored weekly with target downward trend after training period
release_gate:
  go: All critical violations = 0, grounding and coverage thresholds met across high-risk slices, model risk and AML owner approve
  limited_go: Non-critical style or formatting issues exist, pilot limited to analyst-assist mode with 100% review
  no_go: Any critical violation, missing high-risk red flag, or evidence access defect
monitoring_gate:
  daily_sample_review: 5% of generated narratives, stratified by typology and risk level
  alert_trigger: Any critical violation, citation failure cluster, or analyst override spike above control limit
  response: Freeze prompt/model rollout, open risk issue, add failed traces to regression set, rerun gate before re-release
evidence:
  - Dataset card
  - Rubric calibration report
  - Eval run report
  - Failed case log
  - Release approval memo
  - Production monitoring dashboard

8. Release Gate 与 Monitoring Gate

8.1 Release gate

Release gate 回答:

这个 AI 版本是否可以进入 pilot / production / scale?

必备输入:

Evidence	说明
Use case scope	流程、角色、AI 介入点、禁止用途
Risk tier	客户影响、监管影响、可逆性、人工控制
Eval contract	questions、metrics、dataset、evaluator、threshold
Dataset coverage	common、edge、missing-data、policy conflict、adversarial、高风险历史案例
Experiment report	baseline vs candidate, slice analysis, regression
Critical failure log	失败类型、根因、修复、复测结果
Human oversight design	review、override、escalation、rollback、stop switch
Operational readiness	latency、cost、fallback、support、incident owner
Evidence approval	business、risk、compliance、model risk、architecture owner

Release gate decision:

Decision	条件	后续动作
Go	指标达到阈值, critical failure 为 0, owner 接受剩余风险	按 release plan 上线, 启动 monitoring gate
Limited go	核心风险可控, 仍有非关键缺陷或覆盖限制	限定用户、渠道、流量、动作和人工复核比例
No-go	关键阈值未达、证据不足或控制缺失	停止上线, 修复后重新跑 gate
Rollback	线上触发关键风险或质量退化	回退版本, 开 incident, 更新 regression set
Exception	管理层接受特定剩余风险	记录风险接受、补偿控制、到期复审和退出条件

8.2 Monitoring gate

Monitoring gate 回答:

上线后的 AI 是否仍然在契约内运行?

监控信号:

Signal	金融零售例子	Gate action
Quality drift	citation failure 上升、grounding score 下降	抽样复核、知识库检查、重跑 eval
Risk event	unauthorized commitment、PII leakage、tool overreach	停止相关能力、incident、客户补救评估
Human override	员工频繁改写或拒绝 AI 建议	根因分析: 模型差、流程错、培训不足或信任失配
Under-escalation	投诉、欺诈、困难援助未转人工	强制路由规则、red-team case 更新
Business anomaly	FCR 上升但投诉也上升	重新平衡效率和客户伤害指标
Cost / latency	超出 workflow 时限或预算	优化模型/检索/缓存, 不牺牲 hard stop 风险指标
Policy change	新费用政策、生效日期、产品条款变更	知识版本更新, regression eval, release approval
User trust	adoption 低、over-reliance 高、rubber stamp 高	调整 HAI、培训、review burden 和控制提示

Monitoring gate 输出:

Weekly quality and risk report。
Failed trace to eval dataset update。
Owner action log。
Release freeze / rollback decision。
Quarterly AI capability review。
Evidence binder update。

9. 金融零售案例

9.1 AML Copilot

Use case: AML analyst assistant for alert investigation, evidence summary and case narrative drafting。

Correct boundary:

AI 可以聚合交易、客户 KYC、历史 case、typology checklist 和政策证据。
AI 可以草拟 narrative 和 follow-up questions。
AI 不做最终 SAR filing decision, 不替代 AML analyst judgment。

GQM map:

Goal	Question	Metric / evidence	Gate rule
降低调查准备时间	是否减少 analyst 搜证和整理耗时	Median evidence preparation time, pilot baseline comparison	试点期下降且不增加 critical defect
提高 narrative 证据质量	每个关键结论是否有来源	Unsupported material claim count, citation support score	High-risk unsupported claim = 0
避免遗漏 red flags	typology checklist 是否覆盖	Red flag recall by typology slice	高风险 typology recall >= 98%
保持人工责任	是否明确 analyst review 和 missing evidence	Human review completion, missing-evidence statement rate	未经 review 不得进入归档或 filing 流程

Critical failures:

编造客户意图或资金来源。
遗漏已出现在证据中的关键 red flag。
把草稿写成最终 SAR filing decision。
引用无权访问或过期政策。
因为历史相似 case 而暗示客户有罪。

Monitoring gate:

按 typology、风险等级、渠道和 analyst team 分层抽样。
监控 analyst major edit rate、citation failure、missing red flag、QA defect、case reopening。
任一 critical failure 触发 stop switch、incident review 和 regression set update。

9.2 Customer Service AI

Use case: 客服 RAG assistant for credit card fee, dispute, payment, branch and digital banking questions。

Correct boundary:

AI 可以回答批准知识库中的政策和流程。
AI 可以起草客服回复并引用政策来源。
AI 不承诺未授权 fee waiver、赔付、争议结果、额度提升或投诉结论。

GQM map:

Goal	Question	Metric / evidence	Gate rule
提升 first-contact resolution	是否在政策覆盖范围内解决问题	FCR by intent, containment with no complaint increase	FCR 改善需同时满足 complaint rate 不上升
降低错误政策回答	回答是否引用当前有效政策	Policy citation correctness, effective-date match	Critical policy error = 0
保持高风险升级	投诉、欺诈、困难援助是否转人工	Escalation recall for high-risk intents	Under-escalation critical count = 0
改善交互控制	客户是否能转人工、纠错、知道边界	Handoff completion, correction success, fallback rate	Handoff failure spike 触发 review

Critical failures:

承诺免除费用但无授权。
对欺诈交易要求客户继续普通 FAQ。
对投诉或脆弱客户没有升级。
使用过期政策回答。
泄露其他客户或内部操作信息。

Monitoring gate:

按 intent、语言、渠道、政策版本、客户脆弱性信号分层。
监控 wrong answer complaint、agent override、handoff abandonment、policy update lag。
政策变更后必须触发知识刷新和 regression eval。

9.3 Lending Assistant

Use case: 信贷 officer copilot for application summary, missing document checklist, policy citation and credit memo drafting。

Correct boundary:

AI 可以整理申请材料、指出缺失文件、引用政策、草拟 memo。
AI 不做最终 approve / decline, 不生成未经验证的 adverse action reason。
AI 不使用禁止或敏感属性推断信用价值。

GQM map:

Goal	Question	Metric / evidence	Gate rule
降低 memo rework	memo 是否结构完整且政策引用准确	Major rework rate, policy citation accuracy	关键政策引用错误 = 0
提高材料完整性	是否识别缺失和冲突材料	Missing document recall, conflict detection	高影响缺失材料 recall >= 98%
控制 fair lending 风险	是否使用或暗示禁止因素	Sensitive attribute leakage, proxy reasoning defects	禁止因素使用 = 0
保持决策边界	是否清楚标识 AI 只是 assist	Final decision by officer, review attestation	无人工 attest 不得进入 final decision

Critical failures:

AI 输出 approve / decline 结论。
编造收入、资产、债务或经营情况。
使用受保护类别或可疑 proxy 作为理由。
错误引用政策导致客户不利结果。
未说明材料缺失却让 officer 以为资料完整。

Monitoring gate:

按产品、地区、渠道、申请类型、officer team 和 protected-class proxy risk 分层复核。
监控 override reason、memo defect、appeal / complaint、policy exception、QA finding。
模型或政策变化必须经过 fair lending 和 model risk 复评。

9.4 Wealth / Advisor Copilot

Use case: 财富顾问 assistant for client meeting preparation, product document summary, suitability checklist and compliant communication draft。

Correct boundary:

AI 可以摘要客户已授权信息、投资目标、风险承受能力和产品资料。
AI 可以提醒 suitability / appropriateness / disclosure checklist。
AI 不直接向客户做个性化买卖建议, 不承诺收益, 不绕过持牌顾问责任。

GQM map:

Goal	Question	Metric / evidence	Gate rule
提高顾问准备质量	meeting brief 是否覆盖客户目标、风险、限制和材料缺口	Completeness rubric, missing profile field detection	高风险缺口未标记 = 0
控制不当建议风险	是否避免无牌建议、收益承诺和不适配推荐	Prohibited advice count, suitability checklist pass	Prohibited advice = 0
提升披露质量	是否包含关键风险揭示和产品来源	Disclosure coverage, source citation	关键风险揭示缺失 = 0
维护客户信任	是否表达不确定性、限制和人工责任	HAI review, advisor edit log, complaint signal	投诉或误导信号触发 review

Critical failures:

对非持牌或客户可见渠道输出个性化交易建议。
承诺收益、淡化损失或隐藏费用。
错误总结产品风险或流动性限制。
忽略客户风险承受能力、投资期限或限制。
用未经授权的客户数据做推荐。

Monitoring gate:

按产品风险等级、客户分群、顾问团队、渠道和材料版本分层。
监控 advisor override、compliance review defect、customer complaint、disclosure omission。
产品资料或监管要求更新后触发 knowledge and prompt regression。

10. 模板

10.1 AI Opportunity-to-GQM Canvas

Field	填写口径	高质量例子
Use case	业务流程和 AI 介入点	AML alert investigation copilot for evidence summary and narrative drafting
Business outcome	可衡量的业务改善	Reduce evidence preparation time while keeping critical red flag omission at zero
Risk outcome	必须控制的客户、合规、运营或模型风险	No unsupported material claim, no final SAR decision by AI
Stakeholder viewpoint	业务、用户、风险、合规、审计各自关心什么	AML Ops cares speed; Compliance cares evidence and filing quality; Model Risk cares controls
Workflow boundary	AI 做什么, 不做什么	Summarize and draft before analyst review, not decide SAR filing
Baseline	当前状态如何测量	Historical case handling time, QA defect rate, narrative rework rate
GQM goal	完整 goal statement	Evaluate AML copilot for improving investigation efficiency and controlling compliance risk
Core questions	必须被回答的问题	Are all material claims supported? Are mandatory red flags covered?
Metrics	能回答问题的指标	Grounding score, red flag recall, critical violation count
Gate decision	指标如何转成放行	Critical violations = 0; high-risk slices pass thresholds

10.2 Requirement Taxonomy Template

Requirement type	Requirement statement example	Eval trace
Business outcome	Pilot should reduce median AML evidence preparation time by 25% versus baseline without increasing QA critical defects	Pilot measurement plan, QA report
Workflow insertion	AI only operates in evidence summary and narrative draft stages before analyst review	BPMN, UI state, audit log
Decision boundary	AI must not make or imply final SAR filing decision	Deterministic forbidden pattern check, human review
Grounding	Every material claim must cite approved evidence item ID	Citation support eval
Missing information	AI must explicitly identify unavailable or conflicting evidence	Missing-evidence rubric
Human oversight	Analyst must review and attest before narrative enters system of record	Attestation log
Monitoring	Production samples must be reviewed by typology and risk tier weekly	Monitoring dashboard

10.3 GQM Sheet

GQM element	Example
Goal object	Customer service RAG assistant for credit card fee and dispute questions
Purpose	Improve correct self-service resolution while controlling unauthorized commitment risk
Quality focus	Policy correctness, escalation, customer control, complaint risk
Viewpoint	Contact center operations, CX, compliance, risk, customer
Context	Mobile app and web chat, retail credit card customers, English and Chinese support
Question 1	Does the answer cite current approved policy?
Metric 1	Policy citation correctness by intent and policy version
Question 2	Does the assistant escalate complaints, fraud and vulnerable-customer signals?
Metric 2	High-risk intent escalation recall and under-escalation critical count
Question 3	Does the assistant avoid unauthorized promises?
Metric 3	Unauthorized commitment count, release threshold = 0
Interpretation	Go only when critical failures = 0 and policy correctness thresholds pass by slice

10.4 Eval Contract Template

Section	Content standard
Contract identity	Contract ID, use case, version, owner, gate type
Scope	Workflow, role, channel, risk tier, customer impact
Behavior boundary	Allowed behavior, forbidden behavior, human approval points
GQM goal	Full goal statement with purpose, quality focus, viewpoint and context
Eval questions	Questions tied to stakeholder decisions, not generic model quality
Dataset	Source, sampling logic, slices, labeling, version, privacy handling
Evaluators	Deterministic checks, human rubric, LLM judge, red-team, pairwise comparison
Metrics	Definition, denominator, threshold, hard stop, confidence and slice rule
Severity model	Critical, high, medium and low failure definitions
Release gate	Go, limited go, no-go, rollback and exception rules
Monitoring gate	Production signals, alert thresholds, owner, SLA and response
Evidence	Run reports, failed cases, approvals, exceptions, incident updates

10.5 Release Gate Memo Template

Section	High-quality content
Decision requested	Approve limited production release for Customer Service RAG in credit card fee intents
Scope approved	Channels, user groups, intents, languages, traffic percentage, excluded scenarios
Eval summary	Dataset size, slice coverage, evaluator mix, benchmark version, result summary
Critical failures	Count, examples, root cause and closure evidence
Residual risks	Known limitations, controls, owner and review date
Human oversight	Required review, escalation, override and stop switch
Monitoring plan	Daily and weekly metrics, alert thresholds, sample review
Decision	Go, limited go, no-go, rollback or exception
Approvals	Business owner, risk, compliance, model risk, architecture, operations

10.6 Monitoring Gate Spec Template

Signal	Definition	Slice	Trigger	Owner	Response
Citation failure	Answer cites missing, outdated or non-supporting source	Intent, policy version, channel	Any critical cluster or weekly rate above control limit	Knowledge owner	Freeze affected content, correct source, rerun eval
Unauthorized commitment	AI promises fee waiver, claim result, credit decision or investment outcome without authority	Product, channel, user type	Any occurrence	Product risk owner	Stop affected flow, incident review, customer impact assessment
Under-escalation	High-risk intent not routed to human or specialist	Intent, language, customer segment	Any critical occurrence	Operations owner	Routing update, failed trace added to regression
Override spike	Human users reject or heavily edit AI output	Team, workflow, prompt version	Sustained spike over baseline	AI PM	Root cause review, training or prompt/RAG fix
Cost / latency breach	AI exceeds workflow budget or response time	Model, channel, region	Breach of SLO	Platform owner	Optimize or degrade gracefully

10.7 Evidence Binder Index

Evidence artifact	Purpose
AI Opportunity-to-GQM Canvas	Proves use case was defined from outcome and stakeholder questions
Requirement Taxonomy Matrix	Proves requirements cover workflow, data, behavior, safety, HAI, gate and monitoring
Eval Contract	Proves acceptance is measurable and risk-tiered
Dataset Card	Proves eval sample source, coverage, labeling and limitations
Evaluator Calibration Report	Proves rubric and judge are usable for decision support
Experiment Report	Proves candidate version was compared to baseline and sliced
Release Gate Memo	Proves go / limited go / no-go decision and risk ownership
Monitoring Dashboard Spec	Proves production behavior remains under control
Incident and Improvement Log	Proves failures become regression cases and control updates

11. 评审清单

11.1 Discovery and GQM checklist

是否先定义 business outcome 和 risk outcome, 而不是先选模型。
是否写出 no-AI alternative 和 AI fit 判断。
是否明确 workflow insertion point: read / summarize / recommend / draft / decide / act。
是否识别客户影响、监管触点、可逆性和人工控制要求。
是否每个 stakeholder concern 都转成至少一个 GQM question。
是否每个 GQM question 都有 metric、evidence 或 review method。
是否定义 baseline measurement method。
是否区分 business KPI、AI quality metric、risk metric 和 operational metric。

11.2 Eval Contract checklist

Contract 是否明确 scope、risk tier、allowed behavior 和 forbidden behavior。
Dataset 是否覆盖 common、edge、missing-data、policy conflict、adversarial 和 historical failure cases。
Metrics 是否有分母、阈值、slice、severity 和解释规则。
Critical failure 是否是 hard stop, 而不是平均分中的一项。
Human review rubric 是否经过校准。
LLM-as-judge 是否经过人工抽样校准, 且不作为高风险唯一证据。
Prompt、model、RAG、tool、policy 版本是否进入 lineage。
Failed cases 是否有 owner、root cause、fix 和 regression evidence。

11.3 Release gate checklist

Gate decision 是否有 go / limited go / no-go / rollback / exception 的明确规则。
是否列出不在本次 release 范围内的场景。
是否完成 architecture、security、privacy、compliance、model risk 和 operations review。
是否定义 stop switch、fallback、rollback 和 incident owner。
是否说明 residual risk 和补偿控制。
是否定义上线后的抽样比例、监控频率和复审节奏。
是否有业务 owner 对价值和运营结果负责。
是否有 risk owner 对剩余风险接受负责。

11.4 Monitoring gate checklist

是否监控质量、风险、成本、延迟、采用、纠错、投诉和 incident。
是否按渠道、语言、产品、客户类型、风险等级和版本切片。
是否把 production failed trace 回流到 eval dataset。
是否区分模型问题、知识问题、流程问题、用户培训问题和控制问题。
是否有 alert threshold、owner、SLA 和 response playbook。
是否定义模型、prompt、knowledge、policy 或 tool change 的 regression trigger。
是否有季度 capability review: continue / refresh / restrict / retire。

12. 反模式

反模式	看起来合理	实际问题	正确做法
AI idea 直接进 backlog	业务方觉得需求清楚	没有 measurable outcome 和风险边界	先做 Opportunity-to-GQM Canvas
“准确率 95%”	有数字	没有定义样本、评分、分母、严重度和切片	写成 eval metric + threshold + interpretation
只看平均分	报告好看	高风险失败被平均值掩盖	按 risk tier 和 scenario slice 设置 hard stop
Vendor demo 代替需求	演示流畅	无法证明适合本机构流程和风险	用本机构 case、policy 和 workflow 做 eval
KPI 等于模型质量	业务关心结果	KPI 受流程、培训、流量和季节性影响	同时看 AI quality、risk、operational 和 business metrics
人工复核写在文档里	似乎有控制	没有 review criteria、attestation 和抽样证据	设计 HITL workflow、rubric 和日志
Golden set 只放简单样本	通过率高	真实边界和失败模式未覆盖	加入 historical failure、edge、adversarial 和 high-risk cases
Critical failure 可被平均分抵消	指标统一	严重风险被统计吞掉	critical count 独立作为 release blocker
反馈只是 thumbs up/down	UI 简洁	不能定位根因和改进 owner	反馈分类到 source、policy、format、risk、handoff、tone
上线后不再看 eval	节省成本	模型、知识、政策和用户行为会漂移	建立 monitoring gate 和 continuous evaluation
AI 直接做高影响决定	效率最大	客户权益、合规、fairness 和责任风险过高	AI assist + human decision + audit trail
HAI 当 UI polish	界面更友好	用户可能过度信任或无法纠错	把 uncertainty、control、correction 和 handoff 写成 requirement

13. 30 天训练计划

目标: 30 天内完成一个金融零售 AI use case 的 GQM-to-Eval Contract 作品集包。建议选择 AML、客服、信贷或财富/投顾中的一个主案例, 另外三个作为简版对照。

Day	训练重点	产出
1	选择主案例, 写 AI idea、业务流程和 no-AI alternative	1-page use case brief
2	画 AS-IS / TO-BE workflow, 标出 AI insertion point	Workflow map
3	定义 business outcome、risk outcome、baseline 方法	Outcome statement
4	识别 stakeholder: business、ops、risk、compliance、audit、user	Stakeholder concern map
5	写 GQM goal statement, 区分目的、质量焦点、视角和上下文	GQM goal card
6	为每个 stakeholder 写 2 个 decision questions	Question bank
7	把 questions 合并成 8 到 12 个核心 eval questions	Core eval questions
8	设计 AI requirement taxonomy, 覆盖 workflow、data、behavior、safety、HAI、monitoring	Requirement matrix
9	写 allowed behavior 和 forbidden behavior	Behavior boundary table
10	定义 critical / high / medium / low failure taxonomy	Failure severity model
11	设计 dataset slices: common、edge、missing-data、policy conflict、adversarial、historical failure	Dataset coverage matrix
12	设计 human rubric, 每个维度写 1/3/5 分标准	Human review rubric
13	设计 deterministic checks: schema、citation、forbidden phrase、tool permission	Deterministic eval spec
14	设计 LLM judge 使用边界和人工校准方案	Judge calibration plan
15	写第一版 Eval Contract	Eval Contract v1
16	设计 release gate decision rules	Release gate rule table
17	写 Release Gate Memo 成品版	Release Gate Memo
18	设计 monitoring signals 和 alert triggers	Monitoring Gate Spec
19	设计 incident response: triage、stop switch、rollback、customer impact	Incident response flow
20	把 failed trace 回流机制接到 dataset 和 regression	Continuous eval loop
21	完成 AML 案例简版 GQM map	AML case sheet
22	完成客服案例简版 GQM map	Customer service case sheet
23	完成信贷案例简版 GQM map	Lending case sheet
24	完成财富/投顾案例简版 GQM map	Wealth case sheet
25	写反模式和 mitigation, 对照自己的主案例自评	Anti-pattern review
26	组装 Evidence Binder Index	Evidence binder
27	写 5 分钟作品集讲解稿	Portfolio narrative
28	准备 8 个面试问答	Interview answer pack
29	找一个已有 AI playbook 做交叉评审, 补齐 gate、monitoring、HAI 缺口	Self-review report
30	输出最终作品集包, 用一页 executive summary 收尾	Final portfolio pack

30 天完成标准:

能用 GQM 解释为什么这些指标服务于业务和风险决策。
能用 Eval Contract 证明 AI requirement 可测试、可门禁、可监控。
能用金融零售案例说明边界: AI assist 与 AI decision 的区别。
能把 release gate 和 monitoring gate 讲成管理层可决策的证据。

14. 面试答案

Q1: 你如何把一个 AI idea 转成可执行需求?

30 秒回答

我不会先写“系统要智能回答”。我会先定义 workflow、业务 outcome、风险 outcome 和 no-AI boundary, 再用 GQM 把 stakeholder concern 转成 questions, 用 metrics 和 eval contract 定义可接受行为、不可接受行为、阈值、release gate 和 monitoring gate。

2 分钟回答

我的步骤是: 第一, 明确 AI 插入流程的哪个点, 是 read、summarize、recommend、draft、decide 还是 act。第二, 定义 business outcome 和 risk outcome, 例如降低 AML case preparation time, 但 critical red flag omission 必须为 0。第三, 用 GQM 从业务、运营、合规、模型风险和用户视角写问题, 比如关键结论是否有证据、是否遗漏高风险信号、是否保留人工责任。第四, 把问题映射成 metrics、dataset、rubric、hard stop 和 release gate。第五, 上线后用 monitoring gate 跟踪 drift、override、complaint、citation failure 和 incident, 把失败 trace 回流到 eval dataset。

Q2: 为什么 GQM 适合 AI 需求工程?

30 秒回答

因为 AI 项目最容易从模型能力和平均指标出发。GQM 强迫团队先回答目标是什么、谁关心什么问题、什么指标能支持决策, 这样可以避免把 benchmark、demo 或泛泛 accuracy 当成需求。

2 分钟回答

GQM 的核心是 Goal、Question、Metric。AI 系统的输出有随机性, 而金融零售又有客户权益、合规和审计要求, 所以需求不能只写功能行为。GQM 能把“客服 AI 更准确”改成“在信用卡费用政策场景中, 从 CX 和合规视角看, 回答是否引用当前有效政策、是否避免未经授权承诺、是否正确升级投诉和欺诈意图”。然后每个问题都有 metric 和解释规则, 最后进入 eval contract 和 release gate。这样指标不是装饰, 而是决策证据。

Q3: Eval Contract 和普通验收标准有什么区别?

30 秒回答

普通验收标准通常验证某个功能是否完成。Eval Contract 定义的是 AI 行为契约: 数据集、评估方法、指标、阈值、失败严重度、release gate、monitoring gate、owner 和证据链。

2 分钟回答

AI 验收不能只看一个示例是否回答正确。Eval Contract 会规定适用范围、风险等级、允许和禁止行为、GQM questions、dataset slices、human rubric、deterministic checks、LLM judge 使用边界、critical failure、go / no-go 规则和线上监控触发。比如信贷 copilot 可以草拟 memo 和缺失材料清单, 但不能做 approve / decline。任何受保护属性推理、错误 reason code 或未经验证政策引用都可能是 critical blocker。上线后还要监控 override、appeal、complaint、QA defect 和政策变更回归。

Q4: Release gate 和 Monitoring gate 如何区分?

30 秒回答

Release gate 判断某个版本能不能进入 pilot 或 production；Monitoring gate 判断上线后的 AI 是否仍然在契约内运行。前者基于离线 eval、红队、人工评审和审批证据, 后者基于生产 trace、用户反馈、质量漂移、风险事件和业务异常。

2 分钟回答

Release gate 是上线前的决策点, 输入包括 use case scope、risk tier、dataset coverage、eval report、critical failures、human oversight 和 rollback plan。Monitoring gate 是上线后的控制机制, 看 citation failure、under-escalation、override spike、complaints、cost、latency、policy change 和 incident。两者必须闭环: 线上失败 trace 进入 regression dataset, 修复后重新跑 release gate。这样 AI requirement 不会在上线时结束, 而是持续管理。

Q5: 你如何处理业务方只说“准确率要高”?

30 秒回答

我会把“准确”拆成具体问题: 哪类任务、哪个角色、什么错误代价、什么样本、谁评分、哪些失败不可接受、上线后如何监控。然后把 accuracy 改成多个 eval dimensions 和 hard stop。

2 分钟回答

在金融零售里, “准确率高”没有分母也没有风险含义。我会问: 是政策事实准确、证据引用准确、摘要完整、风险升级准确、工具动作准确, 还是客户沟通准确? 然后按场景切片设计指标。比如客服 AI 的平均回答分数 95% 仍可能因一个 unauthorized fee waiver commitment 不能上线。对高风险 failure 要设置 independent critical blocker, 对普通质量问题才用平均分或分位数。

Q6: 如何向高管解释 AI requirements 的价值?

30 秒回答

AI requirements 的价值是把创新从 demo 风险变成可管理能力。它让管理层知道 AI 改善什么业务结果, 引入什么风险, 用什么证据放行, 上线后看什么信号, 出事时谁负责和如何回滚。

2 分钟回答

我会用四个问题解释: 第一, 这个 AI 能改善哪个 measurable outcome? 第二, 哪些错误是组织不能接受的? 第三, 当前版本是否有足够证据进入 pilot 或 production? 第四, 上线后如何证明它仍然在边界内运行? GQM 和 Eval Contract 把这些问题变成管理层可读的 gate memo, 包括价值、风险、阈值、例外、控制和 owner。这比只展示模型效果更适合受监管金融环境。

Q7: 如何避免 AI 项目被 vendor demo 带偏?

30 秒回答

我会用本机构 workflow、政策、数据权限、失败模式和 release gate 评估 vendor 能力。demo 只能证明可演示, 不能证明适合我们的流程、风险和监管边界。

2 分钟回答

Vendor demo 往往用干净样本和理想流程。我的做法是先写 AI Opportunity-to-GQM Canvas 和 Eval Contract, 再要求 vendor 在受控样本、政策版本、权限边界和高风险 cases 上证明能力。评估不只看回答质量, 还看数据隔离、source citation、audit log、model update control、human oversight、incident response、cost 和 latency。这样采购讨论从“模型厉害不厉害”变成“能否通过我们的 gate”。

Q8: AI assist 和 AI decision 的边界怎么定义?

30 秒回答

边界取决于客户影响、可逆性、监管要求、证据完整性和人工责任。金融高影响场景通常允许 AI read、summarize、recommend、draft, 但 final decision、客户承诺和高影响工具动作需要人工控制。

2 分钟回答

我会先按流程节点分级: read 和 summarize 风险较低, recommend 和 draft 需要证据和审核, decide 和 act 在金融场景通常高风险。比如信贷里 AI 可以起草 memo、列缺失材料、引用政策, 但不能批准或拒绝贷款。AML 里 AI 可以写 narrative draft, 但不能决定是否 filing。财富场景 AI 可以给顾问准备材料和 checklist, 但不能绕过持牌顾问向客户直接建议买卖。这个边界要写进 requirement、UI、权限、audit log 和 eval contract。

15. 作品集交付物

一个有说服力的高级 AI Requirements Engineering 作品集, 不应只是一份 PRD。建议交付一组证据资产:

Deliverable	内容	展示能力
Executive Summary	一页说明 use case、outcome、risk、gate decision 和 portfolio thesis	高管沟通
AI Opportunity-to-GQM Canvas	从 idea 到 outcome、questions、metrics 的完整映射	Measurement-first discovery
Requirement Taxonomy Matrix	覆盖 workflow、data、behavior、safety、HAI、eval、monitoring	高级需求覆盖
GQM-to-Eval Contract Map	每个 goal/question/metric 如何进入 contract	方法论掌握
Eval Contract Pack	scope、risk tier、dataset、evaluator、threshold、severity、gate	AI 验收设计
Dataset Coverage Matrix	common、edge、policy conflict、adversarial、historical failure slices	Eval 数据思维
Human Rubric and Calibration Note	rubric 维度、评分标准、一致性校准	人审治理
Release Gate Memo	go / limited go / no-go 决策、证据、剩余风险和审批	上线治理
Monitoring Gate Spec	production signals、alert、owner、SLA、continuous eval	生产运营
Financial Retail Case Pack	AML、客服、信贷、财富/投顾四个案例对照	行业深度
Anti-pattern Review	识别并修正平均分、demo、无边界、无监控等问题	风险判断
Interview Answer Pack	8 到 12 个高级面试问答	求职转化

作品集讲解顺序:

1. 我选择了哪个金融零售 AI use case
2. 为什么这是 AI fit, 不是普通流程优化
3. 我如何用 GQM 定义 stakeholder questions
4. 我如何把 questions 转成 metrics 和 eval contract
5. 我如何设计 release gate 和 monitoring gate
6. 我如何处理 critical failures、human oversight 和 audit evidence
7. 我如何把线上失败回流到 continuous evaluation
8. 这个案例如何证明我具备 AI PM / Architect / AI BA 的高级能力

16. 最终记忆卡

概念	一句话
AI requirement	可测、可门禁、可监控、可问责的 AI 行为和控制契约
GQM	从目标出发, 通过问题定义指标, 避免模型指标先行
Eval Contract	把需求变成 dataset、evaluator、metric、threshold、severity、gate 和 evidence
Release Gate	上线前基于证据做 go / limited go / no-go / rollback / exception 决策
Monitoring Gate	上线后验证 AI 是否仍在契约内运行并触发改进
Critical failure	不能被平均分抵消的高风险失败
CBAP upgrade	从需求管理升级到 AI 行为测量、风险门禁、生产监控和证据治理

最重要的一句话:

高级 AI 需求工程的竞争力, 是能把“AI 看起来能做”变成“组织知道为什么做、怎么测、何时放行、何时停用、谁负责、如何证明”。