返回 Papers
AI 扩展计划 / Playbooks

AI Requirements Engineering / GQM Eval Contracts Playbook

以下来源作为需求工程、AI 风险治理和 Human-AI Interaction 的学习锚点。本文把它们转成金融零售 AI 项目的需求、评估、门禁、监控和作品集资产, 不构成法律、合规、审计或模型验证意见。访问日期按 2026-06-29 记录。

899AI_REQUIREMENTS_ENGINEERING_GQM_EVAL_CONTRACTS_PLAYBOOK.md

AI Requirements Engineering / GQM / Eval Contracts Playbook

面向对象: 高级 AI PM / AI BA / Product Architect / Solutions Architect / EvalOps Lead / Model Risk / AI Governance / 金融零售转型负责人。 核心问题: 如何把一个 AI idea 从“想做一个智能助手”升级为 measurable outcome、GQM questions、metrics、eval contract、release gate、monitoring gate 和可审计证据。 使用方式: 每个高价值 AI use case 至少产出一张 GQM-to-Eval Contract Map、一份 Eval Contract、一份 Release Gate Memo 和一份 Monitoring Gate Spec。本文不讲 BA 入门, 重点训练 CBAP 之后的 AI 需求工程升级能力。


Source Anchors

以下来源作为需求工程、AI 风险治理和 Human-AI Interaction 的学习锚点。本文把它们转成金融零售 AI 项目的需求、评估、门禁、监控和作品集资产, 不构成法律、合规、审计或模型验证意见。访问日期按 2026-06-29 记录。

AnchorOfficial / primary source本文使用方式
Basili GQM paperhttps://www.cs.umd.edu/~basili/publications/technical/T89.pdf用 Goal-Question-Metric 思路把 AI idea 拆成目标、问题、指标和解释模型。
NIST AI Risk Management Frameworkhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 组织 AI 风险识别、测量、门禁、监控和持续改进。
Microsoft Guidelines for Human-AI Interactionhttps://www.microsoft.com/en-us/research/publication/guidelines-for-human-ai-interaction/用 Human-AI Interaction 原则设计 expectation setting、context、uncertainty、correction、feedback、control 和 change notification。
NIST AI RMF Generative AI Profilehttps://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence用 GenAI 特有风险组织 hallucination、data leakage、prompt injection、misuse、over-reliance 和 content provenance 的 eval cases。
Microsoft HAX Toolkithttps://www.microsoft.com/en-us/haxtoolkit/用 failure mode 和 HAI pattern 思路把交互风险转成需求、评审和测试资产。
ISO/IEC 42001 AI Management Systemhttps://www.iso.org/standard/81230.html用管理体系语言组织 AI owner、policy、lifecycle、operation、performance evaluation 和 improvement。
OWASP Top 10 for LLM Applicationshttps://owasp.org/www-project-top-10-for-large-language-model-applications/用 LLM 风险类别补强 prompt injection、sensitive information disclosure、excessive agency 和 insecure output handling 的需求与 red-team cases。

Standards-to-artifacts:

Source lens可以产出的 artifact高级面试表达
GQMGQM sheet、question bank、metric interpretation model“我不会从模型指标开始, 我会从业务目标和 stakeholder question 反推指标。”
NIST AI RMFAI risk map、measure plan、release gate、monitoring gate、risk issue log“我把 AI requirements 放入 Govern / Map / Measure / Manage 的风险闭环, 而不是只写功能验收。”
Microsoft HAI GuidelinesHAI requirement matrix、interaction control checklist、feedback loop spec“我会把人机交互里的期望、纠错、退出、控制和变更通知写成可评估需求。”
GenAI risk referencesRed-team case set、critical failure taxonomy、incident playbook“我把幻觉、泄露、越权、过度信任和提示注入转成 release blocker 和 monitoring trigger。”

1. One-Sentence Positioning / 一句话定位

AI Requirements Engineering 的核心不是把业务方的 AI idea 写成 user story, 而是:

AI idea
-> measurable business and risk outcome
-> stakeholder questions
-> metrics and interpretation rules
-> eval contract
-> release gate
-> monitoring gate
-> production learning loop

一句话:

AI Requirements Engineering = 用 GQM 把“想要 AI 能力”转成“组织可以测量、放行、限制、监控、问责和持续改进的 AI 行为契约”。

在金融零售场景里, AI requirement 不是一句“回答准确、安全、有用”。合格的 AI requirement 必须同时回答:

  1. 业务结果是否可衡量。
  2. AI 在流程中的介入点是否清楚。
  3. 哪些行为被允许、禁止、限制和升级。
  4. 哪些问题必须被 eval 回答。
  5. 指标如何解释为 go / limited go / no-go / rollback。
  6. 上线后哪些信号触发人工复核、降级、停用或重新评估。
  7. 证据如何支持审计、模型风险、合规和管理层决策。

2. 为什么 CBAP 后还需要升级

CBAP 证明你掌握了成熟业务分析能力: stakeholder analysis、requirements lifecycle、strategy analysis、solution evaluation、elicitation、traceability 和 change management。AI 项目不是否定这些能力, 而是要求把它们升级到概率系统、数据依赖、模型漂移、Human-AI Interaction 和风险门禁的层面。

CBAP 已有能力AI 项目新增挑战高级升级方式
Business needAI idea 往往由技术能力或 vendor demo 驱动用 measurable outcome 和 no-AI alternative 过滤伪需求
Stakeholder requirementAI 输出影响用户、员工、模型风险、合规、审计和客户权益把 stakeholder concern 转成 GQM question 和 evidence requirement
Acceptance criteriaAI 行为不完全确定, 单个 happy path 验收失效用 eval contract、dataset、rubric、threshold 和 critical failure 定义验收
Requirements traceabilityprompt、model、RAG、tool、policy、knowledge base 都会变化建立 requirement -> eval case -> component version -> gate decision 的 lineage
Solution evaluation传统 KPI 往往滞后, AI 质量和风险需要先行指标同时管理 offline eval、online monitoring、business KPI 和 risk trigger
Change management模型升级和知识库刷新可能改变行为每次 AI component change 都进入 regression eval 和 release gate
Non-functional requirement“性能、安全、可用性”不足以覆盖 AI 风险增加 groundedness、answerability、calibration、human control、tool authority 和 auditability

CBAP 后的 AI 需求工程差异化能力:

高级能力具体表现可展示资产
Measurement-first discovery从 outcome 和 decision question 开始, 不是从模型能力开始AI Opportunity-to-GQM Canvas
Eval contract design把需求写成可重复执行的测试、评分、阈值和门禁Eval Contract Pack
Risk-tiered requirement低风险问答、高风险建议、工具动作和客户影响分层AI Requirement Taxonomy
Human-AI control design定义人何时看见、修改、拒绝、升级、覆盖和负责HAI Control Matrix
Evidence-driven release每次上线有数据集、评估、缺陷、例外和审批证据Release Gate Memo
Continuous requirement management从线上 trace、QA、投诉和 incident 回流需求和 evalMonitoring Gate Spec

高级表达:

CBAP 让我能定义业务问题和 stakeholder value;AI 时代的升级是把这些 value 转成可度量、可评估、可门禁、可监控、可审计的行为契约, 并把随机模型的变化纳入需求生命周期。


3. 从 AI Idea 到 Measurable Outcome

3.1 不合格的 AI idea

常见输入:

  • 做一个 AML 智能助手。
  • 客服机器人要更懂客户。
  • 信贷审批用 AI 提升效率。
  • 给理财顾问一个投顾 copilot。
  • 用大模型总结客户画像。

这些不是需求, 只是 solution hint。高级需求工程第一步是把它们改写成业务和风险 outcome。

3.2 Outcome grammar

用下面语法约束 AI outcome:

For [workflow and role],
improve / reduce / control [business or risk metric],
from current baseline [baseline value or baseline measurement method],
to target [target value or target movement],
without violating [risk, policy, customer impact, fairness, privacy, audit constraints],
within [latency, cost, coverage, operating model boundaries].

高质量例子:

场景不成熟表达Outcome 表达
AMLAI 帮分析员写 case在 AML alert investigation 中, 将证据收集和 case narrative 起草时间降低 25%, 同时保持 critical red flag omission 为 0, 所有关键结论必须有 source evidence。
客服AI 回答更准确在信用卡费用和争议咨询中, 提升可引用政策回答的 first-contact resolution, 同时 unauthorized fee waiver commitment 为 0, 高风险投诉必须升级人工。
信贷AI 帮审批贷款在小微信贷 memo 起草中, 降低资料缺失和政策引用错误, 不让 LLM 做最终 approve / decline 决策, fair lending sensitive attribute 不进入推理链。
财富/投顾AI 给客户投资建议为持牌顾问提供 suitability checklist、产品资料摘要和风险揭示草稿, 不让 AI 直接向客户输出个性化买卖建议或收益承诺。

3.3 AI fit 与 no-AI boundary

每个 idea 都要同时写 AI fit 和 no-AI boundary:

AI fit适合 AI 的原因no-AI boundary
Read多来源政策、历史 case、文档检索成本高权限过滤、source-of-truth、版本生效日期必须由系统控制
Summarize长文档、通话记录、交易历史需要压缩成可读摘要摘要不能替代正式记录, 不能省略关键风险或不确定性
Recommend基于规则、证据和经验提出下一步高影响建议必须给出证据、限制条件和人工确认
Draft草拟回复、case note、memo、narrative草稿发送或归档前必须有人审或规则校验
Decide只适合低影响、可逆、规则清楚的内部决策金融高影响决策不应交给 LLM 单独完成
Act工具动作可提升效率工具权限必须最小化, 高影响动作必须审批和可回滚

4. AI Requirement Taxonomy

AI 需求要分层, 不能把所有东西塞进 user story。下面 taxonomy 用于发现遗漏、组织评审和追踪到 eval。

Requirement type核心问题高质量要求Eval / evidence
Business outcome requirement业务结果改善什么定义 baseline、target、影响范围、归因限制KPI baseline、pilot measurement plan
Workflow insertion requirementAI 插入哪个流程节点明确 read / summarize / recommend / draft / decide / actBPMN、user journey、control point
User and role requirement谁使用、谁受影响、谁负责区分客户、员工、主管、专家、模型风险、合规、审计RACI、entitlement matrix
Decision boundary requirementAI 能做什么决定列出 allowed / blocked / human approval actionsPolicy decision table、tool permission log
Data and knowledge requirementAI 用哪些事实和知识source-of-truth、权限、生效日期、保留期、数据最小化Data source inventory、retrieval trace
Grounding requirement输出如何绑定证据关键事实必须引用来源, 缺证据时说明不能确认Citation eval、unsupported claim rate
Behavior requirementAI 应如何回答、摘要、建议或草拟结构、语气、字段、推理边界、缺失信息处理Rubric、schema check、human review
Safety and compliance requirement哪些输出会造成风险禁止承诺、泄露、误导、越权、歧视、绕过政策Critical failure taxonomy、red-team cases
Human oversight requirement人何时介入risk tier、review trigger、override、escalation、rollbackHITL log、override analysis
HAI requirement用户如何理解和控制 AI能力边界、来源、不确定性、纠错、退出、变更通知HAI checklist、usability risk review
Evaluation requirement如何证明能上线dataset、evaluator、threshold、slice、critical blockerEval contract、experiment report
Release gate requirement谁根据什么放行go / limited go / no-go / rollback 规则明确Release gate memo、approval record
Monitoring requirement上线后看什么quality、risk、drift、cost、latency、feedback、complaintMonitoring dashboard、alert rule
Incident requirement出错后怎么处理severity、triage、stop switch、customer remediation、root causeIncident log、postmortem、eval update
Audit and lineage requirement如何证明过程可信requirement、dataset、model、prompt、RAG、tool、decision 全链路Evidence binder、version registry
Lifecycle requirement变更如何管理prompt/model/knowledge/tool 变更触发回归 evalChange record、regression report

4.1 Requirement maturity ladder

Level写法问题升级方向
L0 Idea“做一个客服 AI”无法验收明确流程、用户、价值和风险
L1 Behavior“能回答信用卡费用问题”只描述能力加入来源、边界、禁止行为和升级规则
L2 Metric“政策回答准确率达到 95%”指标不清定义样本、评分、切片、阈值和失败严重度
L3 Eval Contract“在费用政策 golden set 上, groundedness >= 4/5, critical policy violation = 0”可离线门禁加入 release decision 和 owner
L4 Monitored Contract“上线后按渠道和政策版本监控 citation failure、投诉、人工覆盖和 drift”可持续管理纳入 incident、回滚、知识更新和季度复审

5. GQM for AI Requirements

GQM 的价值是把“我们要什么”拆成“我们要回答哪些问题”以及“用哪些指标回答”。在 AI 项目里, 它避免三个常见错误:

  1. 直接用模型 benchmark 当业务需求。
  2. 只写平均 accuracy, 忽略高风险切片和严重失败。
  3. 把 KPI 改善误认为模型质量, 忽略流程、用户采用和控制成本。

5.1 GQM grammar for AI

Goal:
Analyze [AI use case / workflow / component]
for the purpose of [improving / controlling / comparing / deciding / monitoring]
with respect to [business outcome / quality / risk / cost / user trust / compliance]
from the viewpoint of [business owner / user / risk / compliance / audit / platform owner]
in the context of [channel / product / customer segment / risk tier / production environment].

Question:
What must be true, observable or explainable for the stakeholder to trust the goal?

Metric:
What signal, dataset, rubric, threshold and interpretation rule answers the question?

5.2 AI GQM object types

Object例子典型问题
WorkflowAML investigation、客服问答、信贷 memo、投顾准备AI 是否改善流程瓶颈且不引入不可接受风险
AI output摘要、建议、草稿、解释、工具参数输出是否 grounded、complete、compliant、actionable
Retrieval layerpolicy search、case evidence、product facts是否找到了正确、有效、授权可见的证据
Tool action创建工单、冻结卡、发送通知、更新 CRM是否在权限、审批、限额和回滚边界内
Human-AI interaction转人工、纠错、确认、拒绝、反馈用户是否理解边界并能有效控制
Operating modelQA、知识更新、incident、release组织是否能持续监控和改进

5.3 Metrics interpretation rules

AI 指标必须带解释规则:

Metric type示例解释规则
Business metricAML touch time、客服 FCR、memo rework rate只能在 pilot 设计和流程控制清楚时作为 outcome, 不能单独证明模型安全
Quality metricgroundedness、completeness、policy compliance按 risk tier 和 scenario slice 解读, 不能只看平均分
Risk metriccritical violation、PII leakage、unauthorized action高风险场景常用 hard stop, 目标为 0
Human control metricoverride rate、under-escalation、review defect过高和过低都要分析, 不是越低越好
Operational metriclatency、cost、timeout、fallback与用户任务时限和质量一起看, 不能单独优化
Trust metriccorrection success、handoff quality、complaint rate反映信任校准, 不是只看满意度

6. GQM 到 Eval Contract 的映射

GQM 让需求可测, Eval Contract 让需求可执行、可门禁、可监控。

GQM Goal
  -> eval decision purpose
GQM Questions
  -> evaluation questions and rubric dimensions
GQM Metrics
  -> metric definition, data source, threshold, slice, severity
Interpretation model
  -> release gate and monitoring gate rule
Evidence collection
  -> dataset, evaluator, run report, approval and audit trail

6.1 Mapping table

GQM elementEval Contract field设计要点
ObjectUse case / workflow / component明确评估对象是 AI 输出、RAG、工具动作、流程还是组合系统
PurposeDecision type区分 experiment comparison、pilot approval、production release、scale review、rollback
Quality focusEval dimensionsgroundedness、completeness、compliance、safety、usability、cost、latency
ViewpointReviewer / owner业务、运营、合规、模型风险、CX、审计各自问题不同
EnvironmentSlices and constraints渠道、语言、客户类型、产品、政策版本、风险等级
QuestionsEval questions每个问题都能被数据、rubric 或人工评审回答
MetricsMetric definitions分母、样本、评分、阈值、置信区间、严重度
InterpretationGate rule明确 pass、conditional、fail、rollback 和 exception 条件
Data collectionDataset and monitoring sourcegolden set、historical set、red-team set、production trace、QA sample
FeedbackContinuous improvement trigger失败 case 如何进入 dataset、知识库、prompt、policy 或流程改进

6.2 Eval Contract 最小字段

Field写法要求
Contract ID体现 use case、版本和 gate, 例如 AML-COPILOT-RELEASE-GATE-V1
Scope流程、角色、渠道、AI 介入点、客户影响
Risk tier低、中、高、关键, 并说明原因
Allowed behaviorAI 可以读取、摘要、建议、草拟或调用的动作
Forbidden behaviorAI 不得决定、承诺、泄露、推断或执行的动作
GQM goal用业务、风险和 stakeholder viewpoint 写成一句完整目标
Eval questions需要回答的 5 到 10 个关键问题
Dataset样本来源、切片、覆盖、版本、脱敏和权限
Evaluatorsdeterministic、human rubric、LLM judge、pairwise、red-team、production sampling
Metrics定义、分母、阈值、hard stop、slice threshold
Severitycritical / high / medium / low 的失败定义
Release gatego、limited go、no-go、rollback 的规则
Monitoring gate线上信号、触发阈值、owner、SLA、升级路径
Evidenceeval run、failed cases、approval、exception、issue closure

6.3 Contract as product boundary

Eval Contract 不只是测试文档, 它同时定义产品边界:

BoundaryContract 表达
Functional boundaryAI 做 read、summarize、recommend、draft, 不做 final decision
Data boundary只用授权来源, 引用 source ID 和 effective date
User boundary客户可见、员工可见、主管可见的内容不同
Risk boundary高风险输出进入 human review, critical failure 阻断 release
Change boundaryprompt、model、retriever、tool、policy 更新触发 regression
Accountability boundary每个 gate 有 decision owner 和 risk acceptance owner

7. Eval Contract 示例

下面是成品型示例, 可作为作品集写法。

contract_id: AML-COPILOT-CASE-NARRATIVE-RELEASE-V1
use_case: AML alert investigation copilot for evidence summary and narrative drafting
risk_tier: High, because output influences compliance investigation quality and potential regulatory filing workflow
workflow_insertion_point: Summarize and draft, before analyst review and before SAR decision
allowed_behavior:
  - Summarize transaction patterns from approved case evidence
  - Extract red flags from policy-approved typology checklist
  - Draft case narrative with cited evidence
  - Identify missing information and recommend analyst follow-up
forbidden_behavior:
  - Make final SAR filing decision
  - Invent customer intent or unsupported rationale
  - Suppress red flags because they are inconvenient
  - Use inaccessible customer data or unrelated sensitive attributes
gqm_goal: Evaluate the AML narrative copilot for the purpose of improving analyst investigation efficiency and narrative consistency, with respect to evidence grounding, red-flag coverage and compliance risk, from the viewpoint of AML operations, compliance and model risk, in the context of high-risk retail banking alerts.
eval_questions:
  - Does every material claim cite approved evidence?
  - Are mandatory red flags covered when present in source data?
  - Does the output clearly state missing evidence?
  - Does the output avoid final filing decisions?
  - Does the output preserve analyst control and review accountability?
metrics:
  grounding_score: Human rubric 1-5, release threshold >= 4.5 average and no high-risk unsupported claim
  red_flag_coverage: Mandatory red flags covered / mandatory red flags present, release threshold >= 98%
  critical_violation_count: SAR decision, invented evidence, unauthorized data use, release threshold = 0
  narrative_rework_rate: Analyst major edit rate in pilot, monitored weekly with target downward trend after training period
release_gate:
  go: All critical violations = 0, grounding and coverage thresholds met across high-risk slices, model risk and AML owner approve
  limited_go: Non-critical style or formatting issues exist, pilot limited to analyst-assist mode with 100% review
  no_go: Any critical violation, missing high-risk red flag, or evidence access defect
monitoring_gate:
  daily_sample_review: 5% of generated narratives, stratified by typology and risk level
  alert_trigger: Any critical violation, citation failure cluster, or analyst override spike above control limit
  response: Freeze prompt/model rollout, open risk issue, add failed traces to regression set, rerun gate before re-release
evidence:
  - Dataset card
  - Rubric calibration report
  - Eval run report
  - Failed case log
  - Release approval memo
  - Production monitoring dashboard

8. Release Gate 与 Monitoring Gate

8.1 Release gate

Release gate 回答:

这个 AI 版本是否可以进入 pilot / production / scale?

必备输入:

Evidence说明
Use case scope流程、角色、AI 介入点、禁止用途
Risk tier客户影响、监管影响、可逆性、人工控制
Eval contractquestions、metrics、dataset、evaluator、threshold
Dataset coveragecommon、edge、missing-data、policy conflict、adversarial、高风险历史案例
Experiment reportbaseline vs candidate, slice analysis, regression
Critical failure log失败类型、根因、修复、复测结果
Human oversight designreview、override、escalation、rollback、stop switch
Operational readinesslatency、cost、fallback、support、incident owner
Evidence approvalbusiness、risk、compliance、model risk、architecture owner

Release gate decision:

Decision条件后续动作
Go指标达到阈值, critical failure 为 0, owner 接受剩余风险按 release plan 上线, 启动 monitoring gate
Limited go核心风险可控, 仍有非关键缺陷或覆盖限制限定用户、渠道、流量、动作和人工复核比例
No-go关键阈值未达、证据不足或控制缺失停止上线, 修复后重新跑 gate
Rollback线上触发关键风险或质量退化回退版本, 开 incident, 更新 regression set
Exception管理层接受特定剩余风险记录风险接受、补偿控制、到期复审和退出条件

8.2 Monitoring gate

Monitoring gate 回答:

上线后的 AI 是否仍然在契约内运行?

监控信号:

Signal金融零售例子Gate action
Quality driftcitation failure 上升、grounding score 下降抽样复核、知识库检查、重跑 eval
Risk eventunauthorized commitment、PII leakage、tool overreach停止相关能力、incident、客户补救评估
Human override员工频繁改写或拒绝 AI 建议根因分析: 模型差、流程错、培训不足或信任失配
Under-escalation投诉、欺诈、困难援助未转人工强制路由规则、red-team case 更新
Business anomalyFCR 上升但投诉也上升重新平衡效率和客户伤害指标
Cost / latency超出 workflow 时限或预算优化模型/检索/缓存, 不牺牲 hard stop 风险指标
Policy change新费用政策、生效日期、产品条款变更知识版本更新, regression eval, release approval
User trustadoption 低、over-reliance 高、rubber stamp 高调整 HAI、培训、review burden 和控制提示

Monitoring gate 输出:

  • Weekly quality and risk report。
  • Failed trace to eval dataset update。
  • Owner action log。
  • Release freeze / rollback decision。
  • Quarterly AI capability review。
  • Evidence binder update。

9. 金融零售案例

9.1 AML Copilot

Use case: AML analyst assistant for alert investigation, evidence summary and case narrative drafting。

Correct boundary:

  • AI 可以聚合交易、客户 KYC、历史 case、typology checklist 和政策证据。
  • AI 可以草拟 narrative 和 follow-up questions。
  • AI 不做最终 SAR filing decision, 不替代 AML analyst judgment。

GQM map:

GoalQuestionMetric / evidenceGate rule
降低调查准备时间是否减少 analyst 搜证和整理耗时Median evidence preparation time, pilot baseline comparison试点期下降且不增加 critical defect
提高 narrative 证据质量每个关键结论是否有来源Unsupported material claim count, citation support scoreHigh-risk unsupported claim = 0
避免遗漏 red flagstypology checklist 是否覆盖Red flag recall by typology slice高风险 typology recall >= 98%
保持人工责任是否明确 analyst review 和 missing evidenceHuman review completion, missing-evidence statement rate未经 review 不得进入归档或 filing 流程

Critical failures:

  • 编造客户意图或资金来源。
  • 遗漏已出现在证据中的关键 red flag。
  • 把草稿写成最终 SAR filing decision。
  • 引用无权访问或过期政策。
  • 因为历史相似 case 而暗示客户有罪。

Monitoring gate:

  • 按 typology、风险等级、渠道和 analyst team 分层抽样。
  • 监控 analyst major edit rate、citation failure、missing red flag、QA defect、case reopening。
  • 任一 critical failure 触发 stop switch、incident review 和 regression set update。

9.2 Customer Service AI

Use case: 客服 RAG assistant for credit card fee, dispute, payment, branch and digital banking questions。

Correct boundary:

  • AI 可以回答批准知识库中的政策和流程。
  • AI 可以起草客服回复并引用政策来源。
  • AI 不承诺未授权 fee waiver、赔付、争议结果、额度提升或投诉结论。

GQM map:

GoalQuestionMetric / evidenceGate rule
提升 first-contact resolution是否在政策覆盖范围内解决问题FCR by intent, containment with no complaint increaseFCR 改善需同时满足 complaint rate 不上升
降低错误政策回答回答是否引用当前有效政策Policy citation correctness, effective-date matchCritical policy error = 0
保持高风险升级投诉、欺诈、困难援助是否转人工Escalation recall for high-risk intentsUnder-escalation critical count = 0
改善交互控制客户是否能转人工、纠错、知道边界Handoff completion, correction success, fallback rateHandoff failure spike 触发 review

Critical failures:

  • 承诺免除费用但无授权。
  • 对欺诈交易要求客户继续普通 FAQ。
  • 对投诉或脆弱客户没有升级。
  • 使用过期政策回答。
  • 泄露其他客户或内部操作信息。

Monitoring gate:

  • 按 intent、语言、渠道、政策版本、客户脆弱性信号分层。
  • 监控 wrong answer complaint、agent override、handoff abandonment、policy update lag。
  • 政策变更后必须触发知识刷新和 regression eval。

9.3 Lending Assistant

Use case: 信贷 officer copilot for application summary, missing document checklist, policy citation and credit memo drafting。

Correct boundary:

  • AI 可以整理申请材料、指出缺失文件、引用政策、草拟 memo。
  • AI 不做最终 approve / decline, 不生成未经验证的 adverse action reason。
  • AI 不使用禁止或敏感属性推断信用价值。

GQM map:

GoalQuestionMetric / evidenceGate rule
降低 memo reworkmemo 是否结构完整且政策引用准确Major rework rate, policy citation accuracy关键政策引用错误 = 0
提高材料完整性是否识别缺失和冲突材料Missing document recall, conflict detection高影响缺失材料 recall >= 98%
控制 fair lending 风险是否使用或暗示禁止因素Sensitive attribute leakage, proxy reasoning defects禁止因素使用 = 0
保持决策边界是否清楚标识 AI 只是 assistFinal decision by officer, review attestation无人工 attest 不得进入 final decision

Critical failures:

  • AI 输出 approve / decline 结论。
  • 编造收入、资产、债务或经营情况。
  • 使用受保护类别或可疑 proxy 作为理由。
  • 错误引用政策导致客户不利结果。
  • 未说明材料缺失却让 officer 以为资料完整。

Monitoring gate:

  • 按产品、地区、渠道、申请类型、officer team 和 protected-class proxy risk 分层复核。
  • 监控 override reason、memo defect、appeal / complaint、policy exception、QA finding。
  • 模型或政策变化必须经过 fair lending 和 model risk 复评。

9.4 Wealth / Advisor Copilot

Use case: 财富顾问 assistant for client meeting preparation, product document summary, suitability checklist and compliant communication draft。

Correct boundary:

  • AI 可以摘要客户已授权信息、投资目标、风险承受能力和产品资料。
  • AI 可以提醒 suitability / appropriateness / disclosure checklist。
  • AI 不直接向客户做个性化买卖建议, 不承诺收益, 不绕过持牌顾问责任。

GQM map:

GoalQuestionMetric / evidenceGate rule
提高顾问准备质量meeting brief 是否覆盖客户目标、风险、限制和材料缺口Completeness rubric, missing profile field detection高风险缺口未标记 = 0
控制不当建议风险是否避免无牌建议、收益承诺和不适配推荐Prohibited advice count, suitability checklist passProhibited advice = 0
提升披露质量是否包含关键风险揭示和产品来源Disclosure coverage, source citation关键风险揭示缺失 = 0
维护客户信任是否表达不确定性、限制和人工责任HAI review, advisor edit log, complaint signal投诉或误导信号触发 review

Critical failures:

  • 对非持牌或客户可见渠道输出个性化交易建议。
  • 承诺收益、淡化损失或隐藏费用。
  • 错误总结产品风险或流动性限制。
  • 忽略客户风险承受能力、投资期限或限制。
  • 用未经授权的客户数据做推荐。

Monitoring gate:

  • 按产品风险等级、客户分群、顾问团队、渠道和材料版本分层。
  • 监控 advisor override、compliance review defect、customer complaint、disclosure omission。
  • 产品资料或监管要求更新后触发 knowledge and prompt regression。

10. 模板

10.1 AI Opportunity-to-GQM Canvas

Field填写口径高质量例子
Use case业务流程和 AI 介入点AML alert investigation copilot for evidence summary and narrative drafting
Business outcome可衡量的业务改善Reduce evidence preparation time while keeping critical red flag omission at zero
Risk outcome必须控制的客户、合规、运营或模型风险No unsupported material claim, no final SAR decision by AI
Stakeholder viewpoint业务、用户、风险、合规、审计各自关心什么AML Ops cares speed; Compliance cares evidence and filing quality; Model Risk cares controls
Workflow boundaryAI 做什么, 不做什么Summarize and draft before analyst review, not decide SAR filing
Baseline当前状态如何测量Historical case handling time, QA defect rate, narrative rework rate
GQM goal完整 goal statementEvaluate AML copilot for improving investigation efficiency and controlling compliance risk
Core questions必须被回答的问题Are all material claims supported? Are mandatory red flags covered?
Metrics能回答问题的指标Grounding score, red flag recall, critical violation count
Gate decision指标如何转成放行Critical violations = 0; high-risk slices pass thresholds

10.2 Requirement Taxonomy Template

Requirement typeRequirement statement exampleEval trace
Business outcomePilot should reduce median AML evidence preparation time by 25% versus baseline without increasing QA critical defectsPilot measurement plan, QA report
Workflow insertionAI only operates in evidence summary and narrative draft stages before analyst reviewBPMN, UI state, audit log
Decision boundaryAI must not make or imply final SAR filing decisionDeterministic forbidden pattern check, human review
GroundingEvery material claim must cite approved evidence item IDCitation support eval
Missing informationAI must explicitly identify unavailable or conflicting evidenceMissing-evidence rubric
Human oversightAnalyst must review and attest before narrative enters system of recordAttestation log
MonitoringProduction samples must be reviewed by typology and risk tier weeklyMonitoring dashboard

10.3 GQM Sheet

GQM elementExample
Goal objectCustomer service RAG assistant for credit card fee and dispute questions
PurposeImprove correct self-service resolution while controlling unauthorized commitment risk
Quality focusPolicy correctness, escalation, customer control, complaint risk
ViewpointContact center operations, CX, compliance, risk, customer
ContextMobile app and web chat, retail credit card customers, English and Chinese support
Question 1Does the answer cite current approved policy?
Metric 1Policy citation correctness by intent and policy version
Question 2Does the assistant escalate complaints, fraud and vulnerable-customer signals?
Metric 2High-risk intent escalation recall and under-escalation critical count
Question 3Does the assistant avoid unauthorized promises?
Metric 3Unauthorized commitment count, release threshold = 0
InterpretationGo only when critical failures = 0 and policy correctness thresholds pass by slice

10.4 Eval Contract Template

SectionContent standard
Contract identityContract ID, use case, version, owner, gate type
ScopeWorkflow, role, channel, risk tier, customer impact
Behavior boundaryAllowed behavior, forbidden behavior, human approval points
GQM goalFull goal statement with purpose, quality focus, viewpoint and context
Eval questionsQuestions tied to stakeholder decisions, not generic model quality
DatasetSource, sampling logic, slices, labeling, version, privacy handling
EvaluatorsDeterministic checks, human rubric, LLM judge, red-team, pairwise comparison
MetricsDefinition, denominator, threshold, hard stop, confidence and slice rule
Severity modelCritical, high, medium and low failure definitions
Release gateGo, limited go, no-go, rollback and exception rules
Monitoring gateProduction signals, alert thresholds, owner, SLA and response
EvidenceRun reports, failed cases, approvals, exceptions, incident updates

10.5 Release Gate Memo Template

SectionHigh-quality content
Decision requestedApprove limited production release for Customer Service RAG in credit card fee intents
Scope approvedChannels, user groups, intents, languages, traffic percentage, excluded scenarios
Eval summaryDataset size, slice coverage, evaluator mix, benchmark version, result summary
Critical failuresCount, examples, root cause and closure evidence
Residual risksKnown limitations, controls, owner and review date
Human oversightRequired review, escalation, override and stop switch
Monitoring planDaily and weekly metrics, alert thresholds, sample review
DecisionGo, limited go, no-go, rollback or exception
ApprovalsBusiness owner, risk, compliance, model risk, architecture, operations

10.6 Monitoring Gate Spec Template

SignalDefinitionSliceTriggerOwnerResponse
Citation failureAnswer cites missing, outdated or non-supporting sourceIntent, policy version, channelAny critical cluster or weekly rate above control limitKnowledge ownerFreeze affected content, correct source, rerun eval
Unauthorized commitmentAI promises fee waiver, claim result, credit decision or investment outcome without authorityProduct, channel, user typeAny occurrenceProduct risk ownerStop affected flow, incident review, customer impact assessment
Under-escalationHigh-risk intent not routed to human or specialistIntent, language, customer segmentAny critical occurrenceOperations ownerRouting update, failed trace added to regression
Override spikeHuman users reject or heavily edit AI outputTeam, workflow, prompt versionSustained spike over baselineAI PMRoot cause review, training or prompt/RAG fix
Cost / latency breachAI exceeds workflow budget or response timeModel, channel, regionBreach of SLOPlatform ownerOptimize or degrade gracefully

10.7 Evidence Binder Index

Evidence artifactPurpose
AI Opportunity-to-GQM CanvasProves use case was defined from outcome and stakeholder questions
Requirement Taxonomy MatrixProves requirements cover workflow, data, behavior, safety, HAI, gate and monitoring
Eval ContractProves acceptance is measurable and risk-tiered
Dataset CardProves eval sample source, coverage, labeling and limitations
Evaluator Calibration ReportProves rubric and judge are usable for decision support
Experiment ReportProves candidate version was compared to baseline and sliced
Release Gate MemoProves go / limited go / no-go decision and risk ownership
Monitoring Dashboard SpecProves production behavior remains under control
Incident and Improvement LogProves failures become regression cases and control updates

11. 评审清单

11.1 Discovery and GQM checklist

  • 是否先定义 business outcome 和 risk outcome, 而不是先选模型。
  • 是否写出 no-AI alternative 和 AI fit 判断。
  • 是否明确 workflow insertion point: read / summarize / recommend / draft / decide / act。
  • 是否识别客户影响、监管触点、可逆性和人工控制要求。
  • 是否每个 stakeholder concern 都转成至少一个 GQM question。
  • 是否每个 GQM question 都有 metric、evidence 或 review method。
  • 是否定义 baseline measurement method。
  • 是否区分 business KPI、AI quality metric、risk metric 和 operational metric。

11.2 Eval Contract checklist

  • Contract 是否明确 scope、risk tier、allowed behavior 和 forbidden behavior。
  • Dataset 是否覆盖 common、edge、missing-data、policy conflict、adversarial 和 historical failure cases。
  • Metrics 是否有分母、阈值、slice、severity 和解释规则。
  • Critical failure 是否是 hard stop, 而不是平均分中的一项。
  • Human review rubric 是否经过校准。
  • LLM-as-judge 是否经过人工抽样校准, 且不作为高风险唯一证据。
  • Prompt、model、RAG、tool、policy 版本是否进入 lineage。
  • Failed cases 是否有 owner、root cause、fix 和 regression evidence。

11.3 Release gate checklist

  • Gate decision 是否有 go / limited go / no-go / rollback / exception 的明确规则。
  • 是否列出不在本次 release 范围内的场景。
  • 是否完成 architecture、security、privacy、compliance、model risk 和 operations review。
  • 是否定义 stop switch、fallback、rollback 和 incident owner。
  • 是否说明 residual risk 和补偿控制。
  • 是否定义上线后的抽样比例、监控频率和复审节奏。
  • 是否有业务 owner 对价值和运营结果负责。
  • 是否有 risk owner 对剩余风险接受负责。

11.4 Monitoring gate checklist

  • 是否监控质量、风险、成本、延迟、采用、纠错、投诉和 incident。
  • 是否按渠道、语言、产品、客户类型、风险等级和版本切片。
  • 是否把 production failed trace 回流到 eval dataset。
  • 是否区分模型问题、知识问题、流程问题、用户培训问题和控制问题。
  • 是否有 alert threshold、owner、SLA 和 response playbook。
  • 是否定义模型、prompt、knowledge、policy 或 tool change 的 regression trigger。
  • 是否有季度 capability review: continue / refresh / restrict / retire。

12. 反模式

反模式看起来合理实际问题正确做法
AI idea 直接进 backlog业务方觉得需求清楚没有 measurable outcome 和风险边界先做 Opportunity-to-GQM Canvas
“准确率 95%”有数字没有定义样本、评分、分母、严重度和切片写成 eval metric + threshold + interpretation
只看平均分报告好看高风险失败被平均值掩盖按 risk tier 和 scenario slice 设置 hard stop
Vendor demo 代替需求演示流畅无法证明适合本机构流程和风险用本机构 case、policy 和 workflow 做 eval
KPI 等于模型质量业务关心结果KPI 受流程、培训、流量和季节性影响同时看 AI quality、risk、operational 和 business metrics
人工复核写在文档里似乎有控制没有 review criteria、attestation 和抽样证据设计 HITL workflow、rubric 和日志
Golden set 只放简单样本通过率高真实边界和失败模式未覆盖加入 historical failure、edge、adversarial 和 high-risk cases
Critical failure 可被平均分抵消指标统一严重风险被统计吞掉critical count 独立作为 release blocker
反馈只是 thumbs up/downUI 简洁不能定位根因和改进 owner反馈分类到 source、policy、format、risk、handoff、tone
上线后不再看 eval节省成本模型、知识、政策和用户行为会漂移建立 monitoring gate 和 continuous evaluation
AI 直接做高影响决定效率最大客户权益、合规、fairness 和责任风险过高AI assist + human decision + audit trail
HAI 当 UI polish界面更友好用户可能过度信任或无法纠错把 uncertainty、control、correction 和 handoff 写成 requirement

13. 30 天训练计划

目标: 30 天内完成一个金融零售 AI use case 的 GQM-to-Eval Contract 作品集包。建议选择 AML、客服、信贷或财富/投顾中的一个主案例, 另外三个作为简版对照。

Day训练重点产出
1选择主案例, 写 AI idea、业务流程和 no-AI alternative1-page use case brief
2画 AS-IS / TO-BE workflow, 标出 AI insertion pointWorkflow map
3定义 business outcome、risk outcome、baseline 方法Outcome statement
4识别 stakeholder: business、ops、risk、compliance、audit、userStakeholder concern map
5写 GQM goal statement, 区分目的、质量焦点、视角和上下文GQM goal card
6为每个 stakeholder 写 2 个 decision questionsQuestion bank
7把 questions 合并成 8 到 12 个核心 eval questionsCore eval questions
8设计 AI requirement taxonomy, 覆盖 workflow、data、behavior、safety、HAI、monitoringRequirement matrix
9写 allowed behavior 和 forbidden behaviorBehavior boundary table
10定义 critical / high / medium / low failure taxonomyFailure severity model
11设计 dataset slices: common、edge、missing-data、policy conflict、adversarial、historical failureDataset coverage matrix
12设计 human rubric, 每个维度写 1/3/5 分标准Human review rubric
13设计 deterministic checks: schema、citation、forbidden phrase、tool permissionDeterministic eval spec
14设计 LLM judge 使用边界和人工校准方案Judge calibration plan
15写第一版 Eval ContractEval Contract v1
16设计 release gate decision rulesRelease gate rule table
17写 Release Gate Memo 成品版Release Gate Memo
18设计 monitoring signals 和 alert triggersMonitoring Gate Spec
19设计 incident response: triage、stop switch、rollback、customer impactIncident response flow
20把 failed trace 回流机制接到 dataset 和 regressionContinuous eval loop
21完成 AML 案例简版 GQM mapAML case sheet
22完成客服案例简版 GQM mapCustomer service case sheet
23完成信贷案例简版 GQM mapLending case sheet
24完成财富/投顾案例简版 GQM mapWealth case sheet
25写反模式和 mitigation, 对照自己的主案例自评Anti-pattern review
26组装 Evidence Binder IndexEvidence binder
27写 5 分钟作品集讲解稿Portfolio narrative
28准备 8 个面试问答Interview answer pack
29找一个已有 AI playbook 做交叉评审, 补齐 gate、monitoring、HAI 缺口Self-review report
30输出最终作品集包, 用一页 executive summary 收尾Final portfolio pack

30 天完成标准:

  • 能用 GQM 解释为什么这些指标服务于业务和风险决策。
  • 能用 Eval Contract 证明 AI requirement 可测试、可门禁、可监控。
  • 能用金融零售案例说明边界: AI assist 与 AI decision 的区别。
  • 能把 release gate 和 monitoring gate 讲成管理层可决策的证据。

14. 面试答案

Q1: 你如何把一个 AI idea 转成可执行需求?

30 秒回答

我不会先写“系统要智能回答”。我会先定义 workflow、业务 outcome、风险 outcome 和 no-AI boundary, 再用 GQM 把 stakeholder concern 转成 questions, 用 metrics 和 eval contract 定义可接受行为、不可接受行为、阈值、release gate 和 monitoring gate。

2 分钟回答

我的步骤是: 第一, 明确 AI 插入流程的哪个点, 是 read、summarize、recommend、draft、decide 还是 act。第二, 定义 business outcome 和 risk outcome, 例如降低 AML case preparation time, 但 critical red flag omission 必须为 0。第三, 用 GQM 从业务、运营、合规、模型风险和用户视角写问题, 比如关键结论是否有证据、是否遗漏高风险信号、是否保留人工责任。第四, 把问题映射成 metrics、dataset、rubric、hard stop 和 release gate。第五, 上线后用 monitoring gate 跟踪 drift、override、complaint、citation failure 和 incident, 把失败 trace 回流到 eval dataset。

Q2: 为什么 GQM 适合 AI 需求工程?

30 秒回答

因为 AI 项目最容易从模型能力和平均指标出发。GQM 强迫团队先回答目标是什么、谁关心什么问题、什么指标能支持决策, 这样可以避免把 benchmark、demo 或泛泛 accuracy 当成需求。

2 分钟回答

GQM 的核心是 Goal、Question、Metric。AI 系统的输出有随机性, 而金融零售又有客户权益、合规和审计要求, 所以需求不能只写功能行为。GQM 能把“客服 AI 更准确”改成“在信用卡费用政策场景中, 从 CX 和合规视角看, 回答是否引用当前有效政策、是否避免未经授权承诺、是否正确升级投诉和欺诈意图”。然后每个问题都有 metric 和解释规则, 最后进入 eval contract 和 release gate。这样指标不是装饰, 而是决策证据。

Q3: Eval Contract 和普通验收标准有什么区别?

30 秒回答

普通验收标准通常验证某个功能是否完成。Eval Contract 定义的是 AI 行为契约: 数据集、评估方法、指标、阈值、失败严重度、release gate、monitoring gate、owner 和证据链。

2 分钟回答

AI 验收不能只看一个示例是否回答正确。Eval Contract 会规定适用范围、风险等级、允许和禁止行为、GQM questions、dataset slices、human rubric、deterministic checks、LLM judge 使用边界、critical failure、go / no-go 规则和线上监控触发。比如信贷 copilot 可以草拟 memo 和缺失材料清单, 但不能做 approve / decline。任何受保护属性推理、错误 reason code 或未经验证政策引用都可能是 critical blocker。上线后还要监控 override、appeal、complaint、QA defect 和政策变更回归。

Q4: Release gate 和 Monitoring gate 如何区分?

30 秒回答

Release gate 判断某个版本能不能进入 pilot 或 production;Monitoring gate 判断上线后的 AI 是否仍然在契约内运行。前者基于离线 eval、红队、人工评审和审批证据, 后者基于生产 trace、用户反馈、质量漂移、风险事件和业务异常。

2 分钟回答

Release gate 是上线前的决策点, 输入包括 use case scope、risk tier、dataset coverage、eval report、critical failures、human oversight 和 rollback plan。Monitoring gate 是上线后的控制机制, 看 citation failure、under-escalation、override spike、complaints、cost、latency、policy change 和 incident。两者必须闭环: 线上失败 trace 进入 regression dataset, 修复后重新跑 release gate。这样 AI requirement 不会在上线时结束, 而是持续管理。

Q5: 你如何处理业务方只说“准确率要高”?

30 秒回答

我会把“准确”拆成具体问题: 哪类任务、哪个角色、什么错误代价、什么样本、谁评分、哪些失败不可接受、上线后如何监控。然后把 accuracy 改成多个 eval dimensions 和 hard stop。

2 分钟回答

在金融零售里, “准确率高”没有分母也没有风险含义。我会问: 是政策事实准确、证据引用准确、摘要完整、风险升级准确、工具动作准确, 还是客户沟通准确? 然后按场景切片设计指标。比如客服 AI 的平均回答分数 95% 仍可能因一个 unauthorized fee waiver commitment 不能上线。对高风险 failure 要设置 independent critical blocker, 对普通质量问题才用平均分或分位数。

Q6: 如何向高管解释 AI requirements 的价值?

30 秒回答

AI requirements 的价值是把创新从 demo 风险变成可管理能力。它让管理层知道 AI 改善什么业务结果, 引入什么风险, 用什么证据放行, 上线后看什么信号, 出事时谁负责和如何回滚。

2 分钟回答

我会用四个问题解释: 第一, 这个 AI 能改善哪个 measurable outcome? 第二, 哪些错误是组织不能接受的? 第三, 当前版本是否有足够证据进入 pilot 或 production? 第四, 上线后如何证明它仍然在边界内运行? GQM 和 Eval Contract 把这些问题变成管理层可读的 gate memo, 包括价值、风险、阈值、例外、控制和 owner。这比只展示模型效果更适合受监管金融环境。

Q7: 如何避免 AI 项目被 vendor demo 带偏?

30 秒回答

我会用本机构 workflow、政策、数据权限、失败模式和 release gate 评估 vendor 能力。demo 只能证明可演示, 不能证明适合我们的流程、风险和监管边界。

2 分钟回答

Vendor demo 往往用干净样本和理想流程。我的做法是先写 AI Opportunity-to-GQM Canvas 和 Eval Contract, 再要求 vendor 在受控样本、政策版本、权限边界和高风险 cases 上证明能力。评估不只看回答质量, 还看数据隔离、source citation、audit log、model update control、human oversight、incident response、cost 和 latency。这样采购讨论从“模型厉害不厉害”变成“能否通过我们的 gate”。

Q8: AI assist 和 AI decision 的边界怎么定义?

30 秒回答

边界取决于客户影响、可逆性、监管要求、证据完整性和人工责任。金融高影响场景通常允许 AI read、summarize、recommend、draft, 但 final decision、客户承诺和高影响工具动作需要人工控制。

2 分钟回答

我会先按流程节点分级: read 和 summarize 风险较低, recommend 和 draft 需要证据和审核, decide 和 act 在金融场景通常高风险。比如信贷里 AI 可以起草 memo、列缺失材料、引用政策, 但不能批准或拒绝贷款。AML 里 AI 可以写 narrative draft, 但不能决定是否 filing。财富场景 AI 可以给顾问准备材料和 checklist, 但不能绕过持牌顾问向客户直接建议买卖。这个边界要写进 requirement、UI、权限、audit log 和 eval contract。


15. 作品集交付物

一个有说服力的高级 AI Requirements Engineering 作品集, 不应只是一份 PRD。建议交付一组证据资产:

Deliverable内容展示能力
Executive Summary一页说明 use case、outcome、risk、gate decision 和 portfolio thesis高管沟通
AI Opportunity-to-GQM Canvas从 idea 到 outcome、questions、metrics 的完整映射Measurement-first discovery
Requirement Taxonomy Matrix覆盖 workflow、data、behavior、safety、HAI、eval、monitoring高级需求覆盖
GQM-to-Eval Contract Map每个 goal/question/metric 如何进入 contract方法论掌握
Eval Contract Packscope、risk tier、dataset、evaluator、threshold、severity、gateAI 验收设计
Dataset Coverage Matrixcommon、edge、policy conflict、adversarial、historical failure slicesEval 数据思维
Human Rubric and Calibration Noterubric 维度、评分标准、一致性校准人审治理
Release Gate Memogo / limited go / no-go 决策、证据、剩余风险和审批上线治理
Monitoring Gate Specproduction signals、alert、owner、SLA、continuous eval生产运营
Financial Retail Case PackAML、客服、信贷、财富/投顾四个案例对照行业深度
Anti-pattern Review识别并修正平均分、demo、无边界、无监控等问题风险判断
Interview Answer Pack8 到 12 个高级面试问答求职转化

作品集讲解顺序:

1. 我选择了哪个金融零售 AI use case
2. 为什么这是 AI fit, 不是普通流程优化
3. 我如何用 GQM 定义 stakeholder questions
4. 我如何把 questions 转成 metrics 和 eval contract
5. 我如何设计 release gate 和 monitoring gate
6. 我如何处理 critical failures、human oversight 和 audit evidence
7. 我如何把线上失败回流到 continuous evaluation
8. 这个案例如何证明我具备 AI PM / Architect / AI BA 的高级能力

16. 最终记忆卡

概念一句话
AI requirement可测、可门禁、可监控、可问责的 AI 行为和控制契约
GQM从目标出发, 通过问题定义指标, 避免模型指标先行
Eval Contract把需求变成 dataset、evaluator、metric、threshold、severity、gate 和 evidence
Release Gate上线前基于证据做 go / limited go / no-go / rollback / exception 决策
Monitoring Gate上线后验证 AI 是否仍在契约内运行并触发改进
Critical failure不能被平均分抵消的高风险失败
CBAP upgrade从需求管理升级到 AI 行为测量、风险门禁、生产监控和证据治理

最重要的一句话:

高级 AI 需求工程的竞争力, 是能把“AI 看起来能做”变成“组织知道为什么做、怎么测、何时放行、何时停用、谁负责、如何证明”。