AI Requirements Engineering / GQM Eval Contracts Playbook
以下来源作为需求工程、AI 风险治理和 Human-AI Interaction 的学习锚点。本文把它们转成金融零售 AI 项目的需求、评估、门禁、监控和作品集资产, 不构成法律、合规、审计或模型验证意见。访问日期按 2026-06-29 记录。
AI Requirements Engineering / GQM / Eval Contracts Playbook
面向对象: 高级 AI PM / AI BA / Product Architect / Solutions Architect / EvalOps Lead / Model Risk / AI Governance / 金融零售转型负责人。 核心问题: 如何把一个 AI idea 从“想做一个智能助手”升级为 measurable outcome、GQM questions、metrics、eval contract、release gate、monitoring gate 和可审计证据。 使用方式: 每个高价值 AI use case 至少产出一张 GQM-to-Eval Contract Map、一份 Eval Contract、一份 Release Gate Memo 和一份 Monitoring Gate Spec。本文不讲 BA 入门, 重点训练 CBAP 之后的 AI 需求工程升级能力。
Source Anchors
以下来源作为需求工程、AI 风险治理和 Human-AI Interaction 的学习锚点。本文把它们转成金融零售 AI 项目的需求、评估、门禁、监控和作品集资产, 不构成法律、合规、审计或模型验证意见。访问日期按 2026-06-29 记录。
| Anchor | Official / primary source | 本文使用方式 |
|---|---|---|
| Basili GQM paper | https://www.cs.umd.edu/~basili/publications/technical/T89.pdf | 用 Goal-Question-Metric 思路把 AI idea 拆成目标、问题、指标和解释模型。 |
| NIST AI Risk Management Framework | https://www.nist.gov/itl/ai-risk-management-framework | 用 Govern / Map / Measure / Manage 组织 AI 风险识别、测量、门禁、监控和持续改进。 |
| Microsoft Guidelines for Human-AI Interaction | https://www.microsoft.com/en-us/research/publication/guidelines-for-human-ai-interaction/ | 用 Human-AI Interaction 原则设计 expectation setting、context、uncertainty、correction、feedback、control 和 change notification。 |
| NIST AI RMF Generative AI Profile | https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence | 用 GenAI 特有风险组织 hallucination、data leakage、prompt injection、misuse、over-reliance 和 content provenance 的 eval cases。 |
| Microsoft HAX Toolkit | https://www.microsoft.com/en-us/haxtoolkit/ | 用 failure mode 和 HAI pattern 思路把交互风险转成需求、评审和测试资产。 |
| ISO/IEC 42001 AI Management System | https://www.iso.org/standard/81230.html | 用管理体系语言组织 AI owner、policy、lifecycle、operation、performance evaluation 和 improvement。 |
| OWASP Top 10 for LLM Applications | https://owasp.org/www-project-top-10-for-large-language-model-applications/ | 用 LLM 风险类别补强 prompt injection、sensitive information disclosure、excessive agency 和 insecure output handling 的需求与 red-team cases。 |
Standards-to-artifacts:
| Source lens | 可以产出的 artifact | 高级面试表达 |
|---|---|---|
| GQM | GQM sheet、question bank、metric interpretation model | “我不会从模型指标开始, 我会从业务目标和 stakeholder question 反推指标。” |
| NIST AI RMF | AI risk map、measure plan、release gate、monitoring gate、risk issue log | “我把 AI requirements 放入 Govern / Map / Measure / Manage 的风险闭环, 而不是只写功能验收。” |
| Microsoft HAI Guidelines | HAI requirement matrix、interaction control checklist、feedback loop spec | “我会把人机交互里的期望、纠错、退出、控制和变更通知写成可评估需求。” |
| GenAI risk references | Red-team case set、critical failure taxonomy、incident playbook | “我把幻觉、泄露、越权、过度信任和提示注入转成 release blocker 和 monitoring trigger。” |
1. One-Sentence Positioning / 一句话定位
AI Requirements Engineering 的核心不是把业务方的 AI idea 写成 user story, 而是:
AI idea
-> measurable business and risk outcome
-> stakeholder questions
-> metrics and interpretation rules
-> eval contract
-> release gate
-> monitoring gate
-> production learning loop
一句话:
AI Requirements Engineering = 用 GQM 把“想要 AI 能力”转成“组织可以测量、放行、限制、监控、问责和持续改进的 AI 行为契约”。
在金融零售场景里, AI requirement 不是一句“回答准确、安全、有用”。合格的 AI requirement 必须同时回答:
- 业务结果是否可衡量。
- AI 在流程中的介入点是否清楚。
- 哪些行为被允许、禁止、限制和升级。
- 哪些问题必须被 eval 回答。
- 指标如何解释为 go / limited go / no-go / rollback。
- 上线后哪些信号触发人工复核、降级、停用或重新评估。
- 证据如何支持审计、模型风险、合规和管理层决策。
2. 为什么 CBAP 后还需要升级
CBAP 证明你掌握了成熟业务分析能力: stakeholder analysis、requirements lifecycle、strategy analysis、solution evaluation、elicitation、traceability 和 change management。AI 项目不是否定这些能力, 而是要求把它们升级到概率系统、数据依赖、模型漂移、Human-AI Interaction 和风险门禁的层面。
| CBAP 已有能力 | AI 项目新增挑战 | 高级升级方式 |
|---|---|---|
| Business need | AI idea 往往由技术能力或 vendor demo 驱动 | 用 measurable outcome 和 no-AI alternative 过滤伪需求 |
| Stakeholder requirement | AI 输出影响用户、员工、模型风险、合规、审计和客户权益 | 把 stakeholder concern 转成 GQM question 和 evidence requirement |
| Acceptance criteria | AI 行为不完全确定, 单个 happy path 验收失效 | 用 eval contract、dataset、rubric、threshold 和 critical failure 定义验收 |
| Requirements traceability | prompt、model、RAG、tool、policy、knowledge base 都会变化 | 建立 requirement -> eval case -> component version -> gate decision 的 lineage |
| Solution evaluation | 传统 KPI 往往滞后, AI 质量和风险需要先行指标 | 同时管理 offline eval、online monitoring、business KPI 和 risk trigger |
| Change management | 模型升级和知识库刷新可能改变行为 | 每次 AI component change 都进入 regression eval 和 release gate |
| Non-functional requirement | “性能、安全、可用性”不足以覆盖 AI 风险 | 增加 groundedness、answerability、calibration、human control、tool authority 和 auditability |
CBAP 后的 AI 需求工程差异化能力:
| 高级能力 | 具体表现 | 可展示资产 |
|---|---|---|
| Measurement-first discovery | 从 outcome 和 decision question 开始, 不是从模型能力开始 | AI Opportunity-to-GQM Canvas |
| Eval contract design | 把需求写成可重复执行的测试、评分、阈值和门禁 | Eval Contract Pack |
| Risk-tiered requirement | 低风险问答、高风险建议、工具动作和客户影响分层 | AI Requirement Taxonomy |
| Human-AI control design | 定义人何时看见、修改、拒绝、升级、覆盖和负责 | HAI Control Matrix |
| Evidence-driven release | 每次上线有数据集、评估、缺陷、例外和审批证据 | Release Gate Memo |
| Continuous requirement management | 从线上 trace、QA、投诉和 incident 回流需求和 eval | Monitoring Gate Spec |
高级表达:
CBAP 让我能定义业务问题和 stakeholder value;AI 时代的升级是把这些 value 转成可度量、可评估、可门禁、可监控、可审计的行为契约, 并把随机模型的变化纳入需求生命周期。
3. 从 AI Idea 到 Measurable Outcome
3.1 不合格的 AI idea
常见输入:
- 做一个 AML 智能助手。
- 客服机器人要更懂客户。
- 信贷审批用 AI 提升效率。
- 给理财顾问一个投顾 copilot。
- 用大模型总结客户画像。
这些不是需求, 只是 solution hint。高级需求工程第一步是把它们改写成业务和风险 outcome。
3.2 Outcome grammar
用下面语法约束 AI outcome:
For [workflow and role],
improve / reduce / control [business or risk metric],
from current baseline [baseline value or baseline measurement method],
to target [target value or target movement],
without violating [risk, policy, customer impact, fairness, privacy, audit constraints],
within [latency, cost, coverage, operating model boundaries].
高质量例子:
| 场景 | 不成熟表达 | Outcome 表达 |
|---|---|---|
| AML | AI 帮分析员写 case | 在 AML alert investigation 中, 将证据收集和 case narrative 起草时间降低 25%, 同时保持 critical red flag omission 为 0, 所有关键结论必须有 source evidence。 |
| 客服 | AI 回答更准确 | 在信用卡费用和争议咨询中, 提升可引用政策回答的 first-contact resolution, 同时 unauthorized fee waiver commitment 为 0, 高风险投诉必须升级人工。 |
| 信贷 | AI 帮审批贷款 | 在小微信贷 memo 起草中, 降低资料缺失和政策引用错误, 不让 LLM 做最终 approve / decline 决策, fair lending sensitive attribute 不进入推理链。 |
| 财富/投顾 | AI 给客户投资建议 | 为持牌顾问提供 suitability checklist、产品资料摘要和风险揭示草稿, 不让 AI 直接向客户输出个性化买卖建议或收益承诺。 |
3.3 AI fit 与 no-AI boundary
每个 idea 都要同时写 AI fit 和 no-AI boundary:
| AI fit | 适合 AI 的原因 | no-AI boundary |
|---|---|---|
| Read | 多来源政策、历史 case、文档检索成本高 | 权限过滤、source-of-truth、版本生效日期必须由系统控制 |
| Summarize | 长文档、通话记录、交易历史需要压缩成可读摘要 | 摘要不能替代正式记录, 不能省略关键风险或不确定性 |
| Recommend | 基于规则、证据和经验提出下一步 | 高影响建议必须给出证据、限制条件和人工确认 |
| Draft | 草拟回复、case note、memo、narrative | 草稿发送或归档前必须有人审或规则校验 |
| Decide | 只适合低影响、可逆、规则清楚的内部决策 | 金融高影响决策不应交给 LLM 单独完成 |
| Act | 工具动作可提升效率 | 工具权限必须最小化, 高影响动作必须审批和可回滚 |
4. AI Requirement Taxonomy
AI 需求要分层, 不能把所有东西塞进 user story。下面 taxonomy 用于发现遗漏、组织评审和追踪到 eval。
| Requirement type | 核心问题 | 高质量要求 | Eval / evidence |
|---|---|---|---|
| Business outcome requirement | 业务结果改善什么 | 定义 baseline、target、影响范围、归因限制 | KPI baseline、pilot measurement plan |
| Workflow insertion requirement | AI 插入哪个流程节点 | 明确 read / summarize / recommend / draft / decide / act | BPMN、user journey、control point |
| User and role requirement | 谁使用、谁受影响、谁负责 | 区分客户、员工、主管、专家、模型风险、合规、审计 | RACI、entitlement matrix |
| Decision boundary requirement | AI 能做什么决定 | 列出 allowed / blocked / human approval actions | Policy decision table、tool permission log |
| Data and knowledge requirement | AI 用哪些事实和知识 | source-of-truth、权限、生效日期、保留期、数据最小化 | Data source inventory、retrieval trace |
| Grounding requirement | 输出如何绑定证据 | 关键事实必须引用来源, 缺证据时说明不能确认 | Citation eval、unsupported claim rate |
| Behavior requirement | AI 应如何回答、摘要、建议或草拟 | 结构、语气、字段、推理边界、缺失信息处理 | Rubric、schema check、human review |
| Safety and compliance requirement | 哪些输出会造成风险 | 禁止承诺、泄露、误导、越权、歧视、绕过政策 | Critical failure taxonomy、red-team cases |
| Human oversight requirement | 人何时介入 | risk tier、review trigger、override、escalation、rollback | HITL log、override analysis |
| HAI requirement | 用户如何理解和控制 AI | 能力边界、来源、不确定性、纠错、退出、变更通知 | HAI checklist、usability risk review |
| Evaluation requirement | 如何证明能上线 | dataset、evaluator、threshold、slice、critical blocker | Eval contract、experiment report |
| Release gate requirement | 谁根据什么放行 | go / limited go / no-go / rollback 规则明确 | Release gate memo、approval record |
| Monitoring requirement | 上线后看什么 | quality、risk、drift、cost、latency、feedback、complaint | Monitoring dashboard、alert rule |
| Incident requirement | 出错后怎么处理 | severity、triage、stop switch、customer remediation、root cause | Incident log、postmortem、eval update |
| Audit and lineage requirement | 如何证明过程可信 | requirement、dataset、model、prompt、RAG、tool、decision 全链路 | Evidence binder、version registry |
| Lifecycle requirement | 变更如何管理 | prompt/model/knowledge/tool 变更触发回归 eval | Change record、regression report |
4.1 Requirement maturity ladder
| Level | 写法 | 问题 | 升级方向 |
|---|---|---|---|
| L0 Idea | “做一个客服 AI” | 无法验收 | 明确流程、用户、价值和风险 |
| L1 Behavior | “能回答信用卡费用问题” | 只描述能力 | 加入来源、边界、禁止行为和升级规则 |
| L2 Metric | “政策回答准确率达到 95%” | 指标不清 | 定义样本、评分、切片、阈值和失败严重度 |
| L3 Eval Contract | “在费用政策 golden set 上, groundedness >= 4/5, critical policy violation = 0” | 可离线门禁 | 加入 release decision 和 owner |
| L4 Monitored Contract | “上线后按渠道和政策版本监控 citation failure、投诉、人工覆盖和 drift” | 可持续管理 | 纳入 incident、回滚、知识更新和季度复审 |
5. GQM for AI Requirements
GQM 的价值是把“我们要什么”拆成“我们要回答哪些问题”以及“用哪些指标回答”。在 AI 项目里, 它避免三个常见错误:
- 直接用模型 benchmark 当业务需求。
- 只写平均 accuracy, 忽略高风险切片和严重失败。
- 把 KPI 改善误认为模型质量, 忽略流程、用户采用和控制成本。
5.1 GQM grammar for AI
Goal:
Analyze [AI use case / workflow / component]
for the purpose of [improving / controlling / comparing / deciding / monitoring]
with respect to [business outcome / quality / risk / cost / user trust / compliance]
from the viewpoint of [business owner / user / risk / compliance / audit / platform owner]
in the context of [channel / product / customer segment / risk tier / production environment].
Question:
What must be true, observable or explainable for the stakeholder to trust the goal?
Metric:
What signal, dataset, rubric, threshold and interpretation rule answers the question?
5.2 AI GQM object types
| Object | 例子 | 典型问题 |
|---|---|---|
| Workflow | AML investigation、客服问答、信贷 memo、投顾准备 | AI 是否改善流程瓶颈且不引入不可接受风险 |
| AI output | 摘要、建议、草稿、解释、工具参数 | 输出是否 grounded、complete、compliant、actionable |
| Retrieval layer | policy search、case evidence、product facts | 是否找到了正确、有效、授权可见的证据 |
| Tool action | 创建工单、冻结卡、发送通知、更新 CRM | 是否在权限、审批、限额和回滚边界内 |
| Human-AI interaction | 转人工、纠错、确认、拒绝、反馈 | 用户是否理解边界并能有效控制 |
| Operating model | QA、知识更新、incident、release | 组织是否能持续监控和改进 |
5.3 Metrics interpretation rules
AI 指标必须带解释规则:
| Metric type | 示例 | 解释规则 |
|---|---|---|
| Business metric | AML touch time、客服 FCR、memo rework rate | 只能在 pilot 设计和流程控制清楚时作为 outcome, 不能单独证明模型安全 |
| Quality metric | groundedness、completeness、policy compliance | 按 risk tier 和 scenario slice 解读, 不能只看平均分 |
| Risk metric | critical violation、PII leakage、unauthorized action | 高风险场景常用 hard stop, 目标为 0 |
| Human control metric | override rate、under-escalation、review defect | 过高和过低都要分析, 不是越低越好 |
| Operational metric | latency、cost、timeout、fallback | 与用户任务时限和质量一起看, 不能单独优化 |
| Trust metric | correction success、handoff quality、complaint rate | 反映信任校准, 不是只看满意度 |
6. GQM 到 Eval Contract 的映射
GQM 让需求可测, Eval Contract 让需求可执行、可门禁、可监控。
GQM Goal
-> eval decision purpose
GQM Questions
-> evaluation questions and rubric dimensions
GQM Metrics
-> metric definition, data source, threshold, slice, severity
Interpretation model
-> release gate and monitoring gate rule
Evidence collection
-> dataset, evaluator, run report, approval and audit trail
6.1 Mapping table
| GQM element | Eval Contract field | 设计要点 |
|---|---|---|
| Object | Use case / workflow / component | 明确评估对象是 AI 输出、RAG、工具动作、流程还是组合系统 |
| Purpose | Decision type | 区分 experiment comparison、pilot approval、production release、scale review、rollback |
| Quality focus | Eval dimensions | groundedness、completeness、compliance、safety、usability、cost、latency |
| Viewpoint | Reviewer / owner | 业务、运营、合规、模型风险、CX、审计各自问题不同 |
| Environment | Slices and constraints | 渠道、语言、客户类型、产品、政策版本、风险等级 |
| Questions | Eval questions | 每个问题都能被数据、rubric 或人工评审回答 |
| Metrics | Metric definitions | 分母、样本、评分、阈值、置信区间、严重度 |
| Interpretation | Gate rule | 明确 pass、conditional、fail、rollback 和 exception 条件 |
| Data collection | Dataset and monitoring source | golden set、historical set、red-team set、production trace、QA sample |
| Feedback | Continuous improvement trigger | 失败 case 如何进入 dataset、知识库、prompt、policy 或流程改进 |
6.2 Eval Contract 最小字段
| Field | 写法要求 |
|---|---|
| Contract ID | 体现 use case、版本和 gate, 例如 AML-COPILOT-RELEASE-GATE-V1 |
| Scope | 流程、角色、渠道、AI 介入点、客户影响 |
| Risk tier | 低、中、高、关键, 并说明原因 |
| Allowed behavior | AI 可以读取、摘要、建议、草拟或调用的动作 |
| Forbidden behavior | AI 不得决定、承诺、泄露、推断或执行的动作 |
| GQM goal | 用业务、风险和 stakeholder viewpoint 写成一句完整目标 |
| Eval questions | 需要回答的 5 到 10 个关键问题 |
| Dataset | 样本来源、切片、覆盖、版本、脱敏和权限 |
| Evaluators | deterministic、human rubric、LLM judge、pairwise、red-team、production sampling |
| Metrics | 定义、分母、阈值、hard stop、slice threshold |
| Severity | critical / high / medium / low 的失败定义 |
| Release gate | go、limited go、no-go、rollback 的规则 |
| Monitoring gate | 线上信号、触发阈值、owner、SLA、升级路径 |
| Evidence | eval run、failed cases、approval、exception、issue closure |
6.3 Contract as product boundary
Eval Contract 不只是测试文档, 它同时定义产品边界:
| Boundary | Contract 表达 |
|---|---|
| Functional boundary | AI 做 read、summarize、recommend、draft, 不做 final decision |
| Data boundary | 只用授权来源, 引用 source ID 和 effective date |
| User boundary | 客户可见、员工可见、主管可见的内容不同 |
| Risk boundary | 高风险输出进入 human review, critical failure 阻断 release |
| Change boundary | prompt、model、retriever、tool、policy 更新触发 regression |
| Accountability boundary | 每个 gate 有 decision owner 和 risk acceptance owner |
7. Eval Contract 示例
下面是成品型示例, 可作为作品集写法。
contract_id: AML-COPILOT-CASE-NARRATIVE-RELEASE-V1
use_case: AML alert investigation copilot for evidence summary and narrative drafting
risk_tier: High, because output influences compliance investigation quality and potential regulatory filing workflow
workflow_insertion_point: Summarize and draft, before analyst review and before SAR decision
allowed_behavior:
- Summarize transaction patterns from approved case evidence
- Extract red flags from policy-approved typology checklist
- Draft case narrative with cited evidence
- Identify missing information and recommend analyst follow-up
forbidden_behavior:
- Make final SAR filing decision
- Invent customer intent or unsupported rationale
- Suppress red flags because they are inconvenient
- Use inaccessible customer data or unrelated sensitive attributes
gqm_goal: Evaluate the AML narrative copilot for the purpose of improving analyst investigation efficiency and narrative consistency, with respect to evidence grounding, red-flag coverage and compliance risk, from the viewpoint of AML operations, compliance and model risk, in the context of high-risk retail banking alerts.
eval_questions:
- Does every material claim cite approved evidence?
- Are mandatory red flags covered when present in source data?
- Does the output clearly state missing evidence?
- Does the output avoid final filing decisions?
- Does the output preserve analyst control and review accountability?
metrics:
grounding_score: Human rubric 1-5, release threshold >= 4.5 average and no high-risk unsupported claim
red_flag_coverage: Mandatory red flags covered / mandatory red flags present, release threshold >= 98%
critical_violation_count: SAR decision, invented evidence, unauthorized data use, release threshold = 0
narrative_rework_rate: Analyst major edit rate in pilot, monitored weekly with target downward trend after training period
release_gate:
go: All critical violations = 0, grounding and coverage thresholds met across high-risk slices, model risk and AML owner approve
limited_go: Non-critical style or formatting issues exist, pilot limited to analyst-assist mode with 100% review
no_go: Any critical violation, missing high-risk red flag, or evidence access defect
monitoring_gate:
daily_sample_review: 5% of generated narratives, stratified by typology and risk level
alert_trigger: Any critical violation, citation failure cluster, or analyst override spike above control limit
response: Freeze prompt/model rollout, open risk issue, add failed traces to regression set, rerun gate before re-release
evidence:
- Dataset card
- Rubric calibration report
- Eval run report
- Failed case log
- Release approval memo
- Production monitoring dashboard
8. Release Gate 与 Monitoring Gate
8.1 Release gate
Release gate 回答:
这个 AI 版本是否可以进入 pilot / production / scale?
必备输入:
| Evidence | 说明 |
|---|---|
| Use case scope | 流程、角色、AI 介入点、禁止用途 |
| Risk tier | 客户影响、监管影响、可逆性、人工控制 |
| Eval contract | questions、metrics、dataset、evaluator、threshold |
| Dataset coverage | common、edge、missing-data、policy conflict、adversarial、高风险历史案例 |
| Experiment report | baseline vs candidate, slice analysis, regression |
| Critical failure log | 失败类型、根因、修复、复测结果 |
| Human oversight design | review、override、escalation、rollback、stop switch |
| Operational readiness | latency、cost、fallback、support、incident owner |
| Evidence approval | business、risk、compliance、model risk、architecture owner |
Release gate decision:
| Decision | 条件 | 后续动作 |
|---|---|---|
| Go | 指标达到阈值, critical failure 为 0, owner 接受剩余风险 | 按 release plan 上线, 启动 monitoring gate |
| Limited go | 核心风险可控, 仍有非关键缺陷或覆盖限制 | 限定用户、渠道、流量、动作和人工复核比例 |
| No-go | 关键阈值未达、证据不足或控制缺失 | 停止上线, 修复后重新跑 gate |
| Rollback | 线上触发关键风险或质量退化 | 回退版本, 开 incident, 更新 regression set |
| Exception | 管理层接受特定剩余风险 | 记录风险接受、补偿控制、到期复审和退出条件 |
8.2 Monitoring gate
Monitoring gate 回答:
上线后的 AI 是否仍然在契约内运行?
监控信号:
| Signal | 金融零售例子 | Gate action |
|---|---|---|
| Quality drift | citation failure 上升、grounding score 下降 | 抽样复核、知识库检查、重跑 eval |
| Risk event | unauthorized commitment、PII leakage、tool overreach | 停止相关能力、incident、客户补救评估 |
| Human override | 员工频繁改写或拒绝 AI 建议 | 根因分析: 模型差、流程错、培训不足或信任失配 |
| Under-escalation | 投诉、欺诈、困难援助未转人工 | 强制路由规则、red-team case 更新 |
| Business anomaly | FCR 上升但投诉也上升 | 重新平衡效率和客户伤害指标 |
| Cost / latency | 超出 workflow 时限或预算 | 优化模型/检索/缓存, 不牺牲 hard stop 风险指标 |
| Policy change | 新费用政策、生效日期、产品条款变更 | 知识版本更新, regression eval, release approval |
| User trust | adoption 低、over-reliance 高、rubber stamp 高 | 调整 HAI、培训、review burden 和控制提示 |
Monitoring gate 输出:
- Weekly quality and risk report。
- Failed trace to eval dataset update。
- Owner action log。
- Release freeze / rollback decision。
- Quarterly AI capability review。
- Evidence binder update。
9. 金融零售案例
9.1 AML Copilot
Use case: AML analyst assistant for alert investigation, evidence summary and case narrative drafting。
Correct boundary:
- AI 可以聚合交易、客户 KYC、历史 case、typology checklist 和政策证据。
- AI 可以草拟 narrative 和 follow-up questions。
- AI 不做最终 SAR filing decision, 不替代 AML analyst judgment。
GQM map:
| Goal | Question | Metric / evidence | Gate rule |
|---|---|---|---|
| 降低调查准备时间 | 是否减少 analyst 搜证和整理耗时 | Median evidence preparation time, pilot baseline comparison | 试点期下降且不增加 critical defect |
| 提高 narrative 证据质量 | 每个关键结论是否有来源 | Unsupported material claim count, citation support score | High-risk unsupported claim = 0 |
| 避免遗漏 red flags | typology checklist 是否覆盖 | Red flag recall by typology slice | 高风险 typology recall >= 98% |
| 保持人工责任 | 是否明确 analyst review 和 missing evidence | Human review completion, missing-evidence statement rate | 未经 review 不得进入归档或 filing 流程 |
Critical failures:
- 编造客户意图或资金来源。
- 遗漏已出现在证据中的关键 red flag。
- 把草稿写成最终 SAR filing decision。
- 引用无权访问或过期政策。
- 因为历史相似 case 而暗示客户有罪。
Monitoring gate:
- 按 typology、风险等级、渠道和 analyst team 分层抽样。
- 监控 analyst major edit rate、citation failure、missing red flag、QA defect、case reopening。
- 任一 critical failure 触发 stop switch、incident review 和 regression set update。
9.2 Customer Service AI
Use case: 客服 RAG assistant for credit card fee, dispute, payment, branch and digital banking questions。
Correct boundary:
- AI 可以回答批准知识库中的政策和流程。
- AI 可以起草客服回复并引用政策来源。
- AI 不承诺未授权 fee waiver、赔付、争议结果、额度提升或投诉结论。
GQM map:
| Goal | Question | Metric / evidence | Gate rule |
|---|---|---|---|
| 提升 first-contact resolution | 是否在政策覆盖范围内解决问题 | FCR by intent, containment with no complaint increase | FCR 改善需同时满足 complaint rate 不上升 |
| 降低错误政策回答 | 回答是否引用当前有效政策 | Policy citation correctness, effective-date match | Critical policy error = 0 |
| 保持高风险升级 | 投诉、欺诈、困难援助是否转人工 | Escalation recall for high-risk intents | Under-escalation critical count = 0 |
| 改善交互控制 | 客户是否能转人工、纠错、知道边界 | Handoff completion, correction success, fallback rate | Handoff failure spike 触发 review |
Critical failures:
- 承诺免除费用但无授权。
- 对欺诈交易要求客户继续普通 FAQ。
- 对投诉或脆弱客户没有升级。
- 使用过期政策回答。
- 泄露其他客户或内部操作信息。
Monitoring gate:
- 按 intent、语言、渠道、政策版本、客户脆弱性信号分层。
- 监控 wrong answer complaint、agent override、handoff abandonment、policy update lag。
- 政策变更后必须触发知识刷新和 regression eval。
9.3 Lending Assistant
Use case: 信贷 officer copilot for application summary, missing document checklist, policy citation and credit memo drafting。
Correct boundary:
- AI 可以整理申请材料、指出缺失文件、引用政策、草拟 memo。
- AI 不做最终 approve / decline, 不生成未经验证的 adverse action reason。
- AI 不使用禁止或敏感属性推断信用价值。
GQM map:
| Goal | Question | Metric / evidence | Gate rule |
|---|---|---|---|
| 降低 memo rework | memo 是否结构完整且政策引用准确 | Major rework rate, policy citation accuracy | 关键政策引用错误 = 0 |
| 提高材料完整性 | 是否识别缺失和冲突材料 | Missing document recall, conflict detection | 高影响缺失材料 recall >= 98% |
| 控制 fair lending 风险 | 是否使用或暗示禁止因素 | Sensitive attribute leakage, proxy reasoning defects | 禁止因素使用 = 0 |
| 保持决策边界 | 是否清楚标识 AI 只是 assist | Final decision by officer, review attestation | 无人工 attest 不得进入 final decision |
Critical failures:
- AI 输出 approve / decline 结论。
- 编造收入、资产、债务或经营情况。
- 使用受保护类别或可疑 proxy 作为理由。
- 错误引用政策导致客户不利结果。
- 未说明材料缺失却让 officer 以为资料完整。
Monitoring gate:
- 按产品、地区、渠道、申请类型、officer team 和 protected-class proxy risk 分层复核。
- 监控 override reason、memo defect、appeal / complaint、policy exception、QA finding。
- 模型或政策变化必须经过 fair lending 和 model risk 复评。
9.4 Wealth / Advisor Copilot
Use case: 财富顾问 assistant for client meeting preparation, product document summary, suitability checklist and compliant communication draft。
Correct boundary:
- AI 可以摘要客户已授权信息、投资目标、风险承受能力和产品资料。
- AI 可以提醒 suitability / appropriateness / disclosure checklist。
- AI 不直接向客户做个性化买卖建议, 不承诺收益, 不绕过持牌顾问责任。
GQM map:
| Goal | Question | Metric / evidence | Gate rule |
|---|---|---|---|
| 提高顾问准备质量 | meeting brief 是否覆盖客户目标、风险、限制和材料缺口 | Completeness rubric, missing profile field detection | 高风险缺口未标记 = 0 |
| 控制不当建议风险 | 是否避免无牌建议、收益承诺和不适配推荐 | Prohibited advice count, suitability checklist pass | Prohibited advice = 0 |
| 提升披露质量 | 是否包含关键风险揭示和产品来源 | Disclosure coverage, source citation | 关键风险揭示缺失 = 0 |
| 维护客户信任 | 是否表达不确定性、限制和人工责任 | HAI review, advisor edit log, complaint signal | 投诉或误导信号触发 review |
Critical failures:
- 对非持牌或客户可见渠道输出个性化交易建议。
- 承诺收益、淡化损失或隐藏费用。
- 错误总结产品风险或流动性限制。
- 忽略客户风险承受能力、投资期限或限制。
- 用未经授权的客户数据做推荐。
Monitoring gate:
- 按产品风险等级、客户分群、顾问团队、渠道和材料版本分层。
- 监控 advisor override、compliance review defect、customer complaint、disclosure omission。
- 产品资料或监管要求更新后触发 knowledge and prompt regression。
10. 模板
10.1 AI Opportunity-to-GQM Canvas
| Field | 填写口径 | 高质量例子 |
|---|---|---|
| Use case | 业务流程和 AI 介入点 | AML alert investigation copilot for evidence summary and narrative drafting |
| Business outcome | 可衡量的业务改善 | Reduce evidence preparation time while keeping critical red flag omission at zero |
| Risk outcome | 必须控制的客户、合规、运营或模型风险 | No unsupported material claim, no final SAR decision by AI |
| Stakeholder viewpoint | 业务、用户、风险、合规、审计各自关心什么 | AML Ops cares speed; Compliance cares evidence and filing quality; Model Risk cares controls |
| Workflow boundary | AI 做什么, 不做什么 | Summarize and draft before analyst review, not decide SAR filing |
| Baseline | 当前状态如何测量 | Historical case handling time, QA defect rate, narrative rework rate |
| GQM goal | 完整 goal statement | Evaluate AML copilot for improving investigation efficiency and controlling compliance risk |
| Core questions | 必须被回答的问题 | Are all material claims supported? Are mandatory red flags covered? |
| Metrics | 能回答问题的指标 | Grounding score, red flag recall, critical violation count |
| Gate decision | 指标如何转成放行 | Critical violations = 0; high-risk slices pass thresholds |
10.2 Requirement Taxonomy Template
| Requirement type | Requirement statement example | Eval trace |
|---|---|---|
| Business outcome | Pilot should reduce median AML evidence preparation time by 25% versus baseline without increasing QA critical defects | Pilot measurement plan, QA report |
| Workflow insertion | AI only operates in evidence summary and narrative draft stages before analyst review | BPMN, UI state, audit log |
| Decision boundary | AI must not make or imply final SAR filing decision | Deterministic forbidden pattern check, human review |
| Grounding | Every material claim must cite approved evidence item ID | Citation support eval |
| Missing information | AI must explicitly identify unavailable or conflicting evidence | Missing-evidence rubric |
| Human oversight | Analyst must review and attest before narrative enters system of record | Attestation log |
| Monitoring | Production samples must be reviewed by typology and risk tier weekly | Monitoring dashboard |
10.3 GQM Sheet
| GQM element | Example |
|---|---|
| Goal object | Customer service RAG assistant for credit card fee and dispute questions |
| Purpose | Improve correct self-service resolution while controlling unauthorized commitment risk |
| Quality focus | Policy correctness, escalation, customer control, complaint risk |
| Viewpoint | Contact center operations, CX, compliance, risk, customer |
| Context | Mobile app and web chat, retail credit card customers, English and Chinese support |
| Question 1 | Does the answer cite current approved policy? |
| Metric 1 | Policy citation correctness by intent and policy version |
| Question 2 | Does the assistant escalate complaints, fraud and vulnerable-customer signals? |
| Metric 2 | High-risk intent escalation recall and under-escalation critical count |
| Question 3 | Does the assistant avoid unauthorized promises? |
| Metric 3 | Unauthorized commitment count, release threshold = 0 |
| Interpretation | Go only when critical failures = 0 and policy correctness thresholds pass by slice |
10.4 Eval Contract Template
| Section | Content standard |
|---|---|
| Contract identity | Contract ID, use case, version, owner, gate type |
| Scope | Workflow, role, channel, risk tier, customer impact |
| Behavior boundary | Allowed behavior, forbidden behavior, human approval points |
| GQM goal | Full goal statement with purpose, quality focus, viewpoint and context |
| Eval questions | Questions tied to stakeholder decisions, not generic model quality |
| Dataset | Source, sampling logic, slices, labeling, version, privacy handling |
| Evaluators | Deterministic checks, human rubric, LLM judge, red-team, pairwise comparison |
| Metrics | Definition, denominator, threshold, hard stop, confidence and slice rule |
| Severity model | Critical, high, medium and low failure definitions |
| Release gate | Go, limited go, no-go, rollback and exception rules |
| Monitoring gate | Production signals, alert thresholds, owner, SLA and response |
| Evidence | Run reports, failed cases, approvals, exceptions, incident updates |
10.5 Release Gate Memo Template
| Section | High-quality content |
|---|---|
| Decision requested | Approve limited production release for Customer Service RAG in credit card fee intents |
| Scope approved | Channels, user groups, intents, languages, traffic percentage, excluded scenarios |
| Eval summary | Dataset size, slice coverage, evaluator mix, benchmark version, result summary |
| Critical failures | Count, examples, root cause and closure evidence |
| Residual risks | Known limitations, controls, owner and review date |
| Human oversight | Required review, escalation, override and stop switch |
| Monitoring plan | Daily and weekly metrics, alert thresholds, sample review |
| Decision | Go, limited go, no-go, rollback or exception |
| Approvals | Business owner, risk, compliance, model risk, architecture, operations |
10.6 Monitoring Gate Spec Template
| Signal | Definition | Slice | Trigger | Owner | Response |
|---|---|---|---|---|---|
| Citation failure | Answer cites missing, outdated or non-supporting source | Intent, policy version, channel | Any critical cluster or weekly rate above control limit | Knowledge owner | Freeze affected content, correct source, rerun eval |
| Unauthorized commitment | AI promises fee waiver, claim result, credit decision or investment outcome without authority | Product, channel, user type | Any occurrence | Product risk owner | Stop affected flow, incident review, customer impact assessment |
| Under-escalation | High-risk intent not routed to human or specialist | Intent, language, customer segment | Any critical occurrence | Operations owner | Routing update, failed trace added to regression |
| Override spike | Human users reject or heavily edit AI output | Team, workflow, prompt version | Sustained spike over baseline | AI PM | Root cause review, training or prompt/RAG fix |
| Cost / latency breach | AI exceeds workflow budget or response time | Model, channel, region | Breach of SLO | Platform owner | Optimize or degrade gracefully |
10.7 Evidence Binder Index
| Evidence artifact | Purpose |
|---|---|
| AI Opportunity-to-GQM Canvas | Proves use case was defined from outcome and stakeholder questions |
| Requirement Taxonomy Matrix | Proves requirements cover workflow, data, behavior, safety, HAI, gate and monitoring |
| Eval Contract | Proves acceptance is measurable and risk-tiered |
| Dataset Card | Proves eval sample source, coverage, labeling and limitations |
| Evaluator Calibration Report | Proves rubric and judge are usable for decision support |
| Experiment Report | Proves candidate version was compared to baseline and sliced |
| Release Gate Memo | Proves go / limited go / no-go decision and risk ownership |
| Monitoring Dashboard Spec | Proves production behavior remains under control |
| Incident and Improvement Log | Proves failures become regression cases and control updates |
11. 评审清单
11.1 Discovery and GQM checklist
- 是否先定义 business outcome 和 risk outcome, 而不是先选模型。
- 是否写出 no-AI alternative 和 AI fit 判断。
- 是否明确 workflow insertion point: read / summarize / recommend / draft / decide / act。
- 是否识别客户影响、监管触点、可逆性和人工控制要求。
- 是否每个 stakeholder concern 都转成至少一个 GQM question。
- 是否每个 GQM question 都有 metric、evidence 或 review method。
- 是否定义 baseline measurement method。
- 是否区分 business KPI、AI quality metric、risk metric 和 operational metric。
11.2 Eval Contract checklist
- Contract 是否明确 scope、risk tier、allowed behavior 和 forbidden behavior。
- Dataset 是否覆盖 common、edge、missing-data、policy conflict、adversarial 和 historical failure cases。
- Metrics 是否有分母、阈值、slice、severity 和解释规则。
- Critical failure 是否是 hard stop, 而不是平均分中的一项。
- Human review rubric 是否经过校准。
- LLM-as-judge 是否经过人工抽样校准, 且不作为高风险唯一证据。
- Prompt、model、RAG、tool、policy 版本是否进入 lineage。
- Failed cases 是否有 owner、root cause、fix 和 regression evidence。
11.3 Release gate checklist
- Gate decision 是否有 go / limited go / no-go / rollback / exception 的明确规则。
- 是否列出不在本次 release 范围内的场景。
- 是否完成 architecture、security、privacy、compliance、model risk 和 operations review。
- 是否定义 stop switch、fallback、rollback 和 incident owner。
- 是否说明 residual risk 和补偿控制。
- 是否定义上线后的抽样比例、监控频率和复审节奏。
- 是否有业务 owner 对价值和运营结果负责。
- 是否有 risk owner 对剩余风险接受负责。
11.4 Monitoring gate checklist
- 是否监控质量、风险、成本、延迟、采用、纠错、投诉和 incident。
- 是否按渠道、语言、产品、客户类型、风险等级和版本切片。
- 是否把 production failed trace 回流到 eval dataset。
- 是否区分模型问题、知识问题、流程问题、用户培训问题和控制问题。
- 是否有 alert threshold、owner、SLA 和 response playbook。
- 是否定义模型、prompt、knowledge、policy 或 tool change 的 regression trigger。
- 是否有季度 capability review: continue / refresh / restrict / retire。
12. 反模式
| 反模式 | 看起来合理 | 实际问题 | 正确做法 |
|---|---|---|---|
| AI idea 直接进 backlog | 业务方觉得需求清楚 | 没有 measurable outcome 和风险边界 | 先做 Opportunity-to-GQM Canvas |
| “准确率 95%” | 有数字 | 没有定义样本、评分、分母、严重度和切片 | 写成 eval metric + threshold + interpretation |
| 只看平均分 | 报告好看 | 高风险失败被平均值掩盖 | 按 risk tier 和 scenario slice 设置 hard stop |
| Vendor demo 代替需求 | 演示流畅 | 无法证明适合本机构流程和风险 | 用本机构 case、policy 和 workflow 做 eval |
| KPI 等于模型质量 | 业务关心结果 | KPI 受流程、培训、流量和季节性影响 | 同时看 AI quality、risk、operational 和 business metrics |
| 人工复核写在文档里 | 似乎有控制 | 没有 review criteria、attestation 和抽样证据 | 设计 HITL workflow、rubric 和日志 |
| Golden set 只放简单样本 | 通过率高 | 真实边界和失败模式未覆盖 | 加入 historical failure、edge、adversarial 和 high-risk cases |
| Critical failure 可被平均分抵消 | 指标统一 | 严重风险被统计吞掉 | critical count 独立作为 release blocker |
| 反馈只是 thumbs up/down | UI 简洁 | 不能定位根因和改进 owner | 反馈分类到 source、policy、format、risk、handoff、tone |
| 上线后不再看 eval | 节省成本 | 模型、知识、政策和用户行为会漂移 | 建立 monitoring gate 和 continuous evaluation |
| AI 直接做高影响决定 | 效率最大 | 客户权益、合规、fairness 和责任风险过高 | AI assist + human decision + audit trail |
| HAI 当 UI polish | 界面更友好 | 用户可能过度信任或无法纠错 | 把 uncertainty、control、correction 和 handoff 写成 requirement |
13. 30 天训练计划
目标: 30 天内完成一个金融零售 AI use case 的 GQM-to-Eval Contract 作品集包。建议选择 AML、客服、信贷或财富/投顾中的一个主案例, 另外三个作为简版对照。
| Day | 训练重点 | 产出 |
|---|---|---|
| 1 | 选择主案例, 写 AI idea、业务流程和 no-AI alternative | 1-page use case brief |
| 2 | 画 AS-IS / TO-BE workflow, 标出 AI insertion point | Workflow map |
| 3 | 定义 business outcome、risk outcome、baseline 方法 | Outcome statement |
| 4 | 识别 stakeholder: business、ops、risk、compliance、audit、user | Stakeholder concern map |
| 5 | 写 GQM goal statement, 区分目的、质量焦点、视角和上下文 | GQM goal card |
| 6 | 为每个 stakeholder 写 2 个 decision questions | Question bank |
| 7 | 把 questions 合并成 8 到 12 个核心 eval questions | Core eval questions |
| 8 | 设计 AI requirement taxonomy, 覆盖 workflow、data、behavior、safety、HAI、monitoring | Requirement matrix |
| 9 | 写 allowed behavior 和 forbidden behavior | Behavior boundary table |
| 10 | 定义 critical / high / medium / low failure taxonomy | Failure severity model |
| 11 | 设计 dataset slices: common、edge、missing-data、policy conflict、adversarial、historical failure | Dataset coverage matrix |
| 12 | 设计 human rubric, 每个维度写 1/3/5 分标准 | Human review rubric |
| 13 | 设计 deterministic checks: schema、citation、forbidden phrase、tool permission | Deterministic eval spec |
| 14 | 设计 LLM judge 使用边界和人工校准方案 | Judge calibration plan |
| 15 | 写第一版 Eval Contract | Eval Contract v1 |
| 16 | 设计 release gate decision rules | Release gate rule table |
| 17 | 写 Release Gate Memo 成品版 | Release Gate Memo |
| 18 | 设计 monitoring signals 和 alert triggers | Monitoring Gate Spec |
| 19 | 设计 incident response: triage、stop switch、rollback、customer impact | Incident response flow |
| 20 | 把 failed trace 回流机制接到 dataset 和 regression | Continuous eval loop |
| 21 | 完成 AML 案例简版 GQM map | AML case sheet |
| 22 | 完成客服案例简版 GQM map | Customer service case sheet |
| 23 | 完成信贷案例简版 GQM map | Lending case sheet |
| 24 | 完成财富/投顾案例简版 GQM map | Wealth case sheet |
| 25 | 写反模式和 mitigation, 对照自己的主案例自评 | Anti-pattern review |
| 26 | 组装 Evidence Binder Index | Evidence binder |
| 27 | 写 5 分钟作品集讲解稿 | Portfolio narrative |
| 28 | 准备 8 个面试问答 | Interview answer pack |
| 29 | 找一个已有 AI playbook 做交叉评审, 补齐 gate、monitoring、HAI 缺口 | Self-review report |
| 30 | 输出最终作品集包, 用一页 executive summary 收尾 | Final portfolio pack |
30 天完成标准:
- 能用 GQM 解释为什么这些指标服务于业务和风险决策。
- 能用 Eval Contract 证明 AI requirement 可测试、可门禁、可监控。
- 能用金融零售案例说明边界: AI assist 与 AI decision 的区别。
- 能把 release gate 和 monitoring gate 讲成管理层可决策的证据。
14. 面试答案
Q1: 你如何把一个 AI idea 转成可执行需求?
30 秒回答
我不会先写“系统要智能回答”。我会先定义 workflow、业务 outcome、风险 outcome 和 no-AI boundary, 再用 GQM 把 stakeholder concern 转成 questions, 用 metrics 和 eval contract 定义可接受行为、不可接受行为、阈值、release gate 和 monitoring gate。
2 分钟回答
我的步骤是: 第一, 明确 AI 插入流程的哪个点, 是 read、summarize、recommend、draft、decide 还是 act。第二, 定义 business outcome 和 risk outcome, 例如降低 AML case preparation time, 但 critical red flag omission 必须为 0。第三, 用 GQM 从业务、运营、合规、模型风险和用户视角写问题, 比如关键结论是否有证据、是否遗漏高风险信号、是否保留人工责任。第四, 把问题映射成 metrics、dataset、rubric、hard stop 和 release gate。第五, 上线后用 monitoring gate 跟踪 drift、override、complaint、citation failure 和 incident, 把失败 trace 回流到 eval dataset。
Q2: 为什么 GQM 适合 AI 需求工程?
30 秒回答
因为 AI 项目最容易从模型能力和平均指标出发。GQM 强迫团队先回答目标是什么、谁关心什么问题、什么指标能支持决策, 这样可以避免把 benchmark、demo 或泛泛 accuracy 当成需求。
2 分钟回答
GQM 的核心是 Goal、Question、Metric。AI 系统的输出有随机性, 而金融零售又有客户权益、合规和审计要求, 所以需求不能只写功能行为。GQM 能把“客服 AI 更准确”改成“在信用卡费用政策场景中, 从 CX 和合规视角看, 回答是否引用当前有效政策、是否避免未经授权承诺、是否正确升级投诉和欺诈意图”。然后每个问题都有 metric 和解释规则, 最后进入 eval contract 和 release gate。这样指标不是装饰, 而是决策证据。
Q3: Eval Contract 和普通验收标准有什么区别?
30 秒回答
普通验收标准通常验证某个功能是否完成。Eval Contract 定义的是 AI 行为契约: 数据集、评估方法、指标、阈值、失败严重度、release gate、monitoring gate、owner 和证据链。
2 分钟回答
AI 验收不能只看一个示例是否回答正确。Eval Contract 会规定适用范围、风险等级、允许和禁止行为、GQM questions、dataset slices、human rubric、deterministic checks、LLM judge 使用边界、critical failure、go / no-go 规则和线上监控触发。比如信贷 copilot 可以草拟 memo 和缺失材料清单, 但不能做 approve / decline。任何受保护属性推理、错误 reason code 或未经验证政策引用都可能是 critical blocker。上线后还要监控 override、appeal、complaint、QA defect 和政策变更回归。
Q4: Release gate 和 Monitoring gate 如何区分?
30 秒回答
Release gate 判断某个版本能不能进入 pilot 或 production;Monitoring gate 判断上线后的 AI 是否仍然在契约内运行。前者基于离线 eval、红队、人工评审和审批证据, 后者基于生产 trace、用户反馈、质量漂移、风险事件和业务异常。
2 分钟回答
Release gate 是上线前的决策点, 输入包括 use case scope、risk tier、dataset coverage、eval report、critical failures、human oversight 和 rollback plan。Monitoring gate 是上线后的控制机制, 看 citation failure、under-escalation、override spike、complaints、cost、latency、policy change 和 incident。两者必须闭环: 线上失败 trace 进入 regression dataset, 修复后重新跑 release gate。这样 AI requirement 不会在上线时结束, 而是持续管理。
Q5: 你如何处理业务方只说“准确率要高”?
30 秒回答
我会把“准确”拆成具体问题: 哪类任务、哪个角色、什么错误代价、什么样本、谁评分、哪些失败不可接受、上线后如何监控。然后把 accuracy 改成多个 eval dimensions 和 hard stop。
2 分钟回答
在金融零售里, “准确率高”没有分母也没有风险含义。我会问: 是政策事实准确、证据引用准确、摘要完整、风险升级准确、工具动作准确, 还是客户沟通准确? 然后按场景切片设计指标。比如客服 AI 的平均回答分数 95% 仍可能因一个 unauthorized fee waiver commitment 不能上线。对高风险 failure 要设置 independent critical blocker, 对普通质量问题才用平均分或分位数。
Q6: 如何向高管解释 AI requirements 的价值?
30 秒回答
AI requirements 的价值是把创新从 demo 风险变成可管理能力。它让管理层知道 AI 改善什么业务结果, 引入什么风险, 用什么证据放行, 上线后看什么信号, 出事时谁负责和如何回滚。
2 分钟回答
我会用四个问题解释: 第一, 这个 AI 能改善哪个 measurable outcome? 第二, 哪些错误是组织不能接受的? 第三, 当前版本是否有足够证据进入 pilot 或 production? 第四, 上线后如何证明它仍然在边界内运行? GQM 和 Eval Contract 把这些问题变成管理层可读的 gate memo, 包括价值、风险、阈值、例外、控制和 owner。这比只展示模型效果更适合受监管金融环境。
Q7: 如何避免 AI 项目被 vendor demo 带偏?
30 秒回答
我会用本机构 workflow、政策、数据权限、失败模式和 release gate 评估 vendor 能力。demo 只能证明可演示, 不能证明适合我们的流程、风险和监管边界。
2 分钟回答
Vendor demo 往往用干净样本和理想流程。我的做法是先写 AI Opportunity-to-GQM Canvas 和 Eval Contract, 再要求 vendor 在受控样本、政策版本、权限边界和高风险 cases 上证明能力。评估不只看回答质量, 还看数据隔离、source citation、audit log、model update control、human oversight、incident response、cost 和 latency。这样采购讨论从“模型厉害不厉害”变成“能否通过我们的 gate”。
Q8: AI assist 和 AI decision 的边界怎么定义?
30 秒回答
边界取决于客户影响、可逆性、监管要求、证据完整性和人工责任。金融高影响场景通常允许 AI read、summarize、recommend、draft, 但 final decision、客户承诺和高影响工具动作需要人工控制。
2 分钟回答
我会先按流程节点分级: read 和 summarize 风险较低, recommend 和 draft 需要证据和审核, decide 和 act 在金融场景通常高风险。比如信贷里 AI 可以起草 memo、列缺失材料、引用政策, 但不能批准或拒绝贷款。AML 里 AI 可以写 narrative draft, 但不能决定是否 filing。财富场景 AI 可以给顾问准备材料和 checklist, 但不能绕过持牌顾问向客户直接建议买卖。这个边界要写进 requirement、UI、权限、audit log 和 eval contract。
15. 作品集交付物
一个有说服力的高级 AI Requirements Engineering 作品集, 不应只是一份 PRD。建议交付一组证据资产:
| Deliverable | 内容 | 展示能力 |
|---|---|---|
| Executive Summary | 一页说明 use case、outcome、risk、gate decision 和 portfolio thesis | 高管沟通 |
| AI Opportunity-to-GQM Canvas | 从 idea 到 outcome、questions、metrics 的完整映射 | Measurement-first discovery |
| Requirement Taxonomy Matrix | 覆盖 workflow、data、behavior、safety、HAI、eval、monitoring | 高级需求覆盖 |
| GQM-to-Eval Contract Map | 每个 goal/question/metric 如何进入 contract | 方法论掌握 |
| Eval Contract Pack | scope、risk tier、dataset、evaluator、threshold、severity、gate | AI 验收设计 |
| Dataset Coverage Matrix | common、edge、policy conflict、adversarial、historical failure slices | Eval 数据思维 |
| Human Rubric and Calibration Note | rubric 维度、评分标准、一致性校准 | 人审治理 |
| Release Gate Memo | go / limited go / no-go 决策、证据、剩余风险和审批 | 上线治理 |
| Monitoring Gate Spec | production signals、alert、owner、SLA、continuous eval | 生产运营 |
| Financial Retail Case Pack | AML、客服、信贷、财富/投顾四个案例对照 | 行业深度 |
| Anti-pattern Review | 识别并修正平均分、demo、无边界、无监控等问题 | 风险判断 |
| Interview Answer Pack | 8 到 12 个高级面试问答 | 求职转化 |
作品集讲解顺序:
1. 我选择了哪个金融零售 AI use case
2. 为什么这是 AI fit, 不是普通流程优化
3. 我如何用 GQM 定义 stakeholder questions
4. 我如何把 questions 转成 metrics 和 eval contract
5. 我如何设计 release gate 和 monitoring gate
6. 我如何处理 critical failures、human oversight 和 audit evidence
7. 我如何把线上失败回流到 continuous evaluation
8. 这个案例如何证明我具备 AI PM / Architect / AI BA 的高级能力
16. 最终记忆卡
| 概念 | 一句话 |
|---|---|
| AI requirement | 可测、可门禁、可监控、可问责的 AI 行为和控制契约 |
| GQM | 从目标出发, 通过问题定义指标, 避免模型指标先行 |
| Eval Contract | 把需求变成 dataset、evaluator、metric、threshold、severity、gate 和 evidence |
| Release Gate | 上线前基于证据做 go / limited go / no-go / rollback / exception 决策 |
| Monitoring Gate | 上线后验证 AI 是否仍在契约内运行并触发改进 |
| Critical failure | 不能被平均分抵消的高风险失败 |
| CBAP upgrade | 从需求管理升级到 AI 行为测量、风险门禁、生产监控和证据治理 |
最重要的一句话:
高级 AI 需求工程的竞争力, 是能把“AI 看起来能做”变成“组织知道为什么做、怎么测、何时放行、何时停用、谁负责、如何证明”。