返回 Papers
AI 扩展计划 / Playbooks

AI Change Impact / Release Governance Playbook

本文不是通用 change management,也不是“上线前开个 CAB 会”。它训练的是高级 AI 变更影响分析与发布治理能力:把每一次 AI 变更视为一个跨模型、知识、工具、规则、流程、数据、供应商和监控体系的系统性 release decision。CBAP+ 需要能把业务意图、流程影响、控制要求和验收标准写清楚;AI PM 需要能判断用户价值、风险收益、实验边界和放量策略;架构师需要能

900AI_CHANGE_IMPACT_RELEASE_GOVERNANCE_PLAYBOOK.md

AI Change Impact / Release Governance Playbook

适用对象:CBAP+ Business Analyst、AI Product Manager、AI Product Architect、Release Governance Lead、Solutions Architect、Model Risk / Compliance / Audit 合作方、金融零售业务负责人。 核心问题:AI 系统上线后,团队如何治理模型、prompt、RAG index、tool contract、policy rules、eval datasets、vendor、human workflow、monitoring threshold 等多维变化,避免“看似小改动”在真实金融零售流程中造成客户伤害、合规缺口、操作风险、审计证据断裂和不可回滚的生产事故。

本文不是通用 change management,也不是“上线前开个 CAB 会”。它训练的是高级 AI 变更影响分析与发布治理能力:把每一次 AI 变更视为一个跨模型、知识、工具、规则、流程、数据、供应商和监控体系的系统性 release decision。CBAP+ 需要能把业务意图、流程影响、控制要求和验收标准写清楚;AI PM 需要能判断用户价值、风险收益、实验边界和放量策略;架构师需要能建立 impact graph、regression gate、runtime telemetry、rollback path 和 evidence pack;Release Governance Lead 需要让每一次发布都可追溯、可解释、可审计、可停止。

重要说明:本文是学习、架构设计和作品集材料,不构成法律、监管、模型验证或正式合规意见。金融零售正式项目必须由 business owner、technology、security、privacy、legal、compliance、model risk、operational risk、third-party risk、internal audit 共同确认适用要求、审批权、证据保留和发布边界。


1. Source Anchors

以下来源作为术语、治理心智和证据结构的官方锚点。正式项目必须按访问日期复核最新版本、适用范围、监管解释、机构政策和合同要求。

AnchorOfficial link本手册使用方式
NIST AI Risk Management Frameworkhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 组织 AI change impact:先识别业务上下文和风险,再衡量、处置、监控和沉淀治理证据。NIST 页面说明 AI RMF 面向 AI 产品、服务和系统的风险管理,并持续演进。
ISO/IEC 42001https://www.iso.org/standard/81230.html把 AI change governance 放入 AIMS(AI Management System):范围、职责、风险机会、过程控制、持续改进、管理评审和证据保留,而不是项目组临时自发管理。
Federal Reserve SR 11-7https://www.federalreserve.gov/supervisionreg/srletters/sr1107.htm借鉴金融机构模型风险管理语言:model inventory、intended use、validation、effective challenge、ongoing monitoring、governance、policy、control。本文将其扩展到 LLM / RAG / Agent / workflow 变更,但不声称 SR 11-7 已完整覆盖所有 GenAI 风险。
NIST GenAI Profilehttps://www.nist.gov/itl/ai-risk-management-framework/generative-artificial-intelligence-profile用于识别生成式 AI 的特有风险:hallucination、prompt injection、data leakage、harmful content、overreliance、synthetic content、third-party dependency、evaluation difficulty。实践中也应关注 NIST AI 600-1 GenAI Profile 的正式发布页和机构内部 AI policy。
OpenTelemetry docshttps://opentelemetry.io/docs/用作生产监控与证据采集的工程锚点:traces、metrics、logs、context propagation、sampling、redaction、service instrumentation。AI release governance 需要把模型调用、RAG retrieval、tool execution、human override 和 policy decision 串成可观测链路。

2. Core Mental Model:AI Change Impact 是多维系统影响

传统软件变更常被简化成“代码改了什么”。传统 MLOps 又容易把 AI 变更简化成“模型版本改了什么”。这两种心智都不够。

在金融零售 AI 系统里,生产行为由多个 artifact 共同决定:

AI runtime behavior =
  model behavior
  + prompt and system instructions
  + RAG corpus, chunking, embedding, index, retriever, reranker
  + tool/API contract and permission scope
  + policy rules, DMN, guardrails, decision thresholds
  + workflow and human handoff
  + UI copy and disclosure
  + vendor configuration and regional routing
  + eval dataset, rubric, judge and acceptance threshold
  + telemetry, alerting, sampling and retention

因此:

AI change impact is multidimensional.
Model change is only one category.

一个 prompt 小改动可能改变信用拒绝解释的公平性;一次 RAG index rebuild 可能让 AML analyst 看不到新 typology;一个 CRM write tool 增加字段可能把客服机器人从“建议回复”变成“实际修改客户资料”;一个监控阈值调宽可能让投诉激增被延迟发现;一次 vendor model upgrade 可能改变答案风格、拒答率、PII 暴露概率和成本曲线。

2.1 高级治理问题

每次 AI 变更都必须回答 12 个问题:

问题高级判断点
1. 变更对象是什么?model、prompt、RAG、tool、policy、eval、vendor、workflow、threshold、monitoring、retention 是否同时变化。
2. 变更意图是什么?修复缺陷、提升质量、降低成本、满足监管、更新知识、扩展权限、改善体验、降低人工负担。
3. 哪些业务决策会被影响?信用、AML、反欺诈、客服、投诉、营销、理财适当性、身份核验、费用豁免、账户维护。
4. 哪些客户群体可能受到不同影响?新客户、弱势客户、逾期客户、小微商户、老年客户、非英语客户、高风险客户、受保护属性相关群体。
5. 哪些控制会被绕过或弱化?human review、policy check、explanation template、dual control、maker-checker、audit logging、consent boundary。
6. 哪些依赖会连带变化?embedding model、schema、feature、prompt variable、tool version、ruleset、retrieval filter、vendor endpoint。
7. 如何证明没有退化?regression eval、golden set、scenario test、red-team、shadow run、human review sample、monitoring baseline。
8. 谁有权批准?product owner、business control owner、model risk、compliance、security、privacy、data owner、operations、architecture review。
9. 如何分阶段上线?canary、shadow、dark launch、regional ramp、customer segment ramp、human-in-the-loop ramp、read-only before write-enabled。
10. 如何快速止损?feature flag、model route rollback、index rollback、prompt rollback、tool permission kill switch、vendor fallback、manual queue。
11. 证据如何保留?request、impact assessment、eval result、approval、deployment metadata、runtime traces、post-release metrics、exception log。
12. 什么时候复盘?24h / 72h / 14d monitoring review、monthly control review、quarterly model risk review、incident-triggered review。

2.2 变更影响不是单点风险,而是路径风险

Release governance 的目标不是把每个 artifact 分别审批一遍,而是识别“从变更到客户影响”的路径。

Change artifact
-> AI behavior
-> workflow step
-> business decision
-> customer / regulatory / operational impact
-> control evidence

示例:

Prompt wording change
-> explanation becomes more definitive
-> credit adverse action explanation generated
-> customer receives inaccurate reason
-> complaint, fair lending concern, audit issue
-> missing evidence if prompt version and eval result are not retained

真正成熟的团队会建立 AI Impact Graph,而不是只维护一个 release note。


3. Change Taxonomy:AI 变更分类法

分类法的作用不是填表,而是决定 risk tier、eval gate、审批人、放量策略和回滚方式。一个变更可以属于多个类别;多类别变更默认按最高风险等级治理。

变更类别典型变更主要风险必要证据
Modelfoundation model、fine-tuned model、classification model、ranking model、fraud model、decision model 版本更新行为漂移、准确率退化、偏差变化、拒答率变化、成本/延迟变化、供应商不可解释变更model card、version diff、eval result、validation note、routing config、rollback path
Promptsystem prompt、developer prompt、task prompt、few-shot examples、output schema instruction、refusal instruction语气过度确定、合规披露缺失、越权建议、解释不一致、prompt injection 防护减弱prompt diff、scenario eval、policy eval、red-team cases、approval record
RAG corpus / index知识文档增删、chunking、metadata filter、index rebuild、document ranking、freshness window检索不到关键政策、引用过期知识、跨区域知识混用、敏感文档暴露、答案依据不可复现corpus manifest、document lineage、index version、retrieval eval、access review
Embeddingembedding model、维度、normalization、vector store config、distance metric语义召回变化、历史索引不兼容、召回偏向、成本/延迟变化embedding version、index compatibility test、recall benchmark、migration plan
Rerankerreranker model、top-k、score threshold、boost rule、hybrid search 权重正确证据排序下降、长尾知识被压低、合规文档排位变化、解释引用不稳定ranking eval、critical document recall、side-by-side result review
Tool / API contractCRM、case management、payment、account servicing、KYC、fraud queue、email/SMS tool schema 或权限变化从 read-only 变成 write-enabled、字段语义误解、幂等性缺失、审批绕过、误操作客户账户OpenAPI / AsyncAPI diff、contract test、permission review、idempotency evidence、kill switch
Policy / DMN / ruleseligibility rule、AML rule、complaint routing rule、fee waiver rule、guardrail policy业务政策变更未同步、规则冲突、例外处理不一致、监管口径错误ruleset version、DMN decision table diff、policy owner sign-off、decision trace
Eval set / rubricgolden dataset、edge cases、judge prompt、rubric、pass threshold、sampling strategyrelease gate 被放松、历史结果不可比、评价目标偏移、过拟合 evaldataset card、rubric diff、baseline comparison、independent challenge
VendorLLM provider、embedding provider、vector DB、observability vendor、moderation vendor、region routing合同边界、数据出境、可用性、不可解释升级、成本、退出困难、SLA 变化vendor risk review、DPA/SLA evidence、exit plan、fallback test、data flow review
Workflowhuman handoff、maker-checker、case queue、SOP、role responsibility、exception handling人工复核被压缩、责任不清、服务 SLA 受损、操作风险上升BPMN / service blueprint diff、RACI、training evidence、operations sign-off
UIdisclosure、confidence display、citation display、action button、review screen、override reason用户误信、员工过度依赖、关键警示不可见、错误操作入口太近UX review、accessibility check、disclosure approval、human factors test
Thresholdconfidence threshold、similarity threshold、risk score cutoff、alert trigger、auto-approve / auto-escalate threshold漏报/误报变化、自动化边界扩大、人工队列容量冲击threshold analysis、backtest、capacity impact、business owner approval
Monitoringmetric definition、alert threshold、sampling rate、trace attribute、dashboard query、on-call route异常不可见、误报疲劳、证据断层、低频高损场景漏检observability diff、metric lineage、alert test、runbook update
Data retentionprompt/response log retention、PII redaction、trace retention、eval data retention、evidence pack retention隐私过度保留、审计证据不足、不可复现、数据主体请求无法处理retention schedule、privacy review、redaction test、evidence retention mapping

3.1 Risk tiering:按“客户影响 + 控制影响 + 可回滚性”分级

建议把 AI 变更分为四级。

Tier适用情形Gate 强度发布策略
Tier 0 Routine不改变客户输出、不改变自动化决策、不改变数据流、不改变工具权限;例如内部日志标签修正peer review + automated test标准发布;保留变更记录
Tier 1 Low影响内部员工辅助体验,但不直接写入客户记录或自动决策;例如客服知识引用排序小调整regression eval + product approval小流量 canary;监控员工 override
Tier 2 Controlled影响客户可见内容、合规解释、case routing、人工复核优先级或关键知识库cross-functional review + shadow/canary + rollback plan分阶段 ramp;24h/72h review;evidence pack 必备
Tier 3 Material影响授信、AML、欺诈拦截、账户限制、付款、合规报告、客户权益或 write-enabled toolformal governance board + independent validation/effective challenge + security/privacy/legal reviewshadow-first;human-in-the-loop;limited go;明确 no-go 和 kill switch

判断口诀:

如果变更会影响“谁被批准、谁被拒绝、谁被调查、谁被收费、谁的账户被改动、谁收到什么解释”,至少按 Tier 2 管。
如果变更扩大自动化权限或减少人工控制,通常按 Tier 3 管。

4. Release Governance Architecture:从 Intake 到 Evidence Pack

AI release governance 是一个控制平面(control plane),不是会议流程。它应该把变更请求、依赖图、风险分级、评估结果、审批记录、发布状态、遥测数据和回滚动作串起来。

Change Intake
-> Risk Classification
-> Impact Graph
-> Regression Eval
-> Security / Privacy / Compliance Review
-> Stakeholder Sign-off
-> Canary / Shadow / Ramp
-> Rollback / Kill Switch
-> Evidence Pack
-> Post-release Monitoring Review

4.1 Change intake:把变更描述成 AI artifact change

普通 release ticket 常写“升级模型”“优化 prompt”“更新知识库”。这对 AI 治理不够。AI change request 必须结构化记录:

字段要求
Change ID全局唯一,与 deployment、eval run、approval、trace tag 关联。
Business intent业务问题、客户价值、风险降低目标、监管或审计驱动。
Artifact changedmodel、prompt、RAG、embedding、tool、rules、eval、vendor、workflow、threshold、monitoring、retention。
Intended use变更适用的业务场景、客户群、渠道、地区、语言、产品线。
Out-of-scope use明确禁止被该变更影响的场景。
Decision impact是否影响建议、解释、排序、自动决策、写入操作、升级/拒绝/批准。
Data impact输入数据、输出数据、日志、PII、敏感属性、跨境、retention。
Control impacthuman review、approval、policy guardrail、audit log、monitoring、incident route 是否变化。
Expected behavior变更后应该出现的行为差异,用业务语言写。
Non-regression expectation哪些行为必须保持不变。
Rollback method如何回到上一个可接受版本,预计耗时,责任人。

4.2 Risk classification:按业务后果,而不是按改动大小

一个 3 行 prompt 改动可能是 Tier 3;一个大规模日志重构可能只是 Tier 0。分类必须看后果:

维度低风险信号高风险信号
Customer impact仅内部试用、无客户输出客户可见解释、建议、收费、拒绝、账户动作
Automation boundary人只参考 AI,决策不变AI 自动批准、拒绝、升级、写入、拦截
Regulatory sensitivity非监管流程AML、KYC、fair lending、UDAAP、privacy、complaint、suitability
Reversibilityfeature flag 秒级回退数据写入不可逆、外部通知已发送、监管报告已生成
Observability指标清晰、trace 完整采样过低、无 prompt/index/tool version、无法复现
Validation maturity有 golden set 和 baseline新场景无历史数据、eval 未覆盖长尾
Vendor dependency内部可控黑盒升级、SLA/region/data usage 变化

4.3 Impact graph:用图而不是清单分析影响

Impact graph 至少覆盖 8 类节点:

Artifact
-> Runtime component
-> Data object
-> Business rule
-> Workflow step
-> Human role
-> Customer outcome
-> Control / evidence

示例字段:

节点类型示例
Artifactprompt credit_explain_v14、index aml_typology_q2_2026、tool contract crm.updateCustomer.v3
Runtime componentorchestrator、retriever、reranker、policy engine、tool gateway、moderation layer
Data objectapplication attributes、customer profile、case notes、SAR narrative draft、call transcript
Business ruleadverse action reason mapping、AML escalation rule、complaint SLA rule、fee waiver policy
Workflow stepagent review、customer disclosure, supervisor approval、case closure
Human rolebanker、analyst、contact center agent、fraud investigator、compliance reviewer
Customer outcomeexplanation received、case escalated、account updated、payment blocked、fee refunded
Control / evidenceeval run、approval, trace, override reason、post-release metric, incident runbook

Impact graph 的好处:

  • 发现隐藏依赖:prompt 输出字段被 downstream rules 使用。
  • 发现控制断点:RAG index rebuild 没有记录 document manifest,导致答案引用不可复现。
  • 发现回滚难点:tool contract 变化后旧 agent 不能解析新 CRM response。
  • 发现审批缺口:vendor model upgrade 影响 data residency,但 ticket 只让 ML lead 审批。

4.4 Regression eval:把“质量变好”拆成可比较指标

AI release gate 必须把主指标、保护指标和控制指标分开。

指标类型示例用途
Primary qualityanswer correctness、retrieval groundedness、classification F1、resolution rate证明变更达成业务目标
Safety / compliancePII leakage、policy violation、forbidden advice、unfair explanation、toxicity、jailbreak success防止合规和客户伤害
Workflowhandoff accuracy、case routing accuracy、agent acceptance、override reason mix、AHT impact防止运营流程被扰乱
Reliabilitylatency、timeout、tool error、fallback rate、cost per task防止生产稳定性退化
Explainabilitycitation accuracy、reason code consistency、audit trace completeness支撑客户解释和审计
Monitoring readinesstrace coverage、metric coverage、alert test pass、dashboard freshness确保上线后可见

Eval gate 设计原则:

  1. 不只看平均分,要看 segment:产品、地区、语言、渠道、客户群、风险等级、员工队列。
  2. 不只看正确率,要看 harmful failure:错误授信解释、错误 AML 排除、错误账户写入。
  3. 不只看新版本,要看 delta:与 production baseline、previous candidate、fallback route 比较。
  4. 不只看自动 judge,要有人类抽检和 independent challenge。
  5. 不只看离线 eval,要有 shadow / canary 的真实分布数据。

4.5 Security / privacy review:AI 变更常改变数据边界

安全和隐私评审不能只在系统首次上线时做。以下变更必须触发复核:

触发条件复核重点
新增 tool write action权限最小化、审批、幂等性、审计日志、replay 防护、kill switch
RAG corpus 新增敏感文档访问控制、document-level ACL、metadata filter、PII redaction、cross-tenant leakage
Vendor endpoint / model 变更data usage、retention、region、subprocessor、SLA、incident notification、exit plan
Prompt 增加上下文字段是否引入敏感属性、客户隐私、员工隐私、不可用于该目的的数据
Telemetry 采样或 retention 变化是否过度保留 prompt/response、是否影响证据、是否支持删除和脱敏
Eval set 增加真实样本数据授权、脱敏、labeler access、retention、re-identification risk

4.6 Stakeholder sign-off:签字不是形式,是风险所有权

不同变更需要不同 owner 承担清晰责任。

角色关注点不能替代谁
Business owner业务收益、客户影响、政策符合、运营容量不能替代 model risk / compliance
AI PM目标、用户体验、release scope、success metric、rollback criteria不能替代安全和隐私评审
Solution architect架构依赖、runtime path、tool contract、observability、rollback不能替代业务风险接受
Model risk / validationintended use、validation evidence、limitations、ongoing monitoring不能替代 product go/no-go
Compliance / legal监管解释、客户披露、投诉、记录保留、政策约束不能替代技术可行性
Security / privacyaccess、data flow、secrets、PII、retention、vendor controls不能替代业务 owner
Operations leadSOP、training、queue capacity、exception handling、manual fallback不能替代 architecture
Internal audit控制设计和运行有效性检查通常不作为 release approver,而是 independent assurance

4.7 Canary / shadow / ramp:先观察,再放权

建议按能力边界分阶段:

阶段做什么适用场景
Offline regression用固定 eval set、历史样本和 synthetic edge cases 比较所有 Tier 1+
Shadow mode新版本并行运行,但不影响员工或客户决策信用、AML、欺诈、客服建议
Read-only canary新版本只读系统数据,不写入业务系统RAG、explanation、case summary
Human-reviewed canaryAI 输出必须经人工确认高风险解释、case routing、customer response
Limited write只允许低风险字段或低风险客户群写入CRM note、case tag、non-financial preference
Ramp按地区、渠道、产品、客户群、队列逐步放量多渠道金融零售场景
Full release达到预设稳定期和 KRI 门槛后全量证据完整且回滚路径验证通过

4.8 Rollback:AI 回滚不是只回代码

AI 回滚对象包括:

对象回滚动作
Model route切回 previous approved model 或 fallback model;保留 candidate traces。
Prompt切回上一版 prompt template 和 few-shot examples;确认 prompt variables 兼容。
RAG index切回 previous index snapshot;冻结新 document ingestion;保留 corpus manifest。
Embedding / reranker切回 compatible retrieval stack;避免新 embedding 与旧 index 混用。
Tool contract关闭 write permission;切回旧 schema adapter;启用 manual processing queue。
Rules / policy恢复上一版 DMN/ruleset;对发布期间 decision trace 做 sample review。
Vendor切换备用 provider / region / model;执行 data flow exception log。
Workflow恢复原 SOP、队列规则和人工复核阈值;通知 operations。
Monitoring恢复原 alert threshold;保留异常期 dashboard snapshot。

Rollback plan 必须提前演练。未演练的 rollback 只是愿望。

4.9 Evidence pack:发布证据必须能复现当时决策

每次 Tier 2 / Tier 3 AI release 至少保留:

Evidence说明
Change request变更目标、范围、artifact、risk tier、owner。
Impact graph依赖、业务流程、客户结果、控制、证据链。
Diff packageprompt diff、rules diff、contract diff、corpus manifest、model version、threshold diff。
Eval packageeval dataset version、rubric、runner、judge、result、failure analysis、approval threshold。
Security/privacy reviewdata flow、access、retention、vendor、PII redaction、tool permission。
Sign-off record谁在何时基于什么证据批准;例外和条件是什么。
Deployment metadataenvironment、route、feature flag、traffic percentage、time window、operator。
Runtime telemetrytrace coverage、metric coverage、logs、sampling rate、redaction status。
Rollback evidencerollback method、test result、owner、RTO、known constraints。
Post-release review24h/72h/14d 指标、KRI、incident/complaint/override、decision outcome。

5. Financial Retail Cases

5.1 Credit explanation AI prompt change

场景:信用卡申请被拒后,AI 根据模型 reason codes 和政策文档生成客户可读解释。团队想把 prompt 从“简洁解释”改成“更具同理心和可行动建议”。

看似只是文案优化,但在金融零售中至少触发 Tier 2,某些机构会按 Tier 3 管。

影响点风险
Reason code 映射prompt 可能把模型 reason code 改写成不准确或未经批准的原因。
Fair lending / adverse action解释不能引入未使用的因素,不能暗示受保护属性相关推断。
Customer actionability“建议提高收入”这类表述可能不合适或不可操作。
Complaint handling客户引用 AI 解释投诉时,机构必须复现当时版本。
UI disclosureAI 解释是否需要人工审核、是否有正式模板边界。

治理动作:

  1. 建立 prompt diff,标明 system instruction、few-shot examples、forbidden wording、approved phrases。
  2. 用 golden set 覆盖拒绝原因组合、薄信用文件、收入不稳定、新移民、小微商户、共同申请人。
  3. 加入 fairness-sensitive review:检查解释是否新增模型未使用的原因、是否造成群体差异化措辞。
  4. Shadow run 历史拒绝样本,比较 reason code consistency、customer readability、policy violation。
  5. Human-reviewed canary:前两周所有新 prompt 解释进入 reviewer queue,抽样检查。
  6. 保留 prompt version、model reason code、generated explanation、human edit、final customer communication。

Go / no-go 门槛示例:

Gate门槛
Reason code consistency关键 reason code 不得被遗漏或错误替换。
Forbidden wording0 个未经批准的授信建议、0 个受保护属性相关暗示。
Human edit ratecanary 阶段人工重大修改率不高于 baseline + agreed tolerance。
Complaint signal投诉率、解释不清原因、升级率无异常上升。

5.2 AML typology knowledge update

场景:金融犯罪团队发布新的 typology,要求 AML investigation assistant 在 case summary 和 alert triage 中引用新红旗指标。

变更对象不一定是模型,主要是 RAG corpus、metadata、retrieval filter、analyst workflow 和 monitoring。

影响点风险
Knowledge freshness新 typology 未被检索到,分析员继续依据旧知识判断。
Source authority非正式草稿进入知识库,导致错误升级。
Jurisdiction filter不同国家/州的 AML 规则混用。
Analyst overrelianceAI 摘要过度确定,掩盖 evidence gaps。
AuditabilitySAR 相关分析必须能追溯引用来源和版本。

治理动作:

  1. 建立 corpus manifest:文档 ID、版本、owner、approval date、jurisdiction、effective date、expiry/review date。
  2. 重新生成 index,记录 chunking config、embedding version、metadata filters、index hash。
  3. 运行 retrieval eval:给定 typology-specific scenarios,检查 top-k 是否召回权威文档。
  4. Reranker 评估:关键红旗指标文档必须稳定排在 analyst 可见范围内。
  5. Shadow triage:对最近案件并行生成摘要,不影响实际 SAR decision。
  6. Analyst training:解释新 typology、AI 引用方式、不得把 AI 输出作为唯一依据。
  7. Post-release dashboard:新 typology citation rate、analyst override、false positive feedback、case escalation pattern。

Rollback 不是删除知识库这么简单。如果新 typology 已被用于案件升级,需要保留版本,并对受影响案件做 sample review。

5.3 Customer-service RAG index rebuild

场景:客服 AI 助手使用产品政策、费用表、投诉处理流程和运营 SOP 回答员工问题。团队重建 RAG index 以提升召回率。

常见误判是把 index rebuild 当作低风险工程任务。实际上它可能改变员工对客户的承诺。

风险路径示例
费用政策错误AI 引用旧 fee waiver policy,客服承诺错误减免费用。
投诉 SLA 错误AI 漏掉高风险投诉升级要求,造成 SLA breach。
产品地区混用某州/省政策被错误用于其他地区客户。
ACL 漏洞内部高敏政策或员工资料进入普通客服检索范围。
Citation drift答案正确但引用错误,削弱审计和员工信任。

治理动作:

  1. Index rebuild 前冻结 corpus snapshot,生成 document manifest。
  2. 建立 critical policy recall suite:费用、投诉、账户关闭、欺诈申诉、客户身份核验。
  3. 对比 old index vs new index 的 answer groundedness、citation accuracy、retrieval latency。
  4. 做 region / product / channel segmentation,确保 metadata filter 生效。
  5. Canary 到低风险队列,要求员工反馈“helpful / incorrect / missing / outdated”。
  6. 设置 rollback:vector store alias 指回上一版 index,停止新 ingest job。
  7. 上线 72 小时内 daily review:top failed queries、no-answer rate、escalation rate、complaint keywords。

5.4 Vendor model upgrade

场景:供应商宣布默认模型从 Model A 升级到 Model B,承诺质量更好、价格更低、上下文更长。团队想直接切换。

金融零售不应接受“供应商默认升级 = 内部自动升级”。供应商升级必须作为 vendor + model + eval + data flow 变更治理。

影响点风险
Output style更自信、更长、更少拒答,可能影响合规边界。
Refusal behavior对敏感金融建议、身份核验、投诉场景的拒答模式变化。
Tool callingfunction calling 参数更激进或 schema adherence 变化。
Data processingretention、training opt-out、region、subprocessor、logging policy 变化。
Cost / latency单次成本下降但 token 输出变长,队列延迟上升。
Evaluation comparability旧 eval baseline 不再直接可比,需要重新跑。

治理动作:

  1. 要求 vendor release note、model card、data processing statement、deprecation timeline、rollback option。
  2. 对所有 Tier 2 / Tier 3 use cases 跑 full regression,不允许只用 vendor benchmark。
  3. Shadow mode 覆盖真实 production distribution,比较 policy violation、refusal、tool error、latency、cost。
  4. 审查合同和数据流:region、retention、training use、subprocessor、incident notification。
  5. 采用 route-based ramp:按 use case 逐个切换,不做全局默认切换。
  6. 保留 vendor version pin 或 internal model routing alias,避免隐式升级。

Release decision memo 必须说明:升级收益是什么、哪些场景不升级、何时重新评估、供应商强制退役旧模型时的替代路径。

5.5 Tool contract change to CRM write action

场景:客服 AI 原来只读 CRM。新版本允许 AI 根据通话内容写入客户偏好、联系地址备注、投诉标签和 follow-up task。

这是典型 Tier 3。风险不在“模型会不会回答错”,而在“AI 能否改变系统 of record”。

影响点风险
Permission boundaryAI 从建议者变成执行者。
Field semanticscustomer_preferencemarketing_consentcomplaint_flag 等字段有法律和运营含义。
Idempotency重复调用造成重复 task、错误标签或覆盖人工记录。
Human confirmation员工是否明确确认每个写入字段。
Audit log必须区分 AI 建议、员工确认、系统写入和后续修改。
Reversal错误写入如何撤销,是否影响 downstream campaign 或 complaint workflow。

治理动作:

  1. Contract-first:OpenAPI / AsyncAPI schema 明确字段、枚举、required、nullable、idempotency key、error code。
  2. Tool gateway policy:AI 不直接调用 CRM,必须经 policy engine 检查权限、字段、客户状态和 confirmation token。
  3. Human-in-the-loop:员工逐字段确认;高风险字段只生成 draft,不自动写入。
  4. Contract test:schema compatibility、invalid enum、duplicate request、timeout retry、partial failure、rollback compensation。
  5. Canary:只开放低风险字段;记录每次 suggestion -> edit -> confirmation -> write。
  6. Monitoring:write error rate、manual edit rate、reversal rate、complaint tag spike、downstream campaign exclusion errors。
  7. Kill switch:秒级关闭 write action,保留 read-only assistant。

6. Artifact Templates

这些模板可以作为作品集和真实项目的起点。真实机构应映射到内部 Jira / ServiceNow / GRC / model inventory / CI-CD / observability 平台字段。

6.1 AI Change Request

SectionField示例要求
IdentityChange IDAI-CR-2026-0715-CRM-WRITE-V1
IdentityUse case客服 AI CRM 写入辅助
IdentityRequestor / ownerAI PM、business owner、system owner、risk owner
BusinessBusiness intent降低通话后处理时间,同时保持客户资料准确性和投诉标记合规性
BusinessCustomer / employee impact客服员工、信用卡客户、投诉客户、营销偏好受影响客户
ScopeArtifact changedtool contract、workflow、UI confirmation、monitoring、training SOP
ScopeIn scope写入低风险联系偏好备注、创建 follow-up task
ScopeOut of scope修改法定地址、营销同意、投诉最终分类、费用减免
RiskProposed risk tierTier 3 Material
RiskRationalewrite-enabled system of record,影响客户资料和后续流程
EvaluationRegression suitetool contract test、human confirmation test、CRM sandbox write test、audit log test
ControlsRequired approvalsbusiness、CRM system owner、security、privacy、compliance、operations、architecture
ReleaseStrategyread-only shadow -> human-reviewed canary -> limited write -> ramp
RollbackMethoddisable write tool flag;route to manual note-taking;reconcile affected records
EvidenceEvidence locationchange request、diff、eval run、approval、deployment、dashboard、post-release review

6.2 Impact Assessment Matrix

DimensionQuestionsEvidence
Business decision变更是否影响批准、拒绝、升级、调查、费用、客户沟通、账户动作?process map、decision table、sample cases
Customer segment哪些客户群、语言、地区、渠道、产品线受影响?segmentation analysis、scenario coverage
Artifact dependency是否同时改变 model、prompt、index、rules、tool、vendor、threshold?artifact manifest、diff package
Data boundary是否新增字段、PII、敏感属性、跨境、retention、logging?data flow diagram、privacy review
Control boundary是否减少人工复核、扩大自动化、改变审批、改变监控?RACI、control mapping、approval log
Evaluation coverageeval 是否覆盖高风险场景、长尾、historical baseline、synthetic edge?eval dataset card、result report
Security boundary权限、secrets、API scope、tool gateway、ACL 是否变化?security review、contract tests
Operational capacity人工队列、training、SOP、on-call、exception handling 是否准备好?training record、capacity estimate
Rollback feasibility回滚是否秒级、分钟级、小时级?是否存在不可逆外部影响?rollback plan、drill evidence
Evidence readiness是否能复现版本、输入、输出、审批、部署、监控?evidence pack checklist

6.3 Regression Gate Checklist

GatePass CriteriaOwner
Artifact diff reviewed所有 changed artifacts 有版本号、diff、owner 和 effective dateRelease lead
Intended use unchanged or approved任何 intended use 扩展都有 business 和 risk approvalAI PM / business owner
Golden set passed主指标达到门槛,关键高风险样本无 critical failureEvalOps
Policy test passedforbidden advice、PII leakage、unsafe tool use、unapproved disclosure 无 critical failureCompliance / safety
Segment regression reviewed关键客户群、语言、地区、产品线无不可接受退化AI PM / analytics
Tool contract test passedschema、permission、idempotency、error handling、audit log 均通过Solution architect
Security/privacy review completeddata flow、retention、vendor、access、redaction 已批准Security / privacy
Monitoring readytrace、metric、log、dashboard、alert、runbook 已验证SRE / observability
Rollback verifiedrollback route、owner、RTO、communication plan 已演练Release lead
Evidence pack completerequest、impact、eval、approval、deployment、monitoring 证据齐全Governance lead

6.4 Rollback Plan

Field内容
Rollback triggercritical eval failure in canary、complaint spike、override spike、policy violation、tool write error、latency breach、vendor incident
Decision authorityrelease commander、business owner、incident commander、risk owner
Technical actiondisable feature flag、route to previous model、restore prompt/index/rules/tool version、close write permission
Operational actionnotify frontline, switch to manual SOP, open review queue, freeze affected automation
Customer actiondecide whether customer communication, correction, apology, fee reversal or complaint handling is required
Data actiontag affected interactions, preserve traces, stop problematic logging, begin reconciliation
Evidence actioncapture dashboard, deployment metadata, trace samples, decision log, timeline
Recovery criteriano new critical events, affected cases triaged, stable baseline restored, owners approve re-entry
Re-release pathroot cause fixed, regression suite expanded, governance board reviews new release memo

6.5 Release Decision Memo

Section内容
DecisionGo、limited go、no-go、rollback、hold for evidence、hold for validation
Scopeuse case、channel、customer segment、traffic percentage、time window
Change summaryartifact diffs、business intent、expected behavior change
Risk classificationtier、rationale、material risks、residual risk
Evaluation summaryprimary metrics、safety metrics、segment regression、failure analysis
Control summaryhuman review、policy guardrail、tool gateway、monitoring、incident route
Approval conditionsrelease conditions、traffic caps、manual review period、stop criteria
Rollback readinessrollback method、tested date、RTO、owner
Evidencelinks/IDs for request、impact graph、eval run、approvals、deployment plan、dashboard
Final accountabilitynamed business owner and release owner accept the decision within stated boundaries

6.6 Post-release Monitoring Dashboard

PanelMetricWhy it matters
Release exposuretraffic %, users affected, segment distribution, model/prompt/index/tool version知道谁实际暴露在新版本下
Qualitytask success, groundedness, reason code consistency, retrieval hit, tool success证明行为符合预期
Safety/compliancepolicy violations, PII leakage, forbidden content, unapproved advice, citation errors发现客户和合规伤害
Human controloverride rate, edit rate, handoff rate, escalation rate, review backlog观察人工控制是否被冲击
Customer signalcomplaint count, complaint themes, repeat contact, abandonment, CSAT/NPS proxy观察真实客户反馈
OperationsAHT, queue SLA, case reopen, manual reconciliation volume观察运营成本和容量
Reliability/costlatency, timeout, error, fallback, cost per task, token usage观察生产稳定性
Driftinput distribution, retrieval distribution, output category, tool action mix发现行为分布偏移
Evidence completenesstrace coverage, prompt version coverage, index version coverage, approval links证明可审计性没有断裂

7. Metrics and KRIs

AI release governance 的指标不应只看“上线成功率”。真正要看的是缺陷是否逃逸、控制是否有效、证据是否完整、组织是否能快速止损。

Metric / KRI定义解读
Escaped defects上线后才发现且本应由 eval / review 捕捉的问题数量衡量 release gate 是否有效
Eval regressioncandidate 相比 baseline 在关键指标和关键 segment 的退化衡量质量和公平性风险
Critical scenario failure高风险样本出现 policy、safety、decision、tool write critical failure通常触发 no-go 或 rollback
Override spike员工拒绝、修改或覆盖 AI 建议的比例异常上升说明 AI 行为与现实流程脱节
Complaint spike客户投诉、解释不清、错误承诺、账户处理争议上升真实客户伤害信号
Drift输入分布、retrieval source、output category、tool action mix、score distribution 偏离 baseline表示模型或业务环境变化
Rollback frequency单位时间内 AI release rollback 次数和原因过高说明 release quality 或变更粒度有问题
Rollback time从触发条件到恢复稳定 baseline 的时间衡量 kill switch 和 operational readiness
Evidence completenessrelease evidence pack 中必备字段和证据覆盖率衡量审计就绪度
Approval SLA从 request 到 required approvals 完成的时间衡量治理效率,过慢会导致绕流程
Exception aging未关闭 release exception 的天数和风险等级衡量 residual risk 管理
Monitoring coverage带有 version tags、trace IDs、policy decisions、tool call metadata 的请求比例衡量可观测性
Alert precision有效告警 / 总告警过低会造成告警疲劳
Human review backlog需人工复核的 AI 输出积压量衡量放量是否超过运营容量
Vendor change lead time从 vendor notice 到内部评估完成的时间衡量第三方变更治理能力

7.1 KRI trigger examples

TriggerSuggested action
Critical policy violation > 0 in Tier 3 canaryStop ramp, freeze traffic, root cause review, expand eval set
Tool write reversal rate > baseline + toleranceDisable write action, route to manual queue, review affected records
Complaint spike after prompt changePause release, sample customer communications, compliance review
Retrieval critical document recall below thresholdRoll back index, repair corpus metadata, rerun retrieval eval
Evidence completeness below required thresholdHold release or classify as governance exception with executive approval
Vendor latency p95 breaches SLA in high-volume queueRoute to fallback, reassess cost/capacity, update vendor risk log

8. Operating Model and RACI

AI change governance 需要跨职能,但不能让所有人审批所有事。建议建立 risk-tiered RACI。

ActivityAI PMBA / CBAP+Solution ArchitectEvalOpsSecurity / PrivacyCompliance / Model RiskOperationsRelease Governance
Change intakeARCCCCCR
Process impactCA/RCCCCRC
Artifact diffCCA/RRCCCC
Risk tieringRRCCCA/RCA/R
Impact graphRA/RA/RCCCCC
Eval designCCCA/RCCCC
Security/privacy reviewCCCCA/RCCC
Compliance / model risk reviewCCCCCA/RCC
Release decisionRCCCCCCA
Canary monitoringRCRRCCA/RA/R
Rollback decisionCCRCCCRA/R
Evidence packCCCCCCCA/R

Legend: A = accountable, R = responsible, C = consulted.

8.1 Governance board design

不要把 AI governance board 设计成所有变更都必须排队汇报的瓶颈。建议:

Forum处理范围节奏
Daily release triageTier 0 / Tier 1,低风险快速决策,异常升级每日或按需
Weekly AI release reviewTier 2,跨团队 release decision、canary review、exception aging每周
Material AI change boardTier 3,高客户影响、高监管风险、write-enabled、vendor material change按需,必须有 quorum
Monthly control reviewKRI、escaped defects、evidence completeness、approval SLA、rollback trends每月
Quarterly management reviewAIMS、portfolio risk、model inventory、vendor risk、audit findings、policy updates每季度

9. Architecture Patterns for Governed AI Release

9.1 Version everything that can change behavior

必须版本化:

  • model route and model parameters
  • prompt template and prompt variables
  • RAG corpus manifest, chunking config, embedding model, index snapshot, retriever config, reranker config
  • tool schema, permission scope, policy gateway rules
  • DMN / ruleset / threshold config
  • eval dataset, rubric, judge model/prompt, evaluator code
  • vendor endpoint, region, SLA, data processing terms
  • monitoring query, alert threshold, sampling config, retention policy

每个 runtime trace 至少带:

change_id
release_id
use_case_id
model_version
prompt_version
index_version
retriever_version
tool_contract_version
ruleset_version
eval_baseline_id
policy_decision_id
human_review_status

9.2 Use a release control plane

一个成熟架构通常包含:

ComponentFunction
AI artifact registry存放 model、prompt、index、rules、tool contract、eval set、threshold 的版本和 metadata
Policy gateway对 tool calls、data access、customer segment、risk tier 做 runtime policy enforcement
EvalOps pipeline离线和 shadow eval,生成可比较结果和 release gate status
Release orchestrator控制 route、feature flag、traffic split、canary、ramp、rollback
Observability layer收集 traces、metrics、logs、version tags、policy decisions、tool outcomes
Evidence binder自动汇总 request、diff、eval、approval、deployment、monitoring、rollback evidence
Incident integration把 KRI trigger 连接到 incident management、manual queue、customer remediation

9.3 Separate behavior release from code deployment

AI 系统常出现“代码没发版,但行为变了”:

  • vendor 默认模型升级;
  • RAG 文档自动 ingest;
  • prompt 在配置中心被改;
  • threshold 由运营人员调整;
  • eval judge 被替换;
  • policy rule 从 GRC 系统同步;
  • monitoring query 改了采样窗口。

所以 governance 不能只挂在 CI/CD。要把行为相关配置接入 release governance。

建议原则:

Any artifact that can change customer-facing or decision-support behavior must be treated as release-controlled.

9.4 Contract-first tool governance

所有 write-enabled tool 必须经过 contract-first 设计:

RequirementExplanation
Explicit schema字段、类型、枚举、约束、错误码必须稳定。
Permission scoperead、draft、write、submit、approve、reverse 分开授权。
Idempotency所有写操作必须支持 idempotency key 或 compensating control。
Confirmation token高风险写入必须有 human confirmation 或 policy-issued token。
Audit trail记录 AI suggestion、human edit、final action、actor、timestamp、customer impact。
Dry-run modecanary 前必须支持 sandbox 或 dry-run。
Kill switch可按 tool、field、use case、customer segment 关闭。

9.5 Observability for AI change impact

OpenTelemetry 的 traces、metrics、logs 思路可以扩展到 AI runtime。关键不是“打更多日志”,而是让每一次 AI 行为能被关联到版本、输入、检索、决策、工具调用和人工控制。

Trace span 示例:

customer_interaction
  -> policy_precheck
  -> prompt_build
  -> retrieval_query
  -> rerank
  -> model_inference
  -> policy_postcheck
  -> tool_call_dry_run
  -> human_review
  -> tool_write
  -> customer_response

关键 attributes:

Attribute示例
ai.change_idAI-CR-2026-0715-CRM-WRITE-V1
ai.release_idrel-2026-07-22-003
ai.risk_tierTier3
ai.prompt.versioncredit_explain_v14
ai.rag.index_versionaml_typology_q2_2026_hash
ai.tool.contract_versioncrm.updateCustomer.v3
ai.policy.ruleset_versioncustomer_service_policy_2026_07
ai.eval.baseline_idgolden_credit_explain_2026_06
ai.human.review_statusapproved_with_edit
ai.rollback_groupcrm_write_canary_group_a

Privacy note:不要把原始 prompt、客户 PII、敏感 case notes 无控制地写入 telemetry。需要 redaction、field-level access、retention policy 和 evidence sampling strategy。


10. Anti-patterns

Anti-pattern为什么危险更好的做法
“只是 prompt 改动,不需要治理”prompt 可改变合规解释、拒答边界、tool calling、客户承诺prompt diff + scenario eval + approval + version tag
“RAG index 每晚自动重建”知识来源、ACL、chunking、embedding 变化会改变答案和证据corpus manifest + index version + retrieval eval + rollback snapshot
“供应商模型更强,直接升级”vendor benchmark 不代表本机构业务、监管和客户场景internal regression + data flow review + route-based ramp
“eval set 改了但 release gate 没变”历史 baseline 不可比,可能无意放松门槛eval dataset versioning + baseline recalibration + approval
“监控阈值只是 SRE 调整”监控阈值改变异常发现能力,也改变控制运行有效性alert threshold change request + runbook update + evidence
“只要有人审就安全”人工复核可能形式化、过载或缺少上下文human factors test + override monitoring + capacity control
“回滚就是 redeploy 旧代码”AI 行为由 prompt/index/model/rules/tool/vendor 共同决定artifact-level rollback matrix + drill
“审计证据上线后再整理”事后补证据不可复现,容易遗漏版本和审批上下文evidence generated in workflow

11. Interview Section

11.1 30-second answer:How do you govern AI changes after launch?

我不会把 AI 上线后的变更只当成 model update 管。金融零售里的 AI 行为由 model、prompt、RAG index、tool contract、policy rules、eval set、vendor、workflow 和 monitoring threshold 共同决定。我的做法是建立 risk-tiered release governance:每个变更先做 artifact-level intake 和业务影响分级,再画 impact graph,明确会影响哪些决策、客户群、控制和证据;之后跑 regression eval、security/privacy/compliance review,按风险选择 shadow、canary、human-reviewed ramp 或 full release。所有发布都必须有 rollback plan、runtime telemetry 和 evidence pack,确保出问题能止损、复现和审计。

11.2 2-minute answer:How do you govern AI changes after launch?

上线后的 AI 治理重点不是“模型有没有换”,而是“系统行为有没有变,以及这种变化会不会影响客户、控制和审计证据”。我会把 AI change impact 分成多类:model、prompt、RAG corpus/index、embedding、reranker、tool/API contract、policy/DMN rules、eval set/rubric、vendor、workflow、UI、threshold、monitoring 和 data retention。任何能改变客户输出、员工决策支持、系统写入、风险评分、人工复核或监管证据的 artifact,都进入 release-controlled 范围。

流程上,我会先让 change request 结构化描述业务意图、变更对象、intended use、out-of-scope use、客户和流程影响、数据边界、控制变化、预期行为和回滚方式。然后做 risk classification,不按代码大小分级,而按客户影响、自动化边界、监管敏感度、可回滚性、可观测性和验证成熟度分 Tier。接着画 impact graph,把 artifact 连接到 runtime component、数据对象、业务规则、workflow step、human role、customer outcome 和 control evidence,避免漏掉 hidden dependency。

上线前的 gate 包括 regression eval、segment analysis、policy/safety test、tool contract test、security/privacy review、stakeholder sign-off 和 rollback drill。Tier 2 或 Tier 3 变更通常先 shadow,再 read-only canary 或 human-reviewed canary,最后按地区、渠道、客户群或队列 ramp。上线后我会用 OpenTelemetry-style traces、metrics 和 logs 追踪 model/prompt/index/tool/ruleset version、policy decision、human override、complaint、drift、latency、cost 和 evidence completeness。触发 critical policy violation、override spike、complaint spike、tool write reversal 或 retrieval recall 下降时,按预案 rollback 或关闭对应能力。

最后,每次高风险 release 都必须生成 evidence pack:change request、impact assessment、artifact diff、eval result、security/privacy review、approval record、deployment metadata、runtime dashboard、rollback evidence 和 post-release review。这样才能同时满足产品迭代、模型风险管理、运营控制和监管审计的要求。


12. Portfolio Exercise

目标:做一个可展示的“AI Change Impact / Release Governance”作品集包,模拟金融零售 AI 客服助手从 read-only RAG 升级到 CRM write-enabled assistant。

12.1 Scenario

一家零售银行的客服 AI 助手当前能力:

  • 根据产品政策和 SOP 回答客服员工问题;
  • 生成通话摘要;
  • 建议 follow-up action;
  • 只读 CRM 和 case management 系统。

拟变更:

  • vendor model 从旧版本升级到新版本;
  • RAG index 加入新的投诉处理 SOP;
  • prompt 增加“更主动建议下一步行动”的指令;
  • tool contract 新增 crm.createFollowUpTaskcrm.updateCustomerPreferenceNote
  • monitoring 阈值调整以降低低价值告警;
  • eval set 增加真实通话样本和高风险投诉样本。

12.2 Deliverables

Deliverable内容
AI Change Request明确 change ID、business intent、artifact changed、risk tier、scope、out-of-scope、rollback。
Impact Graph画出 prompt / RAG / vendor / tool / workflow / customer outcome / evidence 的依赖图。
Risk Classification Memo说明为什么这是 Tier 3,以及哪些子变更可以拆分为 Tier 2。
Regression Gate Design设计 eval suites:policy Q&A、complaint SOP、tool contract、human confirmation、segment regression。
Release Decision Memo给出 limited go 条件、traffic cap、manual review、stop criteria。
Rollback Plan分别定义 model、prompt、index、tool、workflow、monitoring 的回滚动作。
Monitoring Dashboard Spec定义 release exposure、override、complaint、tool write、drift、evidence completeness。
Evidence Pack Map列出每项证据来源、owner、生成时间、保留期限。

12.3 Scoring rubric

DimensionStrong answer
Multidimensional change analysis不把问题简化为模型升级,能覆盖 prompt、RAG、tool、workflow、monitoring、eval、vendor。
Financial retail risk sense能识别投诉、客户资料、费用、合规解释、隐私、系统 of record 的实际风险。
Release architecture有 control plane、versioning、feature flag、canary、telemetry、rollback。
Evidence quality每个 decision 都有可追溯证据,不依赖口头承诺。
Practicality不把所有变更都送最高委员会;能按 risk tier 快速治理。
Interview readiness能用 30 秒讲清框架,用 2 分钟讲清落地细节。

13. Practitioner Checklist

发布前:

  • 变更对象已分类:model、prompt、RAG、embedding、reranker、tool、rules、eval、vendor、workflow、UI、threshold、monitoring、retention。
  • 已按客户影响、自动化边界、监管敏感度、可回滚性、可观测性和验证成熟度完成 risk tiering。
  • Impact graph 已覆盖 artifact、runtime、data、rule、workflow、role、customer outcome、control evidence。
  • Eval suite 已覆盖主指标、保护指标、segment、high-risk scenarios、tool contract 和 monitoring readiness。
  • Security/privacy review 已覆盖 data flow、PII、access、vendor、retention、redaction。
  • Stakeholder sign-off 明确谁接受 residual risk,谁负责 release,谁负责 rollback。
  • Canary / shadow / ramp 策略已定义,包含 traffic cap、duration、stop criteria。
  • Rollback plan 已演练,明确 artifact-level 回滚动作和 operational fallback。
  • Runtime telemetry 带有 model、prompt、index、tool、ruleset、release、change ID。
  • Evidence pack 生成路径已确认,不依赖上线后人工补材料。

发布中:

  • 实时监控 release exposure、critical failures、override、complaint、tool errors、latency、cost。
  • 监控 canary segment 是否与计划一致,未扩散到未批准客户群或渠道。
  • Operations 明确当前 release 状态、人工复核规则和异常升级路径。
  • 任何 stop criteria 触发时,release owner 有权立即暂停 ramp。
  • 所有人工 override、edit、reversal 和 exception 都带 reason code。

发布后:

  • 24 小时内完成初步 post-release review。
  • 72 小时内复核 complaint、override、drift、tool write、retrieval、policy violation。
  • 14 天内完成稳定性和控制有效性复核。
  • Escaped defects 已进入 eval set 或 control update。
  • Release decision、deployment metadata、dashboard snapshot 和 review conclusion 已归档。
  • 未关闭 exceptions 有 owner、due date、residual risk acceptance 和 escalation route。

14. One-page Executive Summary

AI change governance 的核心不是阻止变化,而是让变化可理解、可验证、可控、可回滚、可审计。

高级角色要避免三个误区:

  1. 把 AI 变更等同于模型变更。
  2. 把 release governance 等同于审批会议。
  3. 把监控和证据当成上线后的补充材料。

正确的做法是:

Classify the artifact change.
Map the impact path.
Evaluate against business, safety, compliance and workflow gates.
Release gradually with telemetry.
Rollback by artifact, not only by code.
Preserve evidence as the work happens.
Review production outcomes and feed failures back into evals and controls.

在面试、作品集或真实项目中,一个成熟的 CBAP+ / AI PM / Product Architect / Release Governance Lead 应该能拿出:

  • AI change taxonomy;
  • risk-tiered release gate;
  • impact assessment matrix;
  • regression eval gate;
  • artifact-level rollback plan;
  • post-release KRI dashboard;
  • audit-ready evidence pack。

这才是金融零售 AI 上线后的 release governance:不是一次上线仪式,而是一套持续运行的 AI control system。