AI 扩展计划 / Playbooks

AI ML Technical Debt Architecture Playbook

以下来源是本文的技术和治理锚点。本文把它们转成产品、架构、债务治理、上线门禁和审计证据要求，不把任何论文、课程或框架直接等同于监管合规结论。

969 行AI_ML_TECHNICAL_DEBT_ARCHITECTURE_PLAYBOOK.md

AI ML Technical Debt Architecture Playbook

定位：面向高级 AI PM / AI BA / AI Architect / Model Risk / 金融零售产品与架构团队，把 ML technical debt、CACE、entanglement、data dependency、configuration debt、feature debt、monitoring debt 和 consumer governance 组合成可上线、可演进、可审计的企业 AI 架构控制系统。

适用边界：本文面向 credit、fraud、AML、KYC、collections、customer servicing RAG、call-center intent classification、marketing propensity、risk operations、AI copilot 和 enterprise decision platform。它不把技术债当成工程团队的 backlog，而是把它转成架构边界、产品决策、上线门禁、运行监控、模型风险证据和投资优先级。

重要说明：本文是学习、作品集和内部方案训练材料，不构成法律意见、合规结论、模型验证报告、监管解释或具体机构的模型风险政策。正式项目必须由 Legal、Compliance、Model Risk、Fair Lending、Privacy、Security、Data Governance、Business Owner、Operations、Customer Experience、Enterprise Architecture 和管理层结合机构类型、司法辖区、业务用途、客户影响和内部政策确认。

Source Anchors

Anchor	Link	本文使用方式
Sculley et al., Hidden Technical Debt in Machine Learning Systems	https://papers.nips.cc/paper_files/paper/2015/hash/86df7dcfd896fcaf2674f757a2463eba-Abstract.html	建立 ML 技术债主线：边界侵蚀、entanglement、hidden feedback loops、undeclared consumers、data dependencies、configuration issues、外部世界变化和系统级反模式。
Google Machine Learning Crash Course, Production ML Systems	https://developers.google.com/machine-learning/crash-course/production-ml-systems	作为生产 ML 系统锚点：模型代码只是系统中的一小部分，生产系统还包括 data collection、verification、feature extraction、configuration、serving、monitoring 和 process management。
Google Research, The ML Test Score	https://research.google/pubs/the-ml-test-score-a-rubric-for-ml-production-readiness-and-technical-debt-reduction/	作为技术债偿还的测试锚点：用具体测试、监控和 production readiness rubric 把债务从主观感受转成可评分、可追踪的工程控制。
Google, Rules of Machine Learning	https://developers.google.com/machine-learning/guides/rules-of-ml	用于工程实践判断：先保证 pipeline、metrics、training-serving parity 和简单可控的系统，再引入复杂模型和特征。
NIST AI Risk Management Framework	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 组织 AI 技术债治理，把架构债务、客户影响、系统边界、监控、issue management 和 residual risk 接入企业 AI 风险管理。

1. One-Sentence Positioning / 一句话定位

ML technical debt architecture 的核心不是“模型团队以后再清理代码”，而是：

Debt-to-Control =
识别 ML 系统中会被数据、特征、模型、配置、消费者、反馈回路和业务流程放大的隐性耦合，
把这些耦合转成架构边界、契约、门禁、监控、owner、偿还计划和风险接受证据。

在金融零售里，ML 技术债不是低优先级内务。它会直接影响客户权益、资金风险、运营队列、模型验证、监管解释和产品迭代速度。

高级问题	架构师必须给出的答案
改一个特征会影响哪些模型、规则、报表、人工队列和客户触点	有 feature lineage、consumer registry、impact analysis 和 replay test
模型输出被哪些系统消费	有 declared consumer contract、SLA、字段语义、版本策略和 deprecation plan
生产标签是否被模型动作污染	有 feedback loop analysis、counterfactual logging、intervention tracking 和 delayed outcome plan
配置是否可审计	有 config registry、approval、environment parity、rollback 和 change diff
监控是否覆盖真实风险	有 data、feature、score、decision、outcome、operations、customer harm 和 segment 监控
模型、数据、产品、平台边界是否清楚	有 ownership map、release gate、interface contract 和 escalation path

高级 AI PM / Architect 的目标不是把所有债务一次性消灭，而是知道：

哪些债务会导致不可控客户影响或模型风险。
哪些债务只是局部效率问题，可以计划偿还。
哪些债务是战略性临时取舍，需要明确到期日、owner 和 residual risk。

2. 为什么重要

2.1 ML 技术债比传统软件债更隐蔽

传统软件债常见于代码结构、依赖版本、测试不足和部署脚本。ML 技术债更难处理，因为行为由代码、数据、标签、特征、训练窗口、配置、阈值、消费者、人工流程和外部世界共同决定。

Software change
-> code diff
-> test result
-> deploy

ML system change
-> data distribution shift
-> feature semantics shift
-> model score movement
-> threshold operating point movement
-> downstream consumer behavior change
-> customer impact and feedback loop

金融零售中的典型危险是：系统看起来没有代码变更，但业务行为已经变了。

表面现象	隐性债务	后果
Fraud 模型 AUC 仍然达标	某商户 segment 的 high-confidence error 上升	误拦截、投诉、人工队列超载
Credit 审批率稳定	新渠道 income 字段语义改变	PD calibration 失效，风险定价偏离
AML alert volume 可控	下游调查工具依赖未登记模型字段	字段重命名造成调查证据断裂
RAG 客服回答流畅	知识源版本、检索配置和引用门禁不可追溯	客户被过期政策误导
模型上线频率提高	配置、阈值和特征开关没有统一 registry	回滚困难，审计无法复现

2.2 快速上线的收益会转化成长期维护成本

ML 项目早期容易出现“短期有效”的工程模式：

快速做法	初期收益	后期债务
直接复用历史数据表	快速出训练集	字段语义、权限、时点正确性和 owner 不清
添加大量交叉特征	离线指标提升	CACE 和 entanglement 增强，调试困难
让下游报表直接读模型输出表	集成快	undeclared consumer 增加，变更无法评估
复制旧 pipeline	开发快	inherited data drop、错误清洗逻辑和旧业务假设被带入新系统
用配置文件管理阈值	灵活	无审批、无环境一致性、无变更证据
只监控服务可用性	成本低	data drift、score drift、customer harm 和 segment failure 被遗漏

这些取舍不是绝对错误。高级团队的问题是：是否知道自己借了哪种债、利息是什么、什么时候还、谁接受风险。

2.3 企业 AI 的失败常来自边界失控

ML 技术债的核心架构问题是边界被侵蚀：

Model boundary expands into data cleaning
Data pipeline encodes product policy
Product experiment changes label definition
Platform config changes decision threshold
Operations override becomes training label
Downstream report consumes internal score field

当边界失控时，任何团队都不能单独解释系统行为。金融零售 AI 必须把模型、数据、产品、平台、运营和治理边界显式化。

3. Architecture Debt Taxonomy / 架构债务分类

3.1 总览

Debt 类型	核心问题	金融零售示例	架构控制
CACE and entanglement debt	改一个变量会影响多个模型、特征、阈值和消费者	Credit 中 DTI 定义改变，同时影响 underwriting、pricing、limit increase 和 collections	feature lineage、impact graph、replay test、contracted feature semantics
Hidden feedback loop debt	模型动作改变未来训练数据和标签	Fraud 拦截导致无法观察被拦截交易是否真实欺诈	counterfactual logging、intervention flag、random review sample、delayed label policy
Undeclared consumer debt	下游系统偷用未承诺字段、分数或中间表	AML case tool 读取模型中间 risk reason，模型升级后调查页面失效	consumer registry、API contract、deprecation policy、schema ownership
Data dependency debt	模型依赖脆弱、低质量、无 owner 或语义变化的数据	KYC OCR 字段来自 vendor，置信度、语言和文档类型语义变更未通知	data contract、freshness SLA、semantic versioning、quality gates
Configuration debt	阈值、特征开关、模型版本、prompt 和 routing policy 分散且不可审计	Fraud 阈值在不同环境不一致，回滚后仍使用新阈值	config registry、approval workflow、diff review、environment parity
Feature debt	特征过多、重复、相关、不可解释或难以服务	AML network feature 离线可算，线上不能准实时更新	feature store governance、feature owner、usage audit、retirement plan
Monitoring debt	只监控 uptime，不监控数据、分数、决策、客户影响和 segment	Credit 模型服务正常，但新客群 calibration 恶化	multi-plane monitoring、alert triage、segment dashboard、issue management
Evaluation debt	离线指标和生产业务风险脱节	RAG QA set 只覆盖 FAQ，不覆盖投诉、费用争议和信贷边界	eval set ownership、risk-tiered tests、golden cases、red-team cases
Boundary erosion debt	模型、数据、产品、平台、运营职责互相侵入	产品经理直接改 prompt routing，平台以为只是内容变更	RACI、architecture decision record、change class、release gate
Glue code and pipeline debt	用临时脚本、复制 pipeline 和手工步骤连接系统	Collections 模型训练依赖分析师每月手工导出的 CSV	orchestrated pipeline、reproducible training、data product interface
Model version debt	模型、特征、标签、阈值、训练窗口和评估报告无法复现	审计要求解释某日拒绝原因，但无法恢复当时模型包	model registry、immutable artifact、prediction log、version bundle
Human workflow debt	人工复核、override、QA 和投诉处理没有进入系统设计	Analyst override 既作为标签又作为质量审核，含义混乱	workflow taxonomy、override reason code、label governance
Vendor and platform debt	外部模型、MLOps 平台或数据服务变更不可控	第三方 fraud signal 字段含义变化，导致规则和模型同时漂移	vendor SLA、change notice、shadow monitoring、exit plan
Governance evidence debt	有控制但无证据，或证据分散不可追溯	上线会议通过了风险接受，但没有模型、阈值、监控配置快照	evidence binder、approval record、residual risk memo

3.2 CACE: Change Anything Changes Everything

CACE 描述 ML 系统里“任何输入或组件变化都可能改变整体行为”的耦合风险。它不是一句口号，而是架构审查问题：

CACE 触点	典型变化	必须评估的影响
Feature value	字段清洗、缺失填充、单位、时间窗口改变	score distribution、threshold proximity、segment calibration
Label definition	fraud confirmed、chargeback、analyst disposition、default 定义改变	training target、performance trend、regulatory reporting
Model architecture	换模型、重训、embedding 更新	ranking stability、reason code、latency、monitoring baseline
Policy threshold	自动通过、step-up、人工复核阈值改变	customer harm、operations capacity、fairness、complaint
Data source	vendor、core banking、CRM、knowledge source 替换	data contract、permission、lineage、historical comparability
Consumer behavior	下游系统开始使用新字段或分数	API contract、rate limit、explanation boundary、support SLA

CACE 的偿还方式不是禁止变化，而是让变化可分析、可回放、可分段验证、可回滚。

3.3 Entanglement

Entanglement 是模型和特征之间的强耦合。多个特征可能高度相关，多个模型可能共享同一上游字段，多个业务动作可能依赖同一 score bucket。

Entanglement 形态	症状	控制
Feature entanglement	删除一个弱特征后多个强特征权重变化，线上表现不稳定	feature ablation、correlation audit、SHAP stability、feature group ownership
Model entanglement	同一客户同时进入 fraud、credit、marketing、collections 模型，动作冲突	decision arbitration layer、customer-level policy、cross-model monitoring
Business entanglement	一个模型分数同时用于排序、拒绝、定价、人工队列和报表	use-specific score contract、separate decision policy、consumer registry
Time entanglement	训练窗口、标签窗口、活动周期和宏观周期混在一起	cohort validation、time-split evaluation、seasonality baseline

金融零售架构要避免“一个万能风险分数”被无限复用。每一种用途都需要声明：是否允许用于自动决策、排序、解释、报表、触达、监管证据。

3.4 Hidden Feedback Loops

Hidden feedback loop 指模型输出改变了未来数据，而系统没有记录这种干预。

场景	隐藏回路	风险
Fraud	高风险交易被拦截，后续 confirmed fraud 标签缺失	模型以为高风险样本减少，recall 评估失真
Credit	被拒申请人不会进入还款表现样本	PD 模型只看到已批准客户，拒绝区域风险不可见
Collections	自动催收改变客户还款行为	模型无法区分客户本来会还款还是被干预后还款
Marketing	推荐模型只观察被推荐产品的转化	模型不断强化既有偏好，遗漏新客群
RAG	AI 回答影响客户后续提问和投诉	训练集把错误回答后的客户行为当成自然意图

控制原则：

控制	说明
Intervention logging	每个模型动作记录 action、threshold、policy version、channel、customer impact
Counterfactual sample	对低风险可控范围保留随机复核或探索样本，估计未干预结果
Human review sampling	对自动处理样本做抽样 QA，防止标签只来自人工队列
Label maturity policy	标签必须标注成熟度，不把早期 proxy 当最终结果
Feedback isolation	运营 override、客户申诉、专家 QA 的标签含义分开管理

3.5 Undeclared Consumers

Undeclared consumer 是 ML 系统最常见的企业架构债：某个团队发现模型输出有用，于是直接读取表、日志、中间字段或 API，但没有声明用途。

未声明消费方式	后果	应对
读模型中间表	表结构变更造成下游中断	只开放契约化 serving output 和 curated data product
读内部 reason code	reason code 语义变化造成客户解释不一致	reason code registry、approved explanation taxonomy
把 score 用于新场景	模型未经该 use case 验证	consumer onboarding gate、use restriction、risk assessment
把 batch score 当实时信号	时效性不满足业务动作	freshness SLA、latency contract、staleness flag
把 monitoring 指标用于绩效考核	指标被优化或规避	metric governance、anti-gaming review

Declared consumer contract 至少包含：

字段	要求
Consumer name	系统、团队、业务 owner
Use case	排序、建议、自动动作、解释、报表、审计、实验
Allowed fields	可消费字段、语义、版本、时效
Prohibited uses	不允许的自动化动作、客户沟通或监管用途
SLA	latency、freshness、availability、support
Change notice	变更提前量、兼容期、回滚策略
Evidence	审批、风险评估、测试和监控要求

3.6 Data Dependencies

ML 系统对数据的依赖比传统系统更深，因为数据既是输入、训练材料、监控基线，也是治理证据。

Data dependency 类型	示例	债务信号
Unstable upstream	CRM 字段由销售运营手工维护	null rate 和枚举值频繁变化
Semantic drift	`income_verified` 从“人工验证”变成“自动推断”	模型表现变化但 schema 不变
External vendor dependency	设备风险、地址标准化、OCR、身份验证服务	vendor 版本和字段含义不可追溯
Permission dependency	某字段在特定渠道或地区不可使用	线上缺失率按 segment 激增
Historical dependency	训练依赖旧政策下产生的标签	新政策上线后标签不可比
Point-in-time dependency	训练用了事后可得字段	生产服务无法复现离线表现

架构控制：

Data dependency must have:
  owner:
  semantic definition:
  allowed use:
  freshness SLA:
  point-in-time rule:
  privacy and permission rule:
  validation checks:
  downstream consumers:
  change approval:
  backfill and rollback plan:

3.7 Configuration Debt

ML 生产系统的配置包括模型版本、训练窗口、特征列表、阈值、prompt、retriever 参数、embedding model、routing policy、实验开关、fallback 策略和监控阈值。配置债的危险是系统行为改变但代码 diff 很小，甚至没有代码 diff。

配置对象	债务表现	门禁要求
Decision threshold	人工改值，无审批、无影响评估	threshold change memo、capacity impact、rollback condition
Feature toggle	不同环境开关不一致	environment parity check、release bundle
Model endpoint	shadow、pilot、production 指向混乱	endpoint registry、traffic split log
Prompt and policy	文案、规则、工具调用混在 prompt 中	prompt versioning、risk-tiered eval、approval
Retriever config	top_k、filter、source priority 被临时调整	retrieval eval、source freshness gate、change log
Monitoring threshold	告警阈值跟随发布被弱化	independent review、threshold governance

配置必须像代码一样版本化，但还要比代码多一层业务审批，因为它经常直接改变客户动作。

3.8 Feature Debt

Feature debt 不是“特征很多”本身，而是特征无法解释、无法服务、无法监控、无法归属、无法退休。

Feature debt 信号	金融零售风险	控制
重复和高度相关特征过多	模型解释不稳定，reason code 难以治理	feature group review、stability analysis
离线特征线上不可用	training-serving skew	online-offline parity test
特征 owner 不清	语义变化无人通知	feature registry、data owner approval
特征只服务一个过期实验	维护成本持续存在	usage audit、feature retirement cadence
高影响特征无法解释	模型验证和客户解释困难	explainability review、reason code mapping
特征和受保护属性代理高度相关	fair lending / fairness 风险	compliance review、proxy analysis、segment impact

Feature debt 的高级治理不是让模型团队删特征，而是建立 feature product lifecycle：

propose -> approve -> implement -> validate -> serve -> monitor -> reuse -> retire

3.9 Monitoring Debt

Monitoring debt 是“系统坏了才知道”和“客户受损后才知道”的根因。

监控平面	必须监控的问题	示例指标
Data health	数据是否按语义、时效、权限到达	freshness、null rate、range、cardinality、schema
Feature behavior	特征是否漂移或不可用	PSI、KS、embedding drift、online-offline diff
Model output	分数和置信度是否移动	score bucket、confidence distribution、threshold proximity
Decision behavior	业务动作是否异常	approve、decline、step-up、manual review、abstention
Outcome	真实表现是否退化	precision、recall、AUC、ECE、loss、appeal overturn
Operations	人工队列是否被模型债务放大	queue size、SLA、override、analyst disagreement
Customer harm	客户是否受到错误影响	complaint、false decline、wrong answer、remediation
Segment	局部群体是否失效	metrics by product、channel、region、language、tenure
Evidence	是否能证明监控和响应发生过	alert log、triage note、approval、closure record

只监控 latency 和 error rate 的 ML 系统，在金融零售里不能称为生产可控系统。

4. Debt-to-Control 架构

4.1 总体架构

Business use case and risk tier
-> AI system boundary map
   - model boundary
   - data boundary
   - product decision boundary
   - platform boundary
   - human operations boundary

-> Contract layer
   - data contracts
   - feature contracts
   - model output contracts
   - consumer contracts
   - configuration contracts

-> Build and release layer
   - reproducible pipeline
   - model and feature registry
   - evaluation and debt tests
   - CACE impact analysis
   - release gate and approval

-> Serving and decision layer
   - model serving
   - policy engine
   - feature retrieval
   - prompt / RAG orchestration
   - decision logging

-> Monitoring and evidence layer
   - data / feature / score / decision / outcome / operations monitoring
   - alert triage
   - debt register
   - remediation workflow
   - evidence binder

4.2 核心组件

组件	主要职责	金融零售落地
AI System Boundary Map	标明模型、数据、产品、平台、运营、治理的边界和接口	区分 underwriting score、decision policy、adverse action reason 和 human review
Data Contract Registry	记录字段语义、owner、SLA、权限、质量和变更流程	income、merchant category、device fingerprint、KYC status、policy document
Feature Registry	管理特征定义、训练服务一致性、复用和退休	credit bureau features、behavior features、network features、RAG retrieval features
Model Registry	记录模型 artifact、训练窗口、标签定义、评估、批准状态	fraud model v17、PD model challenger、AML triage ranker
Config Registry	管理阈值、routing policy、prompt、retriever、fallback、monitoring threshold	实时 fraud step-up threshold、RAG source priority
Consumer Registry	声明下游系统和允许用途	case management、CRM、dashboard、branch tool、call-center desktop
Impact Graph	连接 data、feature、model、policy、consumer、metric	改一个 merchant mapping 可看到受影响模型和报表
Release Gate Engine	把测试、验证、审批和风险接受纳入发布流程	高风险 AI use case 不允许绕过 Model Risk 和 Compliance
Prediction and Decision Log	保存输入、输出、版本、阈值、动作和上下文	支持客户争议、模型复现、根因分析
Monitoring Plane	监控数据、特征、分数、决策、结果、运营和客户影响	fraud false decline、credit calibration、AML queue
Debt Register	记录债务项、影响、owner、偿还计划和接受人	技术债从口头讨论变成治理对象
Evidence Binder	汇总上线、变更、监控、事件和残余风险证据	支持审计、监管问询、模型验证和管理层 review

4.3 架构视图

视图	回答的问题	必须产出
Dependency view	哪些数据、特征、配置、模型和消费者互相依赖	dependency graph、owner、criticality
Decision view	模型输出如何变成客户或员工动作	decision policy、threshold、fallback、human escalation
Feedback view	哪些动作会污染未来标签或样本	intervention log、counterfactual strategy、label maturity
Consumer view	谁在使用模型输出，用于什么目的	consumer contract、allowed use、change notice
Monitoring view	如何发现债务变成事故	metrics、threshold、severity、owner、SLA
Evidence view	如何证明系统受控	release memo、approval、validation、incident record

5. 边界侵蚀和 Ownership Model

5.1 边界定义

边界	应该负责	不应该偷偷负责
Model boundary	预测、排序、生成、分类、置信度、模型 artifact	最终业务政策、客户承诺、监管解释
Data boundary	数据语义、质量、权限、lineage、freshness	用模型指标倒推修改业务定义
Product boundary	use case、客户体验、动作策略、业务阈值、人工路径	未经验证直接改模型特征或标签定义
Platform boundary	训练、部署、监控、注册、权限、可复现基础设施	擅自改变高风险决策阈值
Operations boundary	人工复核、override、QA、申诉、补救	把运营动作混同为真实标签
Governance boundary	风险分级、审批、模型验证、审计证据、残余风险接受	替产品或模型 owner 做技术实现决策

5.2 RACI

决策	Product	Model Owner	Data Owner	ML Platform	Model Risk	Compliance	Operations
Use case boundary	A	C	C	C	C	C	C
Label definition	C	A	C	C	C	C	C
Data contract	C	C	A	C	C	C	I
Feature approval	C	A	C	C	C	C	I
Decision threshold	A	C	I	C	C	C	C
Model release	C	A	C	R	C	C	I
Monitoring thresholds	C	A	C	R	C	C	C
Customer-facing explanation	A	C	I	I	C	C	C
Incident response	A	R	R	R	C	C	R
Residual risk acceptance	A	C	C	C	C	C	C

说明：

标记	含义
A	Accountable，最终负责
R	Responsible，执行负责
C	Consulted，必须咨询
I	Informed，必须通知

5.3 Boundary Erosion Red Flags

Red flag	含义	处置
模型训练脚本里写死业务政策	模型边界侵入产品决策	抽出 policy engine，版本化阈值和规则
数据 pipeline 中写入客户体验判断	数据边界侵入产品边界	建立 data product 和 decision policy 分层
产品实验直接改变标签生成	产品边界侵入模型验证	label governance review，实验干预记录
平台团队用默认配置改变业务动作	平台边界侵入 risk appetite	config approval gate，环境差异审查
运营 override 被自动当作 ground truth	人工流程边界侵入标签边界	override taxonomy，QA 标签和业务标签分离
下游系统读取内部表	消费者边界绕过契约	consumer registry，内部表访问下线

6. Financial Retail Examples / 金融零售示例

6.1 场景总览

场景	主要债务	业务风险	架构控制
Credit underwriting	CACE、data dependency、feedback loop、explanation debt	风险定价失真、fair lending 风险、拒绝原因不可复现	point-in-time data、reject inference policy、reason code registry、calibration monitoring
Real-time card fraud	feedback loop、feature debt、configuration debt、monitoring debt	误拦截、漏拦截、客户投诉、损失扩大	intervention logging、step-up outcome tracking、threshold governance、segment monitor
AML alert triage	undeclared consumers、human workflow debt、evaluation debt	调查资源错配、重大风险漏报、证据链断裂	case tool contract、analyst disposition taxonomy、typology eval set
KYC onboarding	data dependency、vendor debt、boundary erosion	客户开户失败、身份验证偏差、审计解释不足	vendor SLA、document taxonomy、OCR confidence gate、manual review
Customer servicing RAG	configuration debt、monitoring debt、knowledge dependency	过期政策回答、客户误导、投诉升级	source authority registry、retrieval eval、answerability gate、human escalation
Collections strategy	hidden feedback loop、model entanglement、operations debt	过度催收、客户保护风险、回收率误判	intervention-aware labels、treatment policy logging、customer vulnerability flag
Marketing propensity	undeclared consumer、fairness proxy、feedback loop	不公平触达、产品适配错误、长期用户体验下降	allowed-use contract、frequency cap、holdout group、segment impact review

6.2 Credit Underwriting Case

Case:
  个人贷款 underwriting 模型使用 income、employment、credit bureau、banking behavior 和 channel features。

Debt:
  - income_verified 字段语义从人工验证改成自动推断，但 schema 未变。
  - underwriting score 被 limit increase 和 collections 早期预警系统复用。
  - 拒绝客户没有后续表现标签，反馈回路未建模。
  - reason code 由模型解释临时生成，未纳入合规批准 taxonomy。

Risk:
  PD calibration 失效，阈值附近客户受到错误动作；
  下游系统受到未评估影响；
  客户拒绝原因和模型复现证据不足。

Control:
  - data contract 要求 semantic version 和 owner approval。
  - consumer registry 区分 underwriting、limit、collections 三种用途。
  - reject inference 和 sample review 作为模型验证输入。
  - reason code registry 与 decision policy 分离。
  - release gate 要求 segment calibration、fairness proxy review 和 rollback plan。

6.3 Real-Time Fraud Case

Case:
  卡交易 fraud 模型输出 fraud probability，policy engine 决定 approve、step-up、decline 或 manual review。

Debt:
  - device fingerprint vendor 更新字段，模型 owner 未收到变更通知。
  - fraud threshold 通过配置热更新，缺少 capacity impact 评估。
  - 被 decline 的交易没有最终 fraud 标签。
  - 商户 dashboard 直接读取内部 score bucket。

Risk:
  某些真实客户被大量误拦截；
  人工队列短时间超载；
  模型监控低估被拦截样本风险；
  下游报表在模型升级后口径变化。

Control:
  - vendor data contract 和 shadow monitor。
  - threshold change memo，包含 false decline、loss、queue SLA 和 rollback。
  - intervention flag、appeal outcome、chargeback delayed label。
  - score output contract，禁止未声明 dashboard 读取内部 bucket。

6.4 AML Alert Triage Case

债务点	具体表现	控制
Human workflow debt	analyst disposition 同时作为训练标签、绩效指标和 QA 结果	区分 disposition、QA label、SAR outcome、training label
Evaluation debt	eval set 只看历史 typology，缺少新网络模式	typology red-team set、network pattern review
Undeclared consumer	case management tool 读取模型中间解释字段	explanation API contract、field-level versioning
Monitoring debt	只看 alert volume，不看 investigation quality	true positive proxy、case aging、analyst override、QA disagreement
Boundary erosion	模型 ranker 中写死调查优先级政策	priority policy engine 与 model score 分离

6.5 Customer Servicing RAG Case

债务点	具体表现	控制
Knowledge dependency	fee policy、dispute policy、credit disclosure 多版本并存	source authority registry、effective date gate
Configuration debt	prompt、retriever top_k、source filter、refusal policy 分散	config bundle、risk-tiered eval、approval
Monitoring debt	只看 answer latency，不看 unsupported claim	citation support、answerability、complaint-triggered review
Boundary erosion	LLM 直接生成类似正式承诺的客户文案	UX policy、approved response template、human escalation
Undeclared consumer	contact center 把 RAG answer log 用作培训材料	consumer approval、data retention、privacy review

7. Technical Debt Tests and Metrics

7.1 Debt Test Matrix

Test	问题	通过标准
Data contract test	关键字段是否有 owner、语义、SLA、权限和质量检查	高风险字段 100% 有批准 contract
Point-in-time test	训练数据是否使用了预测时不可得信息	无 critical leakage，例外有审批和隔离
Training-serving parity test	离线和线上特征转换是否一致	critical feature parity pass，差异有解释
CACE impact test	特征、标签、阈值或配置变化影响哪些对象	impact graph 覆盖模型、consumer、metric、report
Consumer contract test	下游消费者是否登记并通过 use case 审查	无高风险 undeclared consumer
Config reproducibility test	任一历史决策是否能恢复配置 bundle	model、feature、threshold、prompt、policy 可复现
Feedback loop test	模型动作是否影响标签和样本	有 intervention log 和 label maturity policy
Monitoring coverage test	是否覆盖 data、feature、score、decision、outcome、operations、customer harm	关键 use case 全部平面有 owner 和阈值
Release rollback test	新版本失败时能否回滚模型、配置和数据依赖	rollback runbook 通过演练
Evidence test	变更、审批、监控和处置是否可审计	evidence binder 完整且可追溯

7.2 Debt Metrics

Metric	含义	用法
Critical dependency count	高风险 use case 的关键依赖数量	评估复杂度和变更风险
Undeclared consumer count	未登记消费者数量	作为架构治理风险指标
Feature retirement ratio	已退休无用特征 / 候选无用特征	衡量 feature debt 偿还
Config drift count	环境间配置差异数量	衡量发布和回滚风险
Reproducibility pass rate	历史决策可复现比例	支持审计和客户争议
Monitoring plane coverage	监控平面覆盖率	衡量生产可控性
Alert-to-action time	告警到处置的时间	衡量运维响应能力
Debt aging	债务项未关闭时间	防止风险接受变成永久豁免
Consumer onboarding cycle time	新消费者通过审查周期	衡量契约化是否可用
High-impact manual override rate	高影响样本人工推翻比例	识别模型和流程债务

8. Decision Framework / 决策框架

8.1 Debt Priority Score

Debt priority =
  customer impact
  * regulatory sensitivity
  * coupling breadth
  * change frequency
  * observability gap
  * reversibility difficulty
  * evidence weakness

评分不是为了制造复杂仪式，而是让架构债务优先级不再只由声音最大的人决定。

因子	低	中	高
Customer impact	内部分析，无客户动作	员工辅助或低风险客户服务	影响资金、账户、信贷、投诉、调查、拒绝、限制
Regulatory sensitivity	无明确监管触点	有合规审查但非正式决策	fair lending、AML、KYC、UDAAP、privacy、model risk
Coupling breadth	单模型、单消费者	多模型或多渠道	多模型、多消费者、多产品线、多报表
Change frequency	低频稳定	月度或按活动变化	高频配置、实时数据、快速实验
Observability gap	指标完整	缺少部分结果或 segment	缺少 outcome、consumer、feedback 或 customer harm 监控
Reversibility difficulty	可快速回滚	需要协调多个团队	无法恢复历史状态或客户影响不可逆
Evidence weakness	证据集中完整	证据分散	无法证明当时配置、输入、输出和批准

8.2 Decision Options

决策	适用条件	要求
Pay down now	高客户影响、高耦合、低可观测、难回滚	阻断或限制发布，进入 remediation sprint
Contain	风险明确但短期无法完全修复	缩小范围、加监控、加人工复核、设置到期日
Accept temporarily	业务收益明确、风险可解释、可监控、可回滚	residual risk memo、owner、expiry、review cadence
Refactor incrementally	债务影响迭代速度但未造成直接客户风险	放入 architecture runway，按依赖顺序偿还
Retire	功能、特征、模型或消费者已无战略价值	下线计划、消费者通知、数据保留和证据归档
Replace platform	债务来自不可控平台或 vendor，局部修补无效	build-buy-exit analysis、migration plan、parallel run

8.3 Trade-off Questions

问题	高级判断
这笔债会不会让系统行为无法解释	如果影响客户或监管证据，优先级上调
这笔债是否扩大 CACE 半径	如果一处变化影响多系统，需要 impact graph
债务是否在决策阈值附近放大	阈值附近样本优先偿还，因为业务动作最敏感
是否存在 undeclared consumers	先登记和限制消费，再做技术重构
是否能通过监控和人工复核临时控制	可以 contain，但必须有到期日
是否只是“代码不好看”	如果没有客户、风险、运维或演进影响，优先级较低
偿还债务是否会改变模型表现	需要 challenger、shadow、replay 和 rollback

9. Release Gates / 上线门禁

9.1 Gate 总览

Gate	通过标准	Block 条件
Use case boundary	明确 AI 输出是建议、排序、解释、草稿、自动动作还是客户沟通	用途不清或输出被多场景混用
System boundary	模型、数据、产品、平台、运营、治理边界清楚	决策政策写死在模型或数据 pipeline 中
Data contract	关键数据有 owner、语义、SLA、权限、质量和变更流程	critical field 无 owner、无语义或 point-in-time fail
Feature governance	特征有定义、lineage、线上可用性、解释和退休计划	critical feature 线上不可服务或未监控
CACE impact	特征、标签、配置、模型变更有 impact analysis	影响消费者或客户动作但未评估
Consumer governance	下游消费者登记，allowed use 明确	存在高风险 undeclared consumer
Feedback loop	模型动作和标签关系被记录和隔离	自动动作污染标签且无 intervention log
Config governance	阈值、prompt、retriever、routing policy、monitoring threshold 版本化	生产配置无法复现或无审批
Evaluation coverage	离线指标、segment、stress、golden cases、customer harm 测试完成	eval set 不覆盖高风险路径
Monitoring readiness	data、feature、score、decision、outcome、operations、customer harm 指标上线	只监控 uptime 或缺少 owner
Rollback readiness	模型、配置、阈值、prompt、retriever、consumer contract 可回滚	无法恢复上一稳定状态
Evidence binder	审批、验证、监控、风险接受、变更记录完整	关键证据不可追溯

9.2 Release Decision Levels

决策	条件	控制
Approve full release	所有高风险门禁通过，残余风险低	常规监控和周期复核
Approve limited pilot	核心控制通过，但样本、segment 或运营容量仍需观察	限流、限定渠道、强监控、人工复核
Approve with conditions	存在可控债务，业务需要上线	到期日、owner、额外监控、风险接受
Delay release	债务影响客户、合规、模型复现或回滚	修复后重新评审
Block release	存在高影响且不可观测、不可回滚、不可解释风险	管理层不能用口头接受绕过核心门禁

9.3 Change Classes

Change class	示例	要求
Data semantic change	income、employment、merchant category、policy source 定义变化	data owner approval、backtest、consumer notice
Feature change	新增、删除、重算、窗口调整	feature impact graph、training-serving parity、segment validation
Model change	重训、算法、embedding、vendor model 变化	model validation、challenger comparison、shadow / replay
Policy change	阈值、routing、manual review、fallback 改变	business impact、operations capacity、customer harm review
Config change	prompt、retriever、source filter、monitor threshold 改变	config diff、risk-tiered eval、rollback
Consumer change	新下游系统或新用途	consumer onboarding、use restriction、monitoring
Monitoring change	告警阈值、指标、owner 改变	independent review、evidence update

10. Debt Register Template / 债务登记模板

10.1 Debt Register

字段	填写要求
Debt ID	唯一编号
Use case	业务场景、渠道、客户可见性
Debt type	CACE、feedback loop、consumer、data、config、feature、monitoring、boundary、evaluation、governance
Description	具体债务和触发条件
Affected assets	数据、特征、模型、配置、API、报表、队列、客户触点
Affected consumers	声明和未声明消费者
Customer impact	资金、账户、信贷、服务、投诉、调查、隐私、客户体验
Regulatory and model risk impact	fair lending、AML、KYC、UDAAP、privacy、model validation、audit
Coupling analysis	依赖范围、CACE 半径、变更频率
Observability gap	缺失的监控、标签、日志或证据
Current controls	已有门禁、监控、人工复核、回滚
Proposed action	pay down、contain、accept temporarily、refactor、retire、replace
Owner	accountable owner 和执行 owner
Due date	偿还或复核日期
Risk acceptance	接受人、理由、期限、复核节奏
Closure evidence	测试结果、监控截图、审批、回归验证、消费者通知

10.2 Debt Item Memo

Debt ID:
Use case:
Risk tier:

Debt statement:
  what is the debt:
  why it exists:
  where it appears:

Impact:
  customer:
  financial:
  regulatory:
  operations:
  architecture:

Dependency and CACE:
  upstream data:
  features:
  models:
  configs:
  consumers:
  metrics:

Control decision:
  action:
  owner:
  due date:
  monitoring:
  rollback:
  residual risk:

Evidence:
  tests:
  approvals:
  logs:
  validation:
  closure criteria:

10.3 Consumer Contract

字段	填写要求
Consumer system	系统名称和 owner
Business use	使用模型输出的业务目的
Decision action	排序、建议、自动动作、报表、解释、审计、实验
Allowed outputs	score、class、reason、confidence、metadata、timestamp
Prohibited uses	不允许的客户动作、监管用途、二次训练、外部共享
Data retention	保存期限、访问权限、脱敏要求
SLA	availability、latency、freshness、support
Change notice	schema、语义、模型、阈值、deprecation 通知规则
Monitoring	消费者侧指标、异常反馈、incident owner
Approval	Product、Model Owner、Data Owner、Compliance、Model Risk

10.4 Configuration Change Memo

Config change:
  object:
  old value:
  new value:
  environment:
  release version:

Reason:
  business driver:
  model driver:
  operations driver:

Impact assessment:
  affected segments:
  expected score or decision movement:
  operations capacity:
  customer impact:
  compliance or model risk impact:

Validation:
  replay result:
  shadow result:
  risk-tiered eval:
  rollback condition:

Approval:
  product:
  model owner:
  operations:
  model risk:
  compliance:

10.5 Boundary Review Sheet

问题	判断
模型是否只输出预测、排序、生成或置信信息
最终业务动作是否由 policy engine 或明确流程决定
数据 pipeline 是否只做数据产品职责，而不是业务决策
产品配置是否有审批、版本和回滚
人工 override 是否和训练标签分离
下游消费者是否只使用契约化输出
客户解释是否来自批准 taxonomy
审计能否复现任一历史决策

11. 30-Day Training Plan / 30 天训练计划

目标：30 天内把 ML technical debt 从论文概念训练成可展示的金融零售 AI 产品和架构资产。训练默认读者已具备 CBAP、高级需求治理、流程分析、利益相关方管理、金融零售业务理解和基本 AI 系统概念。

Day	主题	产出
1	阅读 Hidden Technical Debt in ML Systems，提炼 CACE、entanglement、feedback loops、undeclared consumers	1 页 source anchor note
2	阅读 Google Production ML Systems，画出模型代码之外的生产组件	production ML system map
3	选择一个金融零售 AI use case，定义客户影响和 risk tier	use case boundary memo
4	画 AI system boundary，区分 model、data、product、platform、operations	boundary map
5	梳理数据依赖，标注 owner、语义、freshness、权限和 point-in-time 风险	data dependency register
6	设计 data contract for credit 或 fraud	data contract sheet
7	梳理特征清单，按可服务性、解释性、复用、退休价值分类	feature debt audit
8	做 CACE impact graph，连接 data、feature、model、threshold、consumer、metric	impact graph
9	设计 training-serving parity gate	parity gate checklist
10	分析 hidden feedback loop，设计 intervention logging	feedback loop memo
11	Fraud case drill：decline 样本无标签	counterfactual and label maturity plan
12	Credit case drill：reject inference 和 reason code	credit debt control memo
13	AML case drill：analyst disposition 标签混乱	human workflow label taxonomy
14	KYC case drill：vendor OCR 字段语义变化	vendor dependency control
15	RAG case drill：prompt、retriever、source config 分散	config bundle design
16	建 consumer registry，识别未声明消费者	consumer registry table
17	写 consumer contract 和 prohibited-use policy	consumer contract pack
18	设计 config registry，覆盖阈值、prompt、retriever、routing	config governance spec
19	设计 monitoring plane，覆盖 data、feature、score、decision、outcome、operations、customer harm	monitoring architecture
20	设计 debt metrics 和 dashboard	debt monitoring dashboard spec
21	阅读 ML Test Score，转成自己的 release checklist	ML debt test checklist
22	设计 release gates 和 change classes	release gate memo
23	阅读 NIST AI RMF，映射 Govern / Map / Measure / Manage	governance mapping
24	建 debt register template，填写 5 个真实债务项	debt register sample
25	设计 issue management 和 risk acceptance 流程	debt issue workflow
26	做 architecture review tabletop：一个特征语义变化如何传播	tabletop script
27	做 incident simulation：配置变更导致 false decline 上升	incident response record
28	准备 executive memo，说明为何技术债投资降低客户和模型风险	investment case memo
29	准备 STAR-T 面试答案	interview answer pack
30	完成 portfolio package	architecture diagram、debt register、release gate、case study、evidence binder

12. Interview Answers / 面试答案

12.1 ML technical debt 和传统软件技术债有什么不同？

30 秒回答：

传统软件债主要来自代码、依赖和测试不足；ML 技术债还来自数据、标签、特征、配置、反馈回路、消费者和外部世界变化。它更隐蔽，因为系统行为可能在代码没有变化时已经改变。

2 分钟展开：

在金融零售里，ML 系统不是一个模型文件，而是数据合同、特征管道、训练窗口、阈值策略、人工复核、下游消费者和监控证据的组合。比如 credit 模型代码没变，但 income 字段语义变了，PD calibration 就可能失效；fraud 模型代码没变，但拦截策略改变了标签观测，训练数据就被污染。我的做法是把技术债作为架构治理对象：建立 dependency graph、consumer registry、config registry、release gate、monitoring plane 和 debt register。

12.2 什么是 CACE，为什么它对企业 AI 架构重要？

30 秒回答：

CACE 是 Change Anything Changes Everything，意思是 ML 系统中一个数据、特征、标签、阈值或消费者变化都可能改变整体行为。它要求我们做 impact graph、replay test 和契约化边界。

2 分钟展开：

在普通软件中，一个函数变化通常能通过接口和单元测试限制影响。ML 系统里，一个字段清洗逻辑改变可能让多个特征、模型分数、决策阈值、人工队列和报表同时变化。金融零售尤其敏感，因为这种变化可能影响拒绝、拦截、调查、客户解释和投诉。我的架构做法是：关键数据和特征必须有 contract；模型和配置变更必须做 CACE impact analysis；上线前用 replay 或 shadow 验证 score、decision 和 segment impact；下游消费者必须登记 allowed use。

12.3 Hidden feedback loop 怎么识别和控制？

30 秒回答：

看模型动作是否改变了未来训练数据或标签。如果 fraud 拦截、credit 拒绝、collections 触达、RAG 回答会影响后续结果，就必须记录 intervention、保留抽样复核，并区分 proxy label 和最终标签。

2 分钟展开：

Fraud 被拦截的交易通常没有自然结果，credit 被拒客户没有还款表现，collections 被触达客户的还款不能直接当作自然行为。若不处理，模型会在被自己改变过的数据上训练和评估。控制上我会要求 prediction and decision log 记录 action、threshold、policy version 和 channel；对低风险范围保留随机抽样或人工复核；标签服务标注 label maturity；运营 override、客户申诉和专家 QA 分开作为不同标签来源。这样可以避免把业务干预误当成真实世界。

12.4 Undeclared consumers 为什么危险？

30 秒回答：

未声明消费者会让模型输出被用于未经验证的新用途，导致变更影响不可评估。金融场景中，一个内部 score 可能被报表、人工队列或客户解释偷偷复用，模型升级后就会出现断裂。

2 分钟展开：

我见到的风险不是模型 API 正式用户，而是直接读表、读日志、读中间字段的系统。比如 AML case tool 读取中间 risk reason，credit dashboard 把 underwriting score 用于 limit increase，contact center 把 RAG 日志用于培训。解决方式是 consumer registry 和 contract：声明用途、允许字段、禁止用途、SLA、变更通知、保留期限和审批。高风险输出只通过受控 API 或 data product 提供，内部表不作为产品接口。

12.5 如何治理 configuration debt？

30 秒回答：

把阈值、模型版本、prompt、retriever、routing policy、feature toggle 和 monitoring threshold 都当成生产配置资产，要求版本、审批、diff、环境一致性、回滚和审计证据。

2 分钟展开：

ML 系统行为经常由配置改变，而不是代码改变。Fraud 阈值、RAG source priority、credit manual review cutoff、prompt refusal policy 都可能直接影响客户动作。我的治理方式是 config registry 加 release bundle：每次发布记录模型、特征、阈值、prompt、retriever、policy 和监控阈值；高风险配置变更要有 impact assessment、replay、operations capacity review 和 rollback condition。这样审计时能复现某个客户当时为什么被拒、被拦截或被升级人工。

12.6 Feature debt 怎么判断不是“模型团队内部问题”？

30 秒回答：

如果特征影响客户动作、解释、公平性、线上服务、数据权限或多个消费者，它就不是模型团队内部问题，而是产品和架构问题。

2 分钟展开：

特征债会影响模型稳定性、reason code、training-serving parity、fairness proxy 和运营可解释性。例如一个离线很好用的 network feature 在线上延迟过高，可能让实时 fraud 决策失效；一个与受保护属性高度相关的 proxy feature，可能触发公平性审查；一个没人拥有的 KYC 字段语义变化，会让模型漂移。我的做法是建立 feature registry，记录业务定义、owner、lineage、线上可用性、监控、解释用途和退休策略。高影响特征进入 release gate，而不是只看离线重要性。

12.7 Monitoring debt 的最低可接受标准是什么？

30 秒回答：

最低标准不是 uptime，而是覆盖 data health、feature drift、score drift、decision behavior、outcome、operations、customer harm 和 segment。每个指标要有 owner、阈值、响应动作和证据记录。

2 分钟展开：

金融零售 AI 的故障常常不是服务挂了，而是数据语义变了、阈值附近客户被误伤、某个 segment calibration 失效、人工队列超载或 RAG 引用了过期政策。因此生产监控要把技术指标和业务结果连接起来。Fraud 看 false decline、chargeback、step-up、appeal；credit 看 PD calibration、approval rate、reason code distribution；AML 看 alert quality、case aging、analyst override；RAG 看 answerability、citation support、complaint-triggered QA。监控还要连接 issue management，否则只是仪表盘。

12.8 如何处理模型、数据、产品、平台的边界侵蚀？

30 秒回答：

先画边界，再把接口契约化。模型输出预测，产品定义业务动作，数据团队负责语义和质量，平台负责可复现和部署，运营负责人工流程，治理团队负责风险和证据。

2 分钟展开：

边界侵蚀常见于训练脚本写死业务政策、数据管道编码产品规则、产品经理直接改 prompt routing、平台默认配置改变阈值、运营 override 被当作 ground truth。我的解决方式是 boundary map 和 RACI：decision policy 从模型中抽出，data contract 从 pipeline 中抽出，config registry 管理阈值和 prompt，label governance 区分业务标签和运营动作，consumer contract 限制下游用途。这样每个团队仍能快速迭代，但不会互相制造不可见债务。

12.9 如何把 ML 技术债放进 release gate？

30 秒回答：

我会把技术债门禁化：data contract、feature parity、CACE impact、consumer contract、feedback loop、config reproducibility、monitoring readiness、rollback 和 evidence binder 都要过关，尤其是高客户影响场景。

2 分钟展开：

模型上线不能只看 AUC 或 demo 效果。我的 release gate 分三层：第一是系统边界和 use case 风险，确认模型输出会触发什么动作；第二是工程和架构门禁，包括数据、特征、配置、消费者、反馈回路和可复现；第三是治理证据，包括模型验证、segment impact、监控、回滚和 residual risk。对于可控债务可以 limited pilot 或 approve with conditions，但必须写入 debt register，有 owner、到期日和监控。不可观测、不可回滚、影响客户权益的债务应阻断上线。

12.10 作为 AI PM / Architect，你如何讲一个技术债作品集案例？

30 秒回答：

我会选择一个金融零售 AI 系统，展示从债务识别到架构控制：dependency graph、consumer registry、config registry、release gates、monitoring plane、debt register 和 incident simulation。

2 分钟展开：

比如 real-time fraud 系统：先说明客户影响和风险，再展示模型不是孤立组件，而是交易数据、设备 vendor、特征服务、阈值策略、step-up 流程、人工队列和 chargeback 标签的系统。然后指出债务：vendor 字段语义不稳定、decline 样本标签缺失、阈值配置不可审计、商户 dashboard 偷用内部 bucket。最后给出架构方案：data contract、intervention logging、config registry、consumer contract、multi-plane monitoring、release gate 和 evidence binder。这个作品集能体现我不是只会写需求，而是能把 AI 系统演进风险转成企业架构控制。

13. Portfolio Package / 作品集包

如果把本文转成作品集，可以做一个金融零售企业 AI 技术债架构包：

Case: Real-time fraud AI technical debt modernization

Problem:
  银行实时卡交易 fraud 系统快速迭代多年，
  模型、设备数据、阈值、人工复核、商户报表和 chargeback 标签高度耦合。

Debt:
  - device vendor 字段语义变化没有 data contract。
  - fraud threshold 热更新缺少审批和回滚证据。
  - decline / step-up 动作造成 hidden feedback loop。
  - merchant dashboard 和 operations report 是 undeclared consumers。
  - monitoring 只覆盖服务可用性和总 fraud loss，缺少 segment false decline。

Design:
  - AI system boundary map
  - data contract registry for transaction, device, merchant, customer profile
  - feature registry and online-offline parity gate
  - config registry for model, threshold, routing policy and monitoring threshold
  - consumer registry and allowed-use contract
  - intervention-aware prediction and decision log
  - Debt-to-Control release gate
  - monitoring plane for data, feature, score, decision, outcome, operations and customer harm
  - debt register with owner, due date and residual risk acceptance

Evidence:
  - CACE impact graph for device feature semantic change
  - threshold change memo with false decline, loss and queue capacity impact
  - hidden feedback loop mitigation plan
  - consumer contract for merchant dashboard
  - monitoring dashboard specification
  - incident simulation and rollback runbook
  - evidence binder mapped to NIST AI RMF Govern / Map / Measure / Manage

Outcome:
  Fraud team can release challenger models and policy changes faster,
  while product, operations, model risk and compliance can see who consumes outputs,
  how customer impact is monitored,
  which debt is accepted temporarily,
  and how the system can be reproduced during audit or customer dispute review.

作品集目录建议：

Artifact	内容
Executive memo	为什么 ML 技术债是客户风险、模型风险和迭代速度问题
Architecture diagram	Debt-to-Control 架构、boundary map、dependency graph
Debt register sample	5 到 8 个高质量债务项，包含 owner、影响、控制和偿还计划
Release gate	data、feature、CACE、consumer、feedback、config、monitoring、rollback、evidence
Consumer contract	模型输出 allowed use 和 prohibited use
Monitoring spec	data、feature、score、decision、outcome、operations、customer harm、segment
Incident simulation	配置变更导致 false decline 上升的 tabletop exercise
Interview story	STAR-T：Situation、Task、Action、Result、Trade-off

面试中的高级表达：

我把 ML technical debt 当成企业 AI 架构的风险控制面，而不是工程团队的清理清单。真正的问题是：系统中哪些隐性耦合会把小变更放大成客户影响、模型风险或审计断裂；哪些债务必须在 release gate 前偿还；哪些可以被监控、限制和临时接受；以及如何用证据证明这个判断持续有效。