AI ML Technical Debt Architecture Playbook
以下来源是本文的技术和治理锚点。本文把它们转成产品、架构、债务治理、上线门禁和审计证据要求,不把任何论文、课程或框架直接等同于监管合规结论。
AI ML Technical Debt Architecture Playbook
定位:面向高级 AI PM / AI BA / AI Architect / Model Risk / 金融零售产品与架构团队,把 ML technical debt、CACE、entanglement、data dependency、configuration debt、feature debt、monitoring debt 和 consumer governance 组合成可上线、可演进、可审计的企业 AI 架构控制系统。
适用边界:本文面向 credit、fraud、AML、KYC、collections、customer servicing RAG、call-center intent classification、marketing propensity、risk operations、AI copilot 和 enterprise decision platform。它不把技术债当成工程团队的 backlog,而是把它转成架构边界、产品决策、上线门禁、运行监控、模型风险证据和投资优先级。
重要说明:本文是学习、作品集和内部方案训练材料,不构成法律意见、合规结论、模型验证报告、监管解释或具体机构的模型风险政策。正式项目必须由 Legal、Compliance、Model Risk、Fair Lending、Privacy、Security、Data Governance、Business Owner、Operations、Customer Experience、Enterprise Architecture 和管理层结合机构类型、司法辖区、业务用途、客户影响和内部政策确认。
Source Anchors
以下来源是本文的技术和治理锚点。本文把它们转成产品、架构、债务治理、上线门禁和审计证据要求,不把任何论文、课程或框架直接等同于监管合规结论。
| Anchor | Link | 本文使用方式 |
|---|---|---|
| Sculley et al., Hidden Technical Debt in Machine Learning Systems | https://papers.nips.cc/paper_files/paper/2015/hash/86df7dcfd896fcaf2674f757a2463eba-Abstract.html | 建立 ML 技术债主线:边界侵蚀、entanglement、hidden feedback loops、undeclared consumers、data dependencies、configuration issues、外部世界变化和系统级反模式。 |
| Google Machine Learning Crash Course, Production ML Systems | https://developers.google.com/machine-learning/crash-course/production-ml-systems | 作为生产 ML 系统锚点:模型代码只是系统中的一小部分,生产系统还包括 data collection、verification、feature extraction、configuration、serving、monitoring 和 process management。 |
| Google Research, The ML Test Score | https://research.google/pubs/the-ml-test-score-a-rubric-for-ml-production-readiness-and-technical-debt-reduction/ | 作为技术债偿还的测试锚点:用具体测试、监控和 production readiness rubric 把债务从主观感受转成可评分、可追踪的工程控制。 |
| Google, Rules of Machine Learning | https://developers.google.com/machine-learning/guides/rules-of-ml | 用于工程实践判断:先保证 pipeline、metrics、training-serving parity 和简单可控的系统,再引入复杂模型和特征。 |
| NIST AI Risk Management Framework | https://www.nist.gov/itl/ai-risk-management-framework | 用 Govern / Map / Measure / Manage 组织 AI 技术债治理,把架构债务、客户影响、系统边界、监控、issue management 和 residual risk 接入企业 AI 风险管理。 |
1. One-Sentence Positioning / 一句话定位
ML technical debt architecture 的核心不是“模型团队以后再清理代码”,而是:
Debt-to-Control =
识别 ML 系统中会被数据、特征、模型、配置、消费者、反馈回路和业务流程放大的隐性耦合,
把这些耦合转成架构边界、契约、门禁、监控、owner、偿还计划和风险接受证据。
在金融零售里,ML 技术债不是低优先级内务。它会直接影响客户权益、资金风险、运营队列、模型验证、监管解释和产品迭代速度。
| 高级问题 | 架构师必须给出的答案 |
|---|---|
| 改一个特征会影响哪些模型、规则、报表、人工队列和客户触点 | 有 feature lineage、consumer registry、impact analysis 和 replay test |
| 模型输出被哪些系统消费 | 有 declared consumer contract、SLA、字段语义、版本策略和 deprecation plan |
| 生产标签是否被模型动作污染 | 有 feedback loop analysis、counterfactual logging、intervention tracking 和 delayed outcome plan |
| 配置是否可审计 | 有 config registry、approval、environment parity、rollback 和 change diff |
| 监控是否覆盖真实风险 | 有 data、feature、score、decision、outcome、operations、customer harm 和 segment 监控 |
| 模型、数据、产品、平台边界是否清楚 | 有 ownership map、release gate、interface contract 和 escalation path |
高级 AI PM / Architect 的目标不是把所有债务一次性消灭,而是知道:
- 哪些债务会导致不可控客户影响或模型风险。
- 哪些债务只是局部效率问题,可以计划偿还。
- 哪些债务是战略性临时取舍,需要明确到期日、owner 和 residual risk。
2. 为什么重要
2.1 ML 技术债比传统软件债更隐蔽
传统软件债常见于代码结构、依赖版本、测试不足和部署脚本。ML 技术债更难处理,因为行为由代码、数据、标签、特征、训练窗口、配置、阈值、消费者、人工流程和外部世界共同决定。
Software change
-> code diff
-> test result
-> deploy
ML system change
-> data distribution shift
-> feature semantics shift
-> model score movement
-> threshold operating point movement
-> downstream consumer behavior change
-> customer impact and feedback loop
金融零售中的典型危险是:系统看起来没有代码变更,但业务行为已经变了。
| 表面现象 | 隐性债务 | 后果 |
|---|---|---|
| Fraud 模型 AUC 仍然达标 | 某商户 segment 的 high-confidence error 上升 | 误拦截、投诉、人工队列超载 |
| Credit 审批率稳定 | 新渠道 income 字段语义改变 | PD calibration 失效,风险定价偏离 |
| AML alert volume 可控 | 下游调查工具依赖未登记模型字段 | 字段重命名造成调查证据断裂 |
| RAG 客服回答流畅 | 知识源版本、检索配置和引用门禁不可追溯 | 客户被过期政策误导 |
| 模型上线频率提高 | 配置、阈值和特征开关没有统一 registry | 回滚困难,审计无法复现 |
2.2 快速上线的收益会转化成长期维护成本
ML 项目早期容易出现“短期有效”的工程模式:
| 快速做法 | 初期收益 | 后期债务 |
|---|---|---|
| 直接复用历史数据表 | 快速出训练集 | 字段语义、权限、时点正确性和 owner 不清 |
| 添加大量交叉特征 | 离线指标提升 | CACE 和 entanglement 增强,调试困难 |
| 让下游报表直接读模型输出表 | 集成快 | undeclared consumer 增加,变更无法评估 |
| 复制旧 pipeline | 开发快 | inherited data drop、错误清洗逻辑和旧业务假设被带入新系统 |
| 用配置文件管理阈值 | 灵活 | 无审批、无环境一致性、无变更证据 |
| 只监控服务可用性 | 成本低 | data drift、score drift、customer harm 和 segment failure 被遗漏 |
这些取舍不是绝对错误。高级团队的问题是:是否知道自己借了哪种债、利息是什么、什么时候还、谁接受风险。
2.3 企业 AI 的失败常来自边界失控
ML 技术债的核心架构问题是边界被侵蚀:
Model boundary expands into data cleaning
Data pipeline encodes product policy
Product experiment changes label definition
Platform config changes decision threshold
Operations override becomes training label
Downstream report consumes internal score field
当边界失控时,任何团队都不能单独解释系统行为。金融零售 AI 必须把模型、数据、产品、平台、运营和治理边界显式化。
3. Architecture Debt Taxonomy / 架构债务分类
3.1 总览
| Debt 类型 | 核心问题 | 金融零售示例 | 架构控制 |
|---|---|---|---|
| CACE and entanglement debt | 改一个变量会影响多个模型、特征、阈值和消费者 | Credit 中 DTI 定义改变,同时影响 underwriting、pricing、limit increase 和 collections | feature lineage、impact graph、replay test、contracted feature semantics |
| Hidden feedback loop debt | 模型动作改变未来训练数据和标签 | Fraud 拦截导致无法观察被拦截交易是否真实欺诈 | counterfactual logging、intervention flag、random review sample、delayed label policy |
| Undeclared consumer debt | 下游系统偷用未承诺字段、分数或中间表 | AML case tool 读取模型中间 risk reason,模型升级后调查页面失效 | consumer registry、API contract、deprecation policy、schema ownership |
| Data dependency debt | 模型依赖脆弱、低质量、无 owner 或语义变化的数据 | KYC OCR 字段来自 vendor,置信度、语言和文档类型语义变更未通知 | data contract、freshness SLA、semantic versioning、quality gates |
| Configuration debt | 阈值、特征开关、模型版本、prompt 和 routing policy 分散且不可审计 | Fraud 阈值在不同环境不一致,回滚后仍使用新阈值 | config registry、approval workflow、diff review、environment parity |
| Feature debt | 特征过多、重复、相关、不可解释或难以服务 | AML network feature 离线可算,线上不能准实时更新 | feature store governance、feature owner、usage audit、retirement plan |
| Monitoring debt | 只监控 uptime,不监控数据、分数、决策、客户影响和 segment | Credit 模型服务正常,但新客群 calibration 恶化 | multi-plane monitoring、alert triage、segment dashboard、issue management |
| Evaluation debt | 离线指标和生产业务风险脱节 | RAG QA set 只覆盖 FAQ,不覆盖投诉、费用争议和信贷边界 | eval set ownership、risk-tiered tests、golden cases、red-team cases |
| Boundary erosion debt | 模型、数据、产品、平台、运营职责互相侵入 | 产品经理直接改 prompt routing,平台以为只是内容变更 | RACI、architecture decision record、change class、release gate |
| Glue code and pipeline debt | 用临时脚本、复制 pipeline 和手工步骤连接系统 | Collections 模型训练依赖分析师每月手工导出的 CSV | orchestrated pipeline、reproducible training、data product interface |
| Model version debt | 模型、特征、标签、阈值、训练窗口和评估报告无法复现 | 审计要求解释某日拒绝原因,但无法恢复当时模型包 | model registry、immutable artifact、prediction log、version bundle |
| Human workflow debt | 人工复核、override、QA 和投诉处理没有进入系统设计 | Analyst override 既作为标签又作为质量审核,含义混乱 | workflow taxonomy、override reason code、label governance |
| Vendor and platform debt | 外部模型、MLOps 平台或数据服务变更不可控 | 第三方 fraud signal 字段含义变化,导致规则和模型同时漂移 | vendor SLA、change notice、shadow monitoring、exit plan |
| Governance evidence debt | 有控制但无证据,或证据分散不可追溯 | 上线会议通过了风险接受,但没有模型、阈值、监控配置快照 | evidence binder、approval record、residual risk memo |
3.2 CACE: Change Anything Changes Everything
CACE 描述 ML 系统里“任何输入或组件变化都可能改变整体行为”的耦合风险。它不是一句口号,而是架构审查问题:
| CACE 触点 | 典型变化 | 必须评估的影响 |
|---|---|---|
| Feature value | 字段清洗、缺失填充、单位、时间窗口改变 | score distribution、threshold proximity、segment calibration |
| Label definition | fraud confirmed、chargeback、analyst disposition、default 定义改变 | training target、performance trend、regulatory reporting |
| Model architecture | 换模型、重训、embedding 更新 | ranking stability、reason code、latency、monitoring baseline |
| Policy threshold | 自动通过、step-up、人工复核阈值改变 | customer harm、operations capacity、fairness、complaint |
| Data source | vendor、core banking、CRM、knowledge source 替换 | data contract、permission、lineage、historical comparability |
| Consumer behavior | 下游系统开始使用新字段或分数 | API contract、rate limit、explanation boundary、support SLA |
CACE 的偿还方式不是禁止变化,而是让变化可分析、可回放、可分段验证、可回滚。
3.3 Entanglement
Entanglement 是模型和特征之间的强耦合。多个特征可能高度相关,多个模型可能共享同一上游字段,多个业务动作可能依赖同一 score bucket。
| Entanglement 形态 | 症状 | 控制 |
|---|---|---|
| Feature entanglement | 删除一个弱特征后多个强特征权重变化,线上表现不稳定 | feature ablation、correlation audit、SHAP stability、feature group ownership |
| Model entanglement | 同一客户同时进入 fraud、credit、marketing、collections 模型,动作冲突 | decision arbitration layer、customer-level policy、cross-model monitoring |
| Business entanglement | 一个模型分数同时用于排序、拒绝、定价、人工队列和报表 | use-specific score contract、separate decision policy、consumer registry |
| Time entanglement | 训练窗口、标签窗口、活动周期和宏观周期混在一起 | cohort validation、time-split evaluation、seasonality baseline |
金融零售架构要避免“一个万能风险分数”被无限复用。每一种用途都需要声明:是否允许用于自动决策、排序、解释、报表、触达、监管证据。
3.4 Hidden Feedback Loops
Hidden feedback loop 指模型输出改变了未来数据,而系统没有记录这种干预。
| 场景 | 隐藏回路 | 风险 |
|---|---|---|
| Fraud | 高风险交易被拦截,后续 confirmed fraud 标签缺失 | 模型以为高风险样本减少,recall 评估失真 |
| Credit | 被拒申请人不会进入还款表现样本 | PD 模型只看到已批准客户,拒绝区域风险不可见 |
| Collections | 自动催收改变客户还款行为 | 模型无法区分客户本来会还款还是被干预后还款 |
| Marketing | 推荐模型只观察被推荐产品的转化 | 模型不断强化既有偏好,遗漏新客群 |
| RAG | AI 回答影响客户后续提问和投诉 | 训练集把错误回答后的客户行为当成自然意图 |
控制原则:
| 控制 | 说明 |
|---|---|
| Intervention logging | 每个模型动作记录 action、threshold、policy version、channel、customer impact |
| Counterfactual sample | 对低风险可控范围保留随机复核或探索样本,估计未干预结果 |
| Human review sampling | 对自动处理样本做抽样 QA,防止标签只来自人工队列 |
| Label maturity policy | 标签必须标注成熟度,不把早期 proxy 当最终结果 |
| Feedback isolation | 运营 override、客户申诉、专家 QA 的标签含义分开管理 |
3.5 Undeclared Consumers
Undeclared consumer 是 ML 系统最常见的企业架构债:某个团队发现模型输出有用,于是直接读取表、日志、中间字段或 API,但没有声明用途。
| 未声明消费方式 | 后果 | 应对 |
|---|---|---|
| 读模型中间表 | 表结构变更造成下游中断 | 只开放契约化 serving output 和 curated data product |
| 读内部 reason code | reason code 语义变化造成客户解释不一致 | reason code registry、approved explanation taxonomy |
| 把 score 用于新场景 | 模型未经该 use case 验证 | consumer onboarding gate、use restriction、risk assessment |
| 把 batch score 当实时信号 | 时效性不满足业务动作 | freshness SLA、latency contract、staleness flag |
| 把 monitoring 指标用于绩效考核 | 指标被优化或规避 | metric governance、anti-gaming review |
Declared consumer contract 至少包含:
| 字段 | 要求 |
|---|---|
| Consumer name | 系统、团队、业务 owner |
| Use case | 排序、建议、自动动作、解释、报表、审计、实验 |
| Allowed fields | 可消费字段、语义、版本、时效 |
| Prohibited uses | 不允许的自动化动作、客户沟通或监管用途 |
| SLA | latency、freshness、availability、support |
| Change notice | 变更提前量、兼容期、回滚策略 |
| Evidence | 审批、风险评估、测试和监控要求 |
3.6 Data Dependencies
ML 系统对数据的依赖比传统系统更深,因为数据既是输入、训练材料、监控基线,也是治理证据。
| Data dependency 类型 | 示例 | 债务信号 |
|---|---|---|
| Unstable upstream | CRM 字段由销售运营手工维护 | null rate 和枚举值频繁变化 |
| Semantic drift | income_verified 从“人工验证”变成“自动推断” | 模型表现变化但 schema 不变 |
| External vendor dependency | 设备风险、地址标准化、OCR、身份验证服务 | vendor 版本和字段含义不可追溯 |
| Permission dependency | 某字段在特定渠道或地区不可使用 | 线上缺失率按 segment 激增 |
| Historical dependency | 训练依赖旧政策下产生的标签 | 新政策上线后标签不可比 |
| Point-in-time dependency | 训练用了事后可得字段 | 生产服务无法复现离线表现 |
架构控制:
Data dependency must have:
owner:
semantic definition:
allowed use:
freshness SLA:
point-in-time rule:
privacy and permission rule:
validation checks:
downstream consumers:
change approval:
backfill and rollback plan:
3.7 Configuration Debt
ML 生产系统的配置包括模型版本、训练窗口、特征列表、阈值、prompt、retriever 参数、embedding model、routing policy、实验开关、fallback 策略和监控阈值。配置债的危险是系统行为改变但代码 diff 很小,甚至没有代码 diff。
| 配置对象 | 债务表现 | 门禁要求 |
|---|---|---|
| Decision threshold | 人工改值,无审批、无影响评估 | threshold change memo、capacity impact、rollback condition |
| Feature toggle | 不同环境开关不一致 | environment parity check、release bundle |
| Model endpoint | shadow、pilot、production 指向混乱 | endpoint registry、traffic split log |
| Prompt and policy | 文案、规则、工具调用混在 prompt 中 | prompt versioning、risk-tiered eval、approval |
| Retriever config | top_k、filter、source priority 被临时调整 | retrieval eval、source freshness gate、change log |
| Monitoring threshold | 告警阈值跟随发布被弱化 | independent review、threshold governance |
配置必须像代码一样版本化,但还要比代码多一层业务审批,因为它经常直接改变客户动作。
3.8 Feature Debt
Feature debt 不是“特征很多”本身,而是特征无法解释、无法服务、无法监控、无法归属、无法退休。
| Feature debt 信号 | 金融零售风险 | 控制 |
|---|---|---|
| 重复和高度相关特征过多 | 模型解释不稳定,reason code 难以治理 | feature group review、stability analysis |
| 离线特征线上不可用 | training-serving skew | online-offline parity test |
| 特征 owner 不清 | 语义变化无人通知 | feature registry、data owner approval |
| 特征只服务一个过期实验 | 维护成本持续存在 | usage audit、feature retirement cadence |
| 高影响特征无法解释 | 模型验证和客户解释困难 | explainability review、reason code mapping |
| 特征和受保护属性代理高度相关 | fair lending / fairness 风险 | compliance review、proxy analysis、segment impact |
Feature debt 的高级治理不是让模型团队删特征,而是建立 feature product lifecycle:
propose -> approve -> implement -> validate -> serve -> monitor -> reuse -> retire
3.9 Monitoring Debt
Monitoring debt 是“系统坏了才知道”和“客户受损后才知道”的根因。
| 监控平面 | 必须监控的问题 | 示例指标 |
|---|---|---|
| Data health | 数据是否按语义、时效、权限到达 | freshness、null rate、range、cardinality、schema |
| Feature behavior | 特征是否漂移或不可用 | PSI、KS、embedding drift、online-offline diff |
| Model output | 分数和置信度是否移动 | score bucket、confidence distribution、threshold proximity |
| Decision behavior | 业务动作是否异常 | approve、decline、step-up、manual review、abstention |
| Outcome | 真实表现是否退化 | precision、recall、AUC、ECE、loss、appeal overturn |
| Operations | 人工队列是否被模型债务放大 | queue size、SLA、override、analyst disagreement |
| Customer harm | 客户是否受到错误影响 | complaint、false decline、wrong answer、remediation |
| Segment | 局部群体是否失效 | metrics by product、channel、region、language、tenure |
| Evidence | 是否能证明监控和响应发生过 | alert log、triage note、approval、closure record |
只监控 latency 和 error rate 的 ML 系统,在金融零售里不能称为生产可控系统。
4. Debt-to-Control 架构
4.1 总体架构
Business use case and risk tier
-> AI system boundary map
- model boundary
- data boundary
- product decision boundary
- platform boundary
- human operations boundary
-> Contract layer
- data contracts
- feature contracts
- model output contracts
- consumer contracts
- configuration contracts
-> Build and release layer
- reproducible pipeline
- model and feature registry
- evaluation and debt tests
- CACE impact analysis
- release gate and approval
-> Serving and decision layer
- model serving
- policy engine
- feature retrieval
- prompt / RAG orchestration
- decision logging
-> Monitoring and evidence layer
- data / feature / score / decision / outcome / operations monitoring
- alert triage
- debt register
- remediation workflow
- evidence binder
4.2 核心组件
| 组件 | 主要职责 | 金融零售落地 |
|---|---|---|
| AI System Boundary Map | 标明模型、数据、产品、平台、运营、治理的边界和接口 | 区分 underwriting score、decision policy、adverse action reason 和 human review |
| Data Contract Registry | 记录字段语义、owner、SLA、权限、质量和变更流程 | income、merchant category、device fingerprint、KYC status、policy document |
| Feature Registry | 管理特征定义、训练服务一致性、复用和退休 | credit bureau features、behavior features、network features、RAG retrieval features |
| Model Registry | 记录模型 artifact、训练窗口、标签定义、评估、批准状态 | fraud model v17、PD model challenger、AML triage ranker |
| Config Registry | 管理阈值、routing policy、prompt、retriever、fallback、monitoring threshold | 实时 fraud step-up threshold、RAG source priority |
| Consumer Registry | 声明下游系统和允许用途 | case management、CRM、dashboard、branch tool、call-center desktop |
| Impact Graph | 连接 data、feature、model、policy、consumer、metric | 改一个 merchant mapping 可看到受影响模型和报表 |
| Release Gate Engine | 把测试、验证、审批和风险接受纳入发布流程 | 高风险 AI use case 不允许绕过 Model Risk 和 Compliance |
| Prediction and Decision Log | 保存输入、输出、版本、阈值、动作和上下文 | 支持客户争议、模型复现、根因分析 |
| Monitoring Plane | 监控数据、特征、分数、决策、结果、运营和客户影响 | fraud false decline、credit calibration、AML queue |
| Debt Register | 记录债务项、影响、owner、偿还计划和接受人 | 技术债从口头讨论变成治理对象 |
| Evidence Binder | 汇总上线、变更、监控、事件和残余风险证据 | 支持审计、监管问询、模型验证和管理层 review |
4.3 架构视图
| 视图 | 回答的问题 | 必须产出 |
|---|---|---|
| Dependency view | 哪些数据、特征、配置、模型和消费者互相依赖 | dependency graph、owner、criticality |
| Decision view | 模型输出如何变成客户或员工动作 | decision policy、threshold、fallback、human escalation |
| Feedback view | 哪些动作会污染未来标签或样本 | intervention log、counterfactual strategy、label maturity |
| Consumer view | 谁在使用模型输出,用于什么目的 | consumer contract、allowed use、change notice |
| Monitoring view | 如何发现债务变成事故 | metrics、threshold、severity、owner、SLA |
| Evidence view | 如何证明系统受控 | release memo、approval、validation、incident record |
5. 边界侵蚀和 Ownership Model
5.1 边界定义
| 边界 | 应该负责 | 不应该偷偷负责 |
|---|---|---|
| Model boundary | 预测、排序、生成、分类、置信度、模型 artifact | 最终业务政策、客户承诺、监管解释 |
| Data boundary | 数据语义、质量、权限、lineage、freshness | 用模型指标倒推修改业务定义 |
| Product boundary | use case、客户体验、动作策略、业务阈值、人工路径 | 未经验证直接改模型特征或标签定义 |
| Platform boundary | 训练、部署、监控、注册、权限、可复现基础设施 | 擅自改变高风险决策阈值 |
| Operations boundary | 人工复核、override、QA、申诉、补救 | 把运营动作混同为真实标签 |
| Governance boundary | 风险分级、审批、模型验证、审计证据、残余风险接受 | 替产品或模型 owner 做技术实现决策 |
5.2 RACI
| 决策 | Product | Model Owner | Data Owner | ML Platform | Model Risk | Compliance | Operations |
|---|---|---|---|---|---|---|---|
| Use case boundary | A | C | C | C | C | C | C |
| Label definition | C | A | C | C | C | C | C |
| Data contract | C | C | A | C | C | C | I |
| Feature approval | C | A | C | C | C | C | I |
| Decision threshold | A | C | I | C | C | C | C |
| Model release | C | A | C | R | C | C | I |
| Monitoring thresholds | C | A | C | R | C | C | C |
| Customer-facing explanation | A | C | I | I | C | C | C |
| Incident response | A | R | R | R | C | C | R |
| Residual risk acceptance | A | C | C | C | C | C | C |
说明:
| 标记 | 含义 |
|---|---|
| A | Accountable,最终负责 |
| R | Responsible,执行负责 |
| C | Consulted,必须咨询 |
| I | Informed,必须通知 |
5.3 Boundary Erosion Red Flags
| Red flag | 含义 | 处置 |
|---|---|---|
| 模型训练脚本里写死业务政策 | 模型边界侵入产品决策 | 抽出 policy engine,版本化阈值和规则 |
| 数据 pipeline 中写入客户体验判断 | 数据边界侵入产品边界 | 建立 data product 和 decision policy 分层 |
| 产品实验直接改变标签生成 | 产品边界侵入模型验证 | label governance review,实验干预记录 |
| 平台团队用默认配置改变业务动作 | 平台边界侵入 risk appetite | config approval gate,环境差异审查 |
| 运营 override 被自动当作 ground truth | 人工流程边界侵入标签边界 | override taxonomy,QA 标签和业务标签分离 |
| 下游系统读取内部表 | 消费者边界绕过契约 | consumer registry,内部表访问下线 |
6. Financial Retail Examples / 金融零售示例
6.1 场景总览
| 场景 | 主要债务 | 业务风险 | 架构控制 |
|---|---|---|---|
| Credit underwriting | CACE、data dependency、feedback loop、explanation debt | 风险定价失真、fair lending 风险、拒绝原因不可复现 | point-in-time data、reject inference policy、reason code registry、calibration monitoring |
| Real-time card fraud | feedback loop、feature debt、configuration debt、monitoring debt | 误拦截、漏拦截、客户投诉、损失扩大 | intervention logging、step-up outcome tracking、threshold governance、segment monitor |
| AML alert triage | undeclared consumers、human workflow debt、evaluation debt | 调查资源错配、重大风险漏报、证据链断裂 | case tool contract、analyst disposition taxonomy、typology eval set |
| KYC onboarding | data dependency、vendor debt、boundary erosion | 客户开户失败、身份验证偏差、审计解释不足 | vendor SLA、document taxonomy、OCR confidence gate、manual review |
| Customer servicing RAG | configuration debt、monitoring debt、knowledge dependency | 过期政策回答、客户误导、投诉升级 | source authority registry、retrieval eval、answerability gate、human escalation |
| Collections strategy | hidden feedback loop、model entanglement、operations debt | 过度催收、客户保护风险、回收率误判 | intervention-aware labels、treatment policy logging、customer vulnerability flag |
| Marketing propensity | undeclared consumer、fairness proxy、feedback loop | 不公平触达、产品适配错误、长期用户体验下降 | allowed-use contract、frequency cap、holdout group、segment impact review |
6.2 Credit Underwriting Case
Case:
个人贷款 underwriting 模型使用 income、employment、credit bureau、banking behavior 和 channel features。
Debt:
- income_verified 字段语义从人工验证改成自动推断,但 schema 未变。
- underwriting score 被 limit increase 和 collections 早期预警系统复用。
- 拒绝客户没有后续表现标签,反馈回路未建模。
- reason code 由模型解释临时生成,未纳入合规批准 taxonomy。
Risk:
PD calibration 失效,阈值附近客户受到错误动作;
下游系统受到未评估影响;
客户拒绝原因和模型复现证据不足。
Control:
- data contract 要求 semantic version 和 owner approval。
- consumer registry 区分 underwriting、limit、collections 三种用途。
- reject inference 和 sample review 作为模型验证输入。
- reason code registry 与 decision policy 分离。
- release gate 要求 segment calibration、fairness proxy review 和 rollback plan。
6.3 Real-Time Fraud Case
Case:
卡交易 fraud 模型输出 fraud probability,policy engine 决定 approve、step-up、decline 或 manual review。
Debt:
- device fingerprint vendor 更新字段,模型 owner 未收到变更通知。
- fraud threshold 通过配置热更新,缺少 capacity impact 评估。
- 被 decline 的交易没有最终 fraud 标签。
- 商户 dashboard 直接读取内部 score bucket。
Risk:
某些真实客户被大量误拦截;
人工队列短时间超载;
模型监控低估被拦截样本风险;
下游报表在模型升级后口径变化。
Control:
- vendor data contract 和 shadow monitor。
- threshold change memo,包含 false decline、loss、queue SLA 和 rollback。
- intervention flag、appeal outcome、chargeback delayed label。
- score output contract,禁止未声明 dashboard 读取内部 bucket。
6.4 AML Alert Triage Case
| 债务点 | 具体表现 | 控制 |
|---|---|---|
| Human workflow debt | analyst disposition 同时作为训练标签、绩效指标和 QA 结果 | 区分 disposition、QA label、SAR outcome、training label |
| Evaluation debt | eval set 只看历史 typology,缺少新网络模式 | typology red-team set、network pattern review |
| Undeclared consumer | case management tool 读取模型中间解释字段 | explanation API contract、field-level versioning |
| Monitoring debt | 只看 alert volume,不看 investigation quality | true positive proxy、case aging、analyst override、QA disagreement |
| Boundary erosion | 模型 ranker 中写死调查优先级政策 | priority policy engine 与 model score 分离 |
6.5 Customer Servicing RAG Case
| 债务点 | 具体表现 | 控制 |
|---|---|---|
| Knowledge dependency | fee policy、dispute policy、credit disclosure 多版本并存 | source authority registry、effective date gate |
| Configuration debt | prompt、retriever top_k、source filter、refusal policy 分散 | config bundle、risk-tiered eval、approval |
| Monitoring debt | 只看 answer latency,不看 unsupported claim | citation support、answerability、complaint-triggered review |
| Boundary erosion | LLM 直接生成类似正式承诺的客户文案 | UX policy、approved response template、human escalation |
| Undeclared consumer | contact center 把 RAG answer log 用作培训材料 | consumer approval、data retention、privacy review |
7. Technical Debt Tests and Metrics
7.1 Debt Test Matrix
| Test | 问题 | 通过标准 |
|---|---|---|
| Data contract test | 关键字段是否有 owner、语义、SLA、权限和质量检查 | 高风险字段 100% 有批准 contract |
| Point-in-time test | 训练数据是否使用了预测时不可得信息 | 无 critical leakage,例外有审批和隔离 |
| Training-serving parity test | 离线和线上特征转换是否一致 | critical feature parity pass,差异有解释 |
| CACE impact test | 特征、标签、阈值或配置变化影响哪些对象 | impact graph 覆盖模型、consumer、metric、report |
| Consumer contract test | 下游消费者是否登记并通过 use case 审查 | 无高风险 undeclared consumer |
| Config reproducibility test | 任一历史决策是否能恢复配置 bundle | model、feature、threshold、prompt、policy 可复现 |
| Feedback loop test | 模型动作是否影响标签和样本 | 有 intervention log 和 label maturity policy |
| Monitoring coverage test | 是否覆盖 data、feature、score、decision、outcome、operations、customer harm | 关键 use case 全部平面有 owner 和阈值 |
| Release rollback test | 新版本失败时能否回滚模型、配置和数据依赖 | rollback runbook 通过演练 |
| Evidence test | 变更、审批、监控和处置是否可审计 | evidence binder 完整且可追溯 |
7.2 Debt Metrics
| Metric | 含义 | 用法 |
|---|---|---|
| Critical dependency count | 高风险 use case 的关键依赖数量 | 评估复杂度和变更风险 |
| Undeclared consumer count | 未登记消费者数量 | 作为架构治理风险指标 |
| Feature retirement ratio | 已退休无用特征 / 候选无用特征 | 衡量 feature debt 偿还 |
| Config drift count | 环境间配置差异数量 | 衡量发布和回滚风险 |
| Reproducibility pass rate | 历史决策可复现比例 | 支持审计和客户争议 |
| Monitoring plane coverage | 监控平面覆盖率 | 衡量生产可控性 |
| Alert-to-action time | 告警到处置的时间 | 衡量运维响应能力 |
| Debt aging | 债务项未关闭时间 | 防止风险接受变成永久豁免 |
| Consumer onboarding cycle time | 新消费者通过审查周期 | 衡量契约化是否可用 |
| High-impact manual override rate | 高影响样本人工推翻比例 | 识别模型和流程债务 |
8. Decision Framework / 决策框架
8.1 Debt Priority Score
Debt priority =
customer impact
* regulatory sensitivity
* coupling breadth
* change frequency
* observability gap
* reversibility difficulty
* evidence weakness
评分不是为了制造复杂仪式,而是让架构债务优先级不再只由声音最大的人决定。
| 因子 | 低 | 中 | 高 |
|---|---|---|---|
| Customer impact | 内部分析,无客户动作 | 员工辅助或低风险客户服务 | 影响资金、账户、信贷、投诉、调查、拒绝、限制 |
| Regulatory sensitivity | 无明确监管触点 | 有合规审查但非正式决策 | fair lending、AML、KYC、UDAAP、privacy、model risk |
| Coupling breadth | 单模型、单消费者 | 多模型或多渠道 | 多模型、多消费者、多产品线、多报表 |
| Change frequency | 低频稳定 | 月度或按活动变化 | 高频配置、实时数据、快速实验 |
| Observability gap | 指标完整 | 缺少部分结果或 segment | 缺少 outcome、consumer、feedback 或 customer harm 监控 |
| Reversibility difficulty | 可快速回滚 | 需要协调多个团队 | 无法恢复历史状态或客户影响不可逆 |
| Evidence weakness | 证据集中完整 | 证据分散 | 无法证明当时配置、输入、输出和批准 |
8.2 Decision Options
| 决策 | 适用条件 | 要求 |
|---|---|---|
| Pay down now | 高客户影响、高耦合、低可观测、难回滚 | 阻断或限制发布,进入 remediation sprint |
| Contain | 风险明确但短期无法完全修复 | 缩小范围、加监控、加人工复核、设置到期日 |
| Accept temporarily | 业务收益明确、风险可解释、可监控、可回滚 | residual risk memo、owner、expiry、review cadence |
| Refactor incrementally | 债务影响迭代速度但未造成直接客户风险 | 放入 architecture runway,按依赖顺序偿还 |
| Retire | 功能、特征、模型或消费者已无战略价值 | 下线计划、消费者通知、数据保留和证据归档 |
| Replace platform | 债务来自不可控平台或 vendor,局部修补无效 | build-buy-exit analysis、migration plan、parallel run |
8.3 Trade-off Questions
| 问题 | 高级判断 |
|---|---|
| 这笔债会不会让系统行为无法解释 | 如果影响客户或监管证据,优先级上调 |
| 这笔债是否扩大 CACE 半径 | 如果一处变化影响多系统,需要 impact graph |
| 债务是否在决策阈值附近放大 | 阈值附近样本优先偿还,因为业务动作最敏感 |
| 是否存在 undeclared consumers | 先登记和限制消费,再做技术重构 |
| 是否能通过监控和人工复核临时控制 | 可以 contain,但必须有到期日 |
| 是否只是“代码不好看” | 如果没有客户、风险、运维或演进影响,优先级较低 |
| 偿还债务是否会改变模型表现 | 需要 challenger、shadow、replay 和 rollback |
9. Release Gates / 上线门禁
9.1 Gate 总览
| Gate | 通过标准 | Block 条件 |
|---|---|---|
| Use case boundary | 明确 AI 输出是建议、排序、解释、草稿、自动动作还是客户沟通 | 用途不清或输出被多场景混用 |
| System boundary | 模型、数据、产品、平台、运营、治理边界清楚 | 决策政策写死在模型或数据 pipeline 中 |
| Data contract | 关键数据有 owner、语义、SLA、权限、质量和变更流程 | critical field 无 owner、无语义或 point-in-time fail |
| Feature governance | 特征有定义、lineage、线上可用性、解释和退休计划 | critical feature 线上不可服务或未监控 |
| CACE impact | 特征、标签、配置、模型变更有 impact analysis | 影响消费者或客户动作但未评估 |
| Consumer governance | 下游消费者登记,allowed use 明确 | 存在高风险 undeclared consumer |
| Feedback loop | 模型动作和标签关系被记录和隔离 | 自动动作污染标签且无 intervention log |
| Config governance | 阈值、prompt、retriever、routing policy、monitoring threshold 版本化 | 生产配置无法复现或无审批 |
| Evaluation coverage | 离线指标、segment、stress、golden cases、customer harm 测试完成 | eval set 不覆盖高风险路径 |
| Monitoring readiness | data、feature、score、decision、outcome、operations、customer harm 指标上线 | 只监控 uptime 或缺少 owner |
| Rollback readiness | 模型、配置、阈值、prompt、retriever、consumer contract 可回滚 | 无法恢复上一稳定状态 |
| Evidence binder | 审批、验证、监控、风险接受、变更记录完整 | 关键证据不可追溯 |
9.2 Release Decision Levels
| 决策 | 条件 | 控制 |
|---|---|---|
| Approve full release | 所有高风险门禁通过,残余风险低 | 常规监控和周期复核 |
| Approve limited pilot | 核心控制通过,但样本、segment 或运营容量仍需观察 | 限流、限定渠道、强监控、人工复核 |
| Approve with conditions | 存在可控债务,业务需要上线 | 到期日、owner、额外监控、风险接受 |
| Delay release | 债务影响客户、合规、模型复现或回滚 | 修复后重新评审 |
| Block release | 存在高影响且不可观测、不可回滚、不可解释风险 | 管理层不能用口头接受绕过核心门禁 |
9.3 Change Classes
| Change class | 示例 | 要求 |
|---|---|---|
| Data semantic change | income、employment、merchant category、policy source 定义变化 | data owner approval、backtest、consumer notice |
| Feature change | 新增、删除、重算、窗口调整 | feature impact graph、training-serving parity、segment validation |
| Model change | 重训、算法、embedding、vendor model 变化 | model validation、challenger comparison、shadow / replay |
| Policy change | 阈值、routing、manual review、fallback 改变 | business impact、operations capacity、customer harm review |
| Config change | prompt、retriever、source filter、monitor threshold 改变 | config diff、risk-tiered eval、rollback |
| Consumer change | 新下游系统或新用途 | consumer onboarding、use restriction、monitoring |
| Monitoring change | 告警阈值、指标、owner 改变 | independent review、evidence update |
10. Debt Register Template / 债务登记模板
10.1 Debt Register
| 字段 | 填写要求 |
|---|---|
| Debt ID | 唯一编号 |
| Use case | 业务场景、渠道、客户可见性 |
| Debt type | CACE、feedback loop、consumer、data、config、feature、monitoring、boundary、evaluation、governance |
| Description | 具体债务和触发条件 |
| Affected assets | 数据、特征、模型、配置、API、报表、队列、客户触点 |
| Affected consumers | 声明和未声明消费者 |
| Customer impact | 资金、账户、信贷、服务、投诉、调查、隐私、客户体验 |
| Regulatory and model risk impact | fair lending、AML、KYC、UDAAP、privacy、model validation、audit |
| Coupling analysis | 依赖范围、CACE 半径、变更频率 |
| Observability gap | 缺失的监控、标签、日志或证据 |
| Current controls | 已有门禁、监控、人工复核、回滚 |
| Proposed action | pay down、contain、accept temporarily、refactor、retire、replace |
| Owner | accountable owner 和执行 owner |
| Due date | 偿还或复核日期 |
| Risk acceptance | 接受人、理由、期限、复核节奏 |
| Closure evidence | 测试结果、监控截图、审批、回归验证、消费者通知 |
10.2 Debt Item Memo
Debt ID:
Use case:
Risk tier:
Debt statement:
what is the debt:
why it exists:
where it appears:
Impact:
customer:
financial:
regulatory:
operations:
architecture:
Dependency and CACE:
upstream data:
features:
models:
configs:
consumers:
metrics:
Control decision:
action:
owner:
due date:
monitoring:
rollback:
residual risk:
Evidence:
tests:
approvals:
logs:
validation:
closure criteria:
10.3 Consumer Contract
| 字段 | 填写要求 |
|---|---|
| Consumer system | 系统名称和 owner |
| Business use | 使用模型输出的业务目的 |
| Decision action | 排序、建议、自动动作、报表、解释、审计、实验 |
| Allowed outputs | score、class、reason、confidence、metadata、timestamp |
| Prohibited uses | 不允许的客户动作、监管用途、二次训练、外部共享 |
| Data retention | 保存期限、访问权限、脱敏要求 |
| SLA | availability、latency、freshness、support |
| Change notice | schema、语义、模型、阈值、deprecation 通知规则 |
| Monitoring | 消费者侧指标、异常反馈、incident owner |
| Approval | Product、Model Owner、Data Owner、Compliance、Model Risk |
10.4 Configuration Change Memo
Config change:
object:
old value:
new value:
environment:
release version:
Reason:
business driver:
model driver:
operations driver:
Impact assessment:
affected segments:
expected score or decision movement:
operations capacity:
customer impact:
compliance or model risk impact:
Validation:
replay result:
shadow result:
risk-tiered eval:
rollback condition:
Approval:
product:
model owner:
operations:
model risk:
compliance:
10.5 Boundary Review Sheet
| 问题 | 判断 |
|---|---|
| 模型是否只输出预测、排序、生成或置信信息 | |
| 最终业务动作是否由 policy engine 或明确流程决定 | |
| 数据 pipeline 是否只做数据产品职责,而不是业务决策 | |
| 产品配置是否有审批、版本和回滚 | |
| 人工 override 是否和训练标签分离 | |
| 下游消费者是否只使用契约化输出 | |
| 客户解释是否来自批准 taxonomy | |
| 审计能否复现任一历史决策 |
11. 30-Day Training Plan / 30 天训练计划
目标:30 天内把 ML technical debt 从论文概念训练成可展示的金融零售 AI 产品和架构资产。训练默认读者已具备 CBAP、高级需求治理、流程分析、利益相关方管理、金融零售业务理解和基本 AI 系统概念。
| Day | 主题 | 产出 |
|---|---|---|
| 1 | 阅读 Hidden Technical Debt in ML Systems,提炼 CACE、entanglement、feedback loops、undeclared consumers | 1 页 source anchor note |
| 2 | 阅读 Google Production ML Systems,画出模型代码之外的生产组件 | production ML system map |
| 3 | 选择一个金融零售 AI use case,定义客户影响和 risk tier | use case boundary memo |
| 4 | 画 AI system boundary,区分 model、data、product、platform、operations | boundary map |
| 5 | 梳理数据依赖,标注 owner、语义、freshness、权限和 point-in-time 风险 | data dependency register |
| 6 | 设计 data contract for credit 或 fraud | data contract sheet |
| 7 | 梳理特征清单,按可服务性、解释性、复用、退休价值分类 | feature debt audit |
| 8 | 做 CACE impact graph,连接 data、feature、model、threshold、consumer、metric | impact graph |
| 9 | 设计 training-serving parity gate | parity gate checklist |
| 10 | 分析 hidden feedback loop,设计 intervention logging | feedback loop memo |
| 11 | Fraud case drill:decline 样本无标签 | counterfactual and label maturity plan |
| 12 | Credit case drill:reject inference 和 reason code | credit debt control memo |
| 13 | AML case drill:analyst disposition 标签混乱 | human workflow label taxonomy |
| 14 | KYC case drill:vendor OCR 字段语义变化 | vendor dependency control |
| 15 | RAG case drill:prompt、retriever、source config 分散 | config bundle design |
| 16 | 建 consumer registry,识别未声明消费者 | consumer registry table |
| 17 | 写 consumer contract 和 prohibited-use policy | consumer contract pack |
| 18 | 设计 config registry,覆盖阈值、prompt、retriever、routing | config governance spec |
| 19 | 设计 monitoring plane,覆盖 data、feature、score、decision、outcome、operations、customer harm | monitoring architecture |
| 20 | 设计 debt metrics 和 dashboard | debt monitoring dashboard spec |
| 21 | 阅读 ML Test Score,转成自己的 release checklist | ML debt test checklist |
| 22 | 设计 release gates 和 change classes | release gate memo |
| 23 | 阅读 NIST AI RMF,映射 Govern / Map / Measure / Manage | governance mapping |
| 24 | 建 debt register template,填写 5 个真实债务项 | debt register sample |
| 25 | 设计 issue management 和 risk acceptance 流程 | debt issue workflow |
| 26 | 做 architecture review tabletop:一个特征语义变化如何传播 | tabletop script |
| 27 | 做 incident simulation:配置变更导致 false decline 上升 | incident response record |
| 28 | 准备 executive memo,说明为何技术债投资降低客户和模型风险 | investment case memo |
| 29 | 准备 STAR-T 面试答案 | interview answer pack |
| 30 | 完成 portfolio package | architecture diagram、debt register、release gate、case study、evidence binder |
12. Interview Answers / 面试答案
12.1 ML technical debt 和传统软件技术债有什么不同?
30 秒回答:
传统软件债主要来自代码、依赖和测试不足;ML 技术债还来自数据、标签、特征、配置、反馈回路、消费者和外部世界变化。它更隐蔽,因为系统行为可能在代码没有变化时已经改变。
2 分钟展开:
在金融零售里,ML 系统不是一个模型文件,而是数据合同、特征管道、训练窗口、阈值策略、人工复核、下游消费者和监控证据的组合。比如 credit 模型代码没变,但 income 字段语义变了,PD calibration 就可能失效;fraud 模型代码没变,但拦截策略改变了标签观测,训练数据就被污染。我的做法是把技术债作为架构治理对象:建立 dependency graph、consumer registry、config registry、release gate、monitoring plane 和 debt register。
12.2 什么是 CACE,为什么它对企业 AI 架构重要?
30 秒回答:
CACE 是 Change Anything Changes Everything,意思是 ML 系统中一个数据、特征、标签、阈值或消费者变化都可能改变整体行为。它要求我们做 impact graph、replay test 和契约化边界。
2 分钟展开:
在普通软件中,一个函数变化通常能通过接口和单元测试限制影响。ML 系统里,一个字段清洗逻辑改变可能让多个特征、模型分数、决策阈值、人工队列和报表同时变化。金融零售尤其敏感,因为这种变化可能影响拒绝、拦截、调查、客户解释和投诉。我的架构做法是:关键数据和特征必须有 contract;模型和配置变更必须做 CACE impact analysis;上线前用 replay 或 shadow 验证 score、decision 和 segment impact;下游消费者必须登记 allowed use。
12.3 Hidden feedback loop 怎么识别和控制?
30 秒回答:
看模型动作是否改变了未来训练数据或标签。如果 fraud 拦截、credit 拒绝、collections 触达、RAG 回答会影响后续结果,就必须记录 intervention、保留抽样复核,并区分 proxy label 和最终标签。
2 分钟展开:
Fraud 被拦截的交易通常没有自然结果,credit 被拒客户没有还款表现,collections 被触达客户的还款不能直接当作自然行为。若不处理,模型会在被自己改变过的数据上训练和评估。控制上我会要求 prediction and decision log 记录 action、threshold、policy version 和 channel;对低风险范围保留随机抽样或人工复核;标签服务标注 label maturity;运营 override、客户申诉和专家 QA 分开作为不同标签来源。这样可以避免把业务干预误当成真实世界。
12.4 Undeclared consumers 为什么危险?
30 秒回答:
未声明消费者会让模型输出被用于未经验证的新用途,导致变更影响不可评估。金融场景中,一个内部 score 可能被报表、人工队列或客户解释偷偷复用,模型升级后就会出现断裂。
2 分钟展开:
我见到的风险不是模型 API 正式用户,而是直接读表、读日志、读中间字段的系统。比如 AML case tool 读取中间 risk reason,credit dashboard 把 underwriting score 用于 limit increase,contact center 把 RAG 日志用于培训。解决方式是 consumer registry 和 contract:声明用途、允许字段、禁止用途、SLA、变更通知、保留期限和审批。高风险输出只通过受控 API 或 data product 提供,内部表不作为产品接口。
12.5 如何治理 configuration debt?
30 秒回答:
把阈值、模型版本、prompt、retriever、routing policy、feature toggle 和 monitoring threshold 都当成生产配置资产,要求版本、审批、diff、环境一致性、回滚和审计证据。
2 分钟展开:
ML 系统行为经常由配置改变,而不是代码改变。Fraud 阈值、RAG source priority、credit manual review cutoff、prompt refusal policy 都可能直接影响客户动作。我的治理方式是 config registry 加 release bundle:每次发布记录模型、特征、阈值、prompt、retriever、policy 和监控阈值;高风险配置变更要有 impact assessment、replay、operations capacity review 和 rollback condition。这样审计时能复现某个客户当时为什么被拒、被拦截或被升级人工。
12.6 Feature debt 怎么判断不是“模型团队内部问题”?
30 秒回答:
如果特征影响客户动作、解释、公平性、线上服务、数据权限或多个消费者,它就不是模型团队内部问题,而是产品和架构问题。
2 分钟展开:
特征债会影响模型稳定性、reason code、training-serving parity、fairness proxy 和运营可解释性。例如一个离线很好用的 network feature 在线上延迟过高,可能让实时 fraud 决策失效;一个与受保护属性高度相关的 proxy feature,可能触发公平性审查;一个没人拥有的 KYC 字段语义变化,会让模型漂移。我的做法是建立 feature registry,记录业务定义、owner、lineage、线上可用性、监控、解释用途和退休策略。高影响特征进入 release gate,而不是只看离线重要性。
12.7 Monitoring debt 的最低可接受标准是什么?
30 秒回答:
最低标准不是 uptime,而是覆盖 data health、feature drift、score drift、decision behavior、outcome、operations、customer harm 和 segment。每个指标要有 owner、阈值、响应动作和证据记录。
2 分钟展开:
金融零售 AI 的故障常常不是服务挂了,而是数据语义变了、阈值附近客户被误伤、某个 segment calibration 失效、人工队列超载或 RAG 引用了过期政策。因此生产监控要把技术指标和业务结果连接起来。Fraud 看 false decline、chargeback、step-up、appeal;credit 看 PD calibration、approval rate、reason code distribution;AML 看 alert quality、case aging、analyst override;RAG 看 answerability、citation support、complaint-triggered QA。监控还要连接 issue management,否则只是仪表盘。
12.8 如何处理模型、数据、产品、平台的边界侵蚀?
30 秒回答:
先画边界,再把接口契约化。模型输出预测,产品定义业务动作,数据团队负责语义和质量,平台负责可复现和部署,运营负责人工流程,治理团队负责风险和证据。
2 分钟展开:
边界侵蚀常见于训练脚本写死业务政策、数据管道编码产品规则、产品经理直接改 prompt routing、平台默认配置改变阈值、运营 override 被当作 ground truth。我的解决方式是 boundary map 和 RACI:decision policy 从模型中抽出,data contract 从 pipeline 中抽出,config registry 管理阈值和 prompt,label governance 区分业务标签和运营动作,consumer contract 限制下游用途。这样每个团队仍能快速迭代,但不会互相制造不可见债务。
12.9 如何把 ML 技术债放进 release gate?
30 秒回答:
我会把技术债门禁化:data contract、feature parity、CACE impact、consumer contract、feedback loop、config reproducibility、monitoring readiness、rollback 和 evidence binder 都要过关,尤其是高客户影响场景。
2 分钟展开:
模型上线不能只看 AUC 或 demo 效果。我的 release gate 分三层:第一是系统边界和 use case 风险,确认模型输出会触发什么动作;第二是工程和架构门禁,包括数据、特征、配置、消费者、反馈回路和可复现;第三是治理证据,包括模型验证、segment impact、监控、回滚和 residual risk。对于可控债务可以 limited pilot 或 approve with conditions,但必须写入 debt register,有 owner、到期日和监控。不可观测、不可回滚、影响客户权益的债务应阻断上线。
12.10 作为 AI PM / Architect,你如何讲一个技术债作品集案例?
30 秒回答:
我会选择一个金融零售 AI 系统,展示从债务识别到架构控制:dependency graph、consumer registry、config registry、release gates、monitoring plane、debt register 和 incident simulation。
2 分钟展开:
比如 real-time fraud 系统:先说明客户影响和风险,再展示模型不是孤立组件,而是交易数据、设备 vendor、特征服务、阈值策略、step-up 流程、人工队列和 chargeback 标签的系统。然后指出债务:vendor 字段语义不稳定、decline 样本标签缺失、阈值配置不可审计、商户 dashboard 偷用内部 bucket。最后给出架构方案:data contract、intervention logging、config registry、consumer contract、multi-plane monitoring、release gate 和 evidence binder。这个作品集能体现我不是只会写需求,而是能把 AI 系统演进风险转成企业架构控制。
13. Portfolio Package / 作品集包
如果把本文转成作品集,可以做一个金融零售企业 AI 技术债架构包:
Case: Real-time fraud AI technical debt modernization
Problem:
银行实时卡交易 fraud 系统快速迭代多年,
模型、设备数据、阈值、人工复核、商户报表和 chargeback 标签高度耦合。
Debt:
- device vendor 字段语义变化没有 data contract。
- fraud threshold 热更新缺少审批和回滚证据。
- decline / step-up 动作造成 hidden feedback loop。
- merchant dashboard 和 operations report 是 undeclared consumers。
- monitoring 只覆盖服务可用性和总 fraud loss,缺少 segment false decline。
Design:
- AI system boundary map
- data contract registry for transaction, device, merchant, customer profile
- feature registry and online-offline parity gate
- config registry for model, threshold, routing policy and monitoring threshold
- consumer registry and allowed-use contract
- intervention-aware prediction and decision log
- Debt-to-Control release gate
- monitoring plane for data, feature, score, decision, outcome, operations and customer harm
- debt register with owner, due date and residual risk acceptance
Evidence:
- CACE impact graph for device feature semantic change
- threshold change memo with false decline, loss and queue capacity impact
- hidden feedback loop mitigation plan
- consumer contract for merchant dashboard
- monitoring dashboard specification
- incident simulation and rollback runbook
- evidence binder mapped to NIST AI RMF Govern / Map / Measure / Manage
Outcome:
Fraud team can release challenger models and policy changes faster,
while product, operations, model risk and compliance can see who consumes outputs,
how customer impact is monitored,
which debt is accepted temporarily,
and how the system can be reproduced during audit or customer dispute review.
作品集目录建议:
| Artifact | 内容 |
|---|---|
| Executive memo | 为什么 ML 技术债是客户风险、模型风险和迭代速度问题 |
| Architecture diagram | Debt-to-Control 架构、boundary map、dependency graph |
| Debt register sample | 5 到 8 个高质量债务项,包含 owner、影响、控制和偿还计划 |
| Release gate | data、feature、CACE、consumer、feedback、config、monitoring、rollback、evidence |
| Consumer contract | 模型输出 allowed use 和 prohibited use |
| Monitoring spec | data、feature、score、decision、outcome、operations、customer harm、segment |
| Incident simulation | 配置变更导致 false decline 上升的 tabletop exercise |
| Interview story | STAR-T:Situation、Task、Action、Result、Trade-off |
面试中的高级表达:
我把 ML technical debt 当成企业 AI 架构的风险控制面,而不是工程团队的清理清单。真正的问题是:系统中哪些隐性耦合会把小变更放大成客户影响、模型风险或审计断裂;哪些债务必须在 release gate 前偿还;哪些可以被监控、限制和临时接受;以及如何用证据证明这个判断持续有效。