AI Architecture Decision Records:决策治理
一句话:
AI Architecture Decision Records / Decision Governance 解读
面向对象: Enterprise Architect / AI Architect / AI PM / AI BA / Governance Lead。 核心问题: AI 项目的关键决策很多: RAG 还是微调、单模型还是路由、是否存 memory、是否允许 agent 执行动作、eval 门槛怎么定、vendor 如何退出。如果这些决策只留在会议和聊天里,后续团队无法理解、审计或反转。 学习目标: 理解 Michael Nygard 的 ADR 思路、Architecture Decision Records、architecture knowledge management、ISO/IEC/IEEE 42010 的 architecture description 思想,并扩展成 AI-specific ADR 治理。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| Documenting Architecture Decisions | https://www.cognitect.com/blog/2011/11/15/documenting-architecture-decisions | ADR 经典来源,强调记录 architecturally significant decisions、context、decision、status、consequences |
| Architecture Decision Records | https://adr.github.io/ | 参考 ADR 社区实践和 lightweight decision record |
| ISO/IEC/IEEE 42010 | https://www.iso-architecture.org/ieee-1471/ | 参考 architecture description、stakeholder、concern、viewpoint 等架构描述思想 |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 把 AI 决策记录连接到 Govern / Map / Measure / Manage 和风险证据 |
一句话:
AI ADR 是把“为什么这样设计 AI 系统、什么条件下要反转、用什么证据证明可接受”写成可版本化、可审计、可复盘的决策记录。
1. 为什么 AI 更需要 ADR
AI 系统的决策比普通软件更容易被遗忘:
| 决策 | 如果不记录 |
|---|---|
| 为什么选 RAG 而不是 fine-tune | 后续团队重复争论或错误重构 |
| 为什么用某个 vendor model | 成本、数据、退出和风险理由丢失 |
| 为什么允许自动化某一步 | 客户影响和风险接受不可追溯 |
| 为什么 eval 阈值是 0.85 | release gate 变成任意数字 |
| 为什么某些数据不能进 prompt | 隐私和合规边界被侵蚀 |
| 为什么 agent 不能调用某个工具 | 权限和安全约束被绕过 |
AI ADR 要回答:
- 决策背景是什么?
- 约束和替代方案是什么?
- 为什么当前选择可接受?
- 会带来哪些风险和成本?
- 什么指标或事件会触发复盘?
- 哪些证据支持这条决策?
2. AI ADR Taxonomy
| ADR 类型 | 示例 |
|---|---|
| Model ADR | frontier model vs small model、single model vs routing |
| Knowledge ADR | RAG vs long context、GraphRAG、source authority、freshness |
| Data ADR | PII handling、retention、training data、label policy |
| Eval ADR | golden set、LLM-as-judge、human review、threshold |
| Agent ADR | tool permission、HITL checkpoint、transaction limit |
| UX ADR | confidence display、refusal language、human escalation |
| Vendor ADR | build vs buy、model update notice、exit plan |
| Governance ADR | risk tier、release approval、monitoring owner |
| Cost ADR | cache、routing、budget guardrail、fallback |
| Security ADR | prompt injection defense、DLP、secret handling |
3. AI ADR Template
# ADR-XXX: [Decision]
Status:
Proposed / Accepted / Superseded / Deprecated
Context:
Business goal:
AI capability:
Risk tier:
Stakeholders and concerns:
Constraints:
Decision:
We will ...
Alternatives considered:
Option A:
Option B:
Option C:
Consequences:
Positive:
Negative:
Neutral:
Evidence:
Eval report:
Risk assessment:
Data/model/prompt versions:
Cost/latency:
Security/privacy review:
Reversal triggers:
Metric threshold:
Incident:
Cost:
Regulatory / policy change:
Vendor change:
Review cadence:
Owner:
Date:
AI ADR 和普通 ADR 的差异:
- 必须绑定 evidence。
- 必须写 reversal trigger。
- 必须写 risk tier。
- 必须连接版本化 artifact。
- 必须考虑生产监控和人类监督。
4. 决策治理流程
use case intake
-> identify architecture-significant decisions
-> draft ADR
-> architecture / risk / product review
-> accepted ADR linked to release bundle
-> implementation and gate checks
-> production monitoring
-> ADR review or supersede
4.1 谁写 ADR
| 角色 | 责任 |
|---|---|
| AI PM | 产品目标、用户影响、范围和成功指标 |
| AI BA | 流程、规则、异常、stakeholder concern |
| AI Architect | 方案、替代方案、约束、系统边界 |
| Data / ML Lead | 数据、模型、eval、监控证据 |
| Risk / Compliance | 风险等级、控制和审批 |
| Operations | 人工队列、SLA、异常处置 |
4.2 哪些决策必须写 ADR
满足任一条件就写:
- 影响客户权益、资金、合规或投诉。
- 影响核心架构边界或平台复用。
- 引入第三方模型或供应商依赖。
- 改变数据使用、保留或权限。
- 允许 agent 调用有副作用工具。
- 改变 release gate、eval threshold 或 HITL。
- 有明显成本、延迟、韧性或安全权衡。
5. 金融零售 ADR 示例
ADR A: Customer Service RAG 不使用 Fine-Tune
Decision:
We will use RAG with source authority and citation support instead of fine-tuning for policy Q&A.
Reason:
- 政策更新频繁。
- 需要引用和版本。
- 客户可见答案要可追溯。
Reversal trigger:
- 检索召回达不到门槛且问题类型稳定。
- 成本/延迟无法满足 SLO。
- 权威知识库结构足够稳定可训练 specialist model。
ADR B: Fraud Agent 不允许自动冻结账户
Decision:
Agent may recommend account hold but cannot execute freeze without human approval.
Reason:
- 高客户影响。
- false positive 成本高。
- 申诉和补救要求高。
Evidence:
- 模型校准报告。
- 历史 false positive 分析。
- 人工队列容量。
- 客户影响评估。
ADR C: LLM Judge 不能单独作为 Release Gate
Decision:
LLM judge may be used as screening signal, but final release gate requires golden set and human calibration.
Reason:
- judge drift。
- rubric ambiguity。
- 高风险场景需要独立验证。
6. ADR 与网站/作品集
AI ADR 是作品集里很强的证据,因为它展示:
- 你能识别关键决策。
- 你能比较替代方案。
- 你能写清约束和后果。
- 你能把产品、架构、风险和证据连接起来。
- 你知道何时反转,而不是固执守旧。
每个 flagship case 至少准备 5 条 ADR:
- Model strategy。
- Knowledge / RAG strategy。
- Human oversight。
- Eval gate。
- Vendor / platform boundary。
7. 常见失败模式
| 失败模式 | 表现 | 修正 |
|---|---|---|
| ADR 写成流水账 | 没有真正决策 | 只记录 architecturally significant decisions |
| 没有替代方案 | 看不出权衡 | 至少比较 2-3 个方案 |
| 没有反转条件 | 决策变教条 | 写 metric/incident/cost/policy trigger |
| 不绑定证据 | 审计时无法证明 | 链接 eval、risk、release、monitoring |
| 过度技术化 | PM/风险看不懂 | 写 stakeholder concern 和业务影响 |
| 不更新状态 | 旧 ADR 误导团队 | Proposed / Accepted / Superseded |
8. 面试表达
30 秒版本
AI ADR 用来记录关键 AI 架构决策,例如 RAG vs fine-tune、模型路由、HITL、eval gate、供应商和数据保留。相比普通 ADR,我会要求它绑定 risk tier、evidence、artifact versions、reversal triggers 和 monitoring。这样决策可追溯、可审计、可复盘。
2 分钟版本
以客户服务 RAG 为例,我会写一条 ADR 说明为什么选择 RAG 而不是 fine-tune: 政策更新频繁,需要引用、权限和版本追踪;替代方案包括 long context、fine-tune 和人工知识库检索;后果是要投入知识治理和 retrieval eval;反转条件是检索长期达不到召回门槛或成本延迟不可接受;证据链接到 RAG eval、source authority、risk assessment 和 release memo。这样半年后换团队、换模型或监管问询时,大家知道当时为什么这么设计,也知道什么时候可以改。
CTO 追问
如果问 ADR 会不会拖慢团队,我会回答: 低价值文档会拖慢,高质量 ADR 会加速。它减少重复争论,降低新人理解成本,把隐性风险显性化,并让 AI agent 或工程团队在明确约束下实现。关键是只写架构显著决策,保持轻量和可复盘。
9. Portfolio Task
做一个 “AI ADR Governance Pack”:
| Artifact | 内容 |
|---|---|
| ADR taxonomy | 10 类 AI 决策 |
| ADR template | risk tier、evidence、reversal trigger 版 |
| 5 条 flagship ADR | model、RAG、HITL、eval、vendor |
| Review workflow | draft、approve、implement、monitor、supersede |
| Evidence links | eval report、risk assessment、release bundle |
| Interview story | 用 1 条 ADR 讲清产品/架构/风险权衡 |
最终要能讲清楚: AI 架构能力不是只会画图,而是能把关键决策、证据和反转条件留下来,让系统长期可演进。