AI 底层逻辑 / 经典论文

AI Architecture Decision Records：决策治理

一句话:

282 行ai-foundations/papers/62-ai-architecture-decision-records-governance.md

AI Architecture Decision Records / Decision Governance 解读

面向对象: Enterprise Architect / AI Architect / AI PM / AI BA / Governance Lead。核心问题: AI 项目的关键决策很多: RAG 还是微调、单模型还是路由、是否存 memory、是否允许 agent 执行动作、eval 门槛怎么定、vendor 如何退出。如果这些决策只留在会议和聊天里，后续团队无法理解、审计或反转。学习目标: 理解 Michael Nygard 的 ADR 思路、Architecture Decision Records、architecture knowledge management、ISO/IEC/IEEE 42010 的 architecture description 思想，并扩展成 AI-specific ADR 治理。

Source Anchors

Source	Link	用途
Documenting Architecture Decisions	https://www.cognitect.com/blog/2011/11/15/documenting-architecture-decisions	ADR 经典来源，强调记录 architecturally significant decisions、context、decision、status、consequences
Architecture Decision Records	https://adr.github.io/	参考 ADR 社区实践和 lightweight decision record
ISO/IEC/IEEE 42010	https://www.iso-architecture.org/ieee-1471/	参考 architecture description、stakeholder、concern、viewpoint 等架构描述思想
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	把 AI 决策记录连接到 Govern / Map / Measure / Manage 和风险证据

一句话:

AI ADR 是把“为什么这样设计 AI 系统、什么条件下要反转、用什么证据证明可接受”写成可版本化、可审计、可复盘的决策记录。

1. 为什么 AI 更需要 ADR

AI 系统的决策比普通软件更容易被遗忘:

决策	如果不记录
为什么选 RAG 而不是 fine-tune	后续团队重复争论或错误重构
为什么用某个 vendor model	成本、数据、退出和风险理由丢失
为什么允许自动化某一步	客户影响和风险接受不可追溯
为什么 eval 阈值是 0.85	release gate 变成任意数字
为什么某些数据不能进 prompt	隐私和合规边界被侵蚀
为什么 agent 不能调用某个工具	权限和安全约束被绕过

AI ADR 要回答:

决策背景是什么？
约束和替代方案是什么？
为什么当前选择可接受？
会带来哪些风险和成本？
什么指标或事件会触发复盘？
哪些证据支持这条决策？

2. AI ADR Taxonomy

ADR 类型	示例
Model ADR	frontier model vs small model、single model vs routing
Knowledge ADR	RAG vs long context、GraphRAG、source authority、freshness
Data ADR	PII handling、retention、training data、label policy
Eval ADR	golden set、LLM-as-judge、human review、threshold
Agent ADR	tool permission、HITL checkpoint、transaction limit
UX ADR	confidence display、refusal language、human escalation
Vendor ADR	build vs buy、model update notice、exit plan
Governance ADR	risk tier、release approval、monitoring owner
Cost ADR	cache、routing、budget guardrail、fallback
Security ADR	prompt injection defense、DLP、secret handling

3. AI ADR Template

# ADR-XXX: [Decision]

Status:
  Proposed / Accepted / Superseded / Deprecated

Context:
  Business goal:
  AI capability:
  Risk tier:
  Stakeholders and concerns:
  Constraints:

Decision:
  We will ...

Alternatives considered:
  Option A:
  Option B:
  Option C:

Consequences:
  Positive:
  Negative:
  Neutral:

Evidence:
  Eval report:
  Risk assessment:
  Data/model/prompt versions:
  Cost/latency:
  Security/privacy review:

Reversal triggers:
  Metric threshold:
  Incident:
  Cost:
  Regulatory / policy change:
  Vendor change:

Review cadence:
  Owner:
  Date:

AI ADR 和普通 ADR 的差异:

必须绑定 evidence。
必须写 reversal trigger。
必须写 risk tier。
必须连接版本化 artifact。
必须考虑生产监控和人类监督。

4. 决策治理流程

use case intake
  -> identify architecture-significant decisions
  -> draft ADR
  -> architecture / risk / product review
  -> accepted ADR linked to release bundle
  -> implementation and gate checks
  -> production monitoring
  -> ADR review or supersede

4.1 谁写 ADR

角色	责任
AI PM	产品目标、用户影响、范围和成功指标
AI BA	流程、规则、异常、stakeholder concern
AI Architect	方案、替代方案、约束、系统边界
Data / ML Lead	数据、模型、eval、监控证据
Risk / Compliance	风险等级、控制和审批
Operations	人工队列、SLA、异常处置

4.2 哪些决策必须写 ADR

满足任一条件就写:

影响客户权益、资金、合规或投诉。
影响核心架构边界或平台复用。
引入第三方模型或供应商依赖。
改变数据使用、保留或权限。
允许 agent 调用有副作用工具。
改变 release gate、eval threshold 或 HITL。
有明显成本、延迟、韧性或安全权衡。

5. 金融零售 ADR 示例

ADR A: Customer Service RAG 不使用 Fine-Tune

Decision:

We will use RAG with source authority and citation support instead of fine-tuning for policy Q&A.

Reason:

政策更新频繁。
需要引用和版本。
客户可见答案要可追溯。

Reversal trigger:

检索召回达不到门槛且问题类型稳定。
成本/延迟无法满足 SLO。
权威知识库结构足够稳定可训练 specialist model。

ADR B: Fraud Agent 不允许自动冻结账户

Decision:

Agent may recommend account hold but cannot execute freeze without human approval.

Reason:

高客户影响。
false positive 成本高。
申诉和补救要求高。

Evidence:

模型校准报告。
历史 false positive 分析。
人工队列容量。
客户影响评估。

ADR C: LLM Judge 不能单独作为 Release Gate

Decision:

LLM judge may be used as screening signal, but final release gate requires golden set and human calibration.

Reason:

judge drift。
rubric ambiguity。
高风险场景需要独立验证。

6. ADR 与网站/作品集

AI ADR 是作品集里很强的证据，因为它展示:

你能识别关键决策。
你能比较替代方案。
你能写清约束和后果。
你能把产品、架构、风险和证据连接起来。
你知道何时反转，而不是固执守旧。

每个 flagship case 至少准备 5 条 ADR:

Model strategy。
Knowledge / RAG strategy。
Human oversight。
Eval gate。
Vendor / platform boundary。

7. 常见失败模式

失败模式	表现	修正
ADR 写成流水账	没有真正决策	只记录 architecturally significant decisions
没有替代方案	看不出权衡	至少比较 2-3 个方案
没有反转条件	决策变教条	写 metric/incident/cost/policy trigger
不绑定证据	审计时无法证明	链接 eval、risk、release、monitoring
过度技术化	PM/风险看不懂	写 stakeholder concern 和业务影响
不更新状态	旧 ADR 误导团队	Proposed / Accepted / Superseded

8. 面试表达

30 秒版本

AI ADR 用来记录关键 AI 架构决策，例如 RAG vs fine-tune、模型路由、HITL、eval gate、供应商和数据保留。相比普通 ADR，我会要求它绑定 risk tier、evidence、artifact versions、reversal triggers 和 monitoring。这样决策可追溯、可审计、可复盘。

2 分钟版本

以客户服务 RAG 为例，我会写一条 ADR 说明为什么选择 RAG 而不是 fine-tune: 政策更新频繁，需要引用、权限和版本追踪；替代方案包括 long context、fine-tune 和人工知识库检索；后果是要投入知识治理和 retrieval eval；反转条件是检索长期达不到召回门槛或成本延迟不可接受；证据链接到 RAG eval、source authority、risk assessment 和 release memo。这样半年后换团队、换模型或监管问询时，大家知道当时为什么这么设计，也知道什么时候可以改。

CTO 追问

如果问 ADR 会不会拖慢团队，我会回答: 低价值文档会拖慢，高质量 ADR 会加速。它减少重复争论，降低新人理解成本，把隐性风险显性化，并让 AI agent 或工程团队在明确约束下实现。关键是只写架构显著决策，保持轻量和可复盘。

9. Portfolio Task

做一个 “AI ADR Governance Pack”:

Artifact	内容
ADR taxonomy	10 类 AI 决策
ADR template	risk tier、evidence、reversal trigger 版
5 条 flagship ADR	model、RAG、HITL、eval、vendor
Review workflow	draft、approve、implement、monitor、supersede
Evidence links	eval report、risk assessment、release bundle
Interview story	用 1 条 ADR 讲清产品/架构/风险权衡

最终要能讲清楚: AI 架构能力不是只会画图，而是能把关键决策、证据和反转条件留下来，让系统长期可演进。