AI Quality Attributes / ATAM:架构权衡
一句话:
AI Quality Attributes / ATAM / Architecture Tradeoff 解读
面向对象: Enterprise Architect / AI Architect / AI PM / Senior BA / Model Risk / Engineering Lead。 核心问题: AI 系统的架构争论经常停在“RAG 还是 fine-tune”“用哪个模型”“要不要 agent”。真正的架构问题是质量属性权衡: 准确性、groundedness、延迟、成本、隐私、安全、可解释、可审计、可变更、韧性和人工控制如何同时成立, 又在哪些场景必须取舍。 学习目标: 借助 SEI 的 ATAM 思想, 把 AI 架构评审从方案偏好升级为 quality attribute scenarios、utility tree、tradeoff point、sensitivity point 和 risk 的结构化分析。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| SEI Architecture Tradeoff Analysis Method | https://insights.sei.cmu.edu/library/the-architecture-tradeoff-analysis-method/ | 参考 ATAM 的质量属性、架构策略、风险、权衡点和效用树方法 |
| ISO/IEC/IEEE 42010 | https://www.iso-architecture.org/ieee-1471/ | 参考 stakeholder、concern、viewpoint 的架构描述思想 |
| NIST AI RMF | https://www.nist.gov/itl/ai-risk-management-framework | 将质量属性连接到 AI 风险的 Map / Measure / Manage |
| NIST GenAI Profile | https://www.nist.gov/itl/ai-risk-management-framework/generative-artificial-intelligence-profile | 参考生成式 AI 特有风险, 如 hallucination、data leakage、harmful output、overreliance |
一句话:
AI ATAM 是用质量属性场景和权衡分析, 判断一个 AI 架构在业务价值、风险、成本和演进约束下是否可接受。
1. 从功能评审转向质量属性评审
AI 架构最危险的误区是只问功能:
- 能不能回答问题?
- 能不能接入知识库?
- 能不能调用工具?
- 能不能生成报告?
高级评审要问质量属性:
- 在什么任务分布下准确?
- 对哪些错误类型必须零容忍?
- 知识源过期时如何表现?
- 延迟和成本达到什么水平才可规模化?
- 模型输出如何被解释、引用、审计和复盘?
- 用户如何知道 AI 的能力边界?
- 供应商模型升级后如何回归测试?
- agent 失败时系统如何降级、熔断和人工接管?
功能决定“系统能做什么”; 质量属性决定“系统是否值得上线、能否扩展、能否被信任、能否长期运营”。
2. AI Quality Attributes Taxonomy
| 质量属性 | AI 场景中的定义 | 常见指标 |
|---|---|---|
| Task Accuracy | 对目标任务的正确程度 | task accuracy、F1、exact match、human acceptance |
| Groundedness | 输出是否受授权来源支持 | citation precision、unsupported claim rate |
| Calibration | 置信表达是否匹配真实可靠性 | confidence-error correlation、escalation appropriateness |
| Robustness | 对噪声、长尾、攻击和分布变化的稳定性 | adversarial pass rate、drift impact |
| Safety | 是否避免客户、财务、合规和操作伤害 | critical failure rate、unsafe action rate |
| Privacy | 是否保护个人、敏感和机密数据 | PII leakage rate、data minimization compliance |
| Security | 是否抵抗 prompt injection、tool abuse、data exfiltration | attack success rate、policy bypass rate |
| Explainability | 是否能让用户和审计者理解依据 | rationale quality、citation coverage |
| Auditability | 是否能重建输入、版本、决策和输出 | trace completeness、log retention compliance |
| Latency | 用户工作流可接受的响应时间 | p50/p95/p99 latency |
| Cost Efficiency | 单次任务成本和规模化成本 | cost per case、monthly burn |
| Modifiability | 业务规则、知识、模型、prompt 变化的成本 | change lead time、regression effort |
| Resilience | 依赖失败、模型退化、流量峰值下的恢复能力 | fallback success、MTTR |
| Human Controllability | 人能否理解、纠正、拒绝、接管 | override success、review load |
| Fairness | 对不同群体是否产生系统性不利影响 | disparity metrics、impact analysis |
这些属性不会全部最大化。架构工作就是让权衡显性化。
3. ATAM 如何迁移到 AI
经典 ATAM 关注:
- 业务驱动因素。
- 架构方案。
- 质量属性场景。
- 架构策略。
- 效用树。
- 风险、非风险、敏感点和权衡点。
AI 版本可以扩展成:
Business Driver
-> AI Capability Boundary
-> Quality Attribute Scenario
-> Architecture Tactic
-> Eval Evidence
-> Risk / Tradeoff / Sensitivity Point
-> ADR and Release Gate
3.1 Quality Attribute Scenario
模板:
Source:
谁触发场景?
Stimulus:
什么事件发生?
Environment:
正常、高峰、模型升级、知识过期、攻击、人工忙碌?
Artifact:
模型、RAG、agent、API、工作流、数据源、日志?
Response:
系统应如何响应?
Response Measure:
用什么指标判断响应可接受?
例子:
Source:
AML analyst
Stimulus:
请求 AI 总结高风险 alert 的交易链路和可疑点
Environment:
客户历史资料完整, 但部分交易备注为空; alert 属于高风险 typology
Artifact:
AML Copilot RAG + case summarizer
Response:
输出事实摘要、引用交易证据、标注推断, 并提示必须人工复核
Response Measure:
critical fact omission rate <= 1%
citation precision >= 96%
high-risk escalation recall >= 98%
p95 latency <= 6s
4. AI Utility Tree
效用树把质量属性按业务价值和风险优先级排序。
AI Customer Service Copilot Utility Tree
Business Goal:
降低处理时长, 提升政策一致性, 不增加投诉和合规风险。
High Priority
Safety
- 不输出未经授权退款承诺
- 高风险投诉必须升级
Groundedness
- 政策回答必须引用授权知识源
Human Controllability
- 客服可编辑、拒绝、升级、反馈
Medium Priority
Latency
- p95 <= 4s
Cost Efficiency
- cost per case <= target
Explainability
- 展示政策依据和更新时间
Lower Priority
Tone Optimization
- 语气更自然
Personalization
- 根据客户历史定制表达
排序原则:
- 先客户权益和合规风险。
- 再任务正确性和可控制性。
- 再效率、成本和体验优化。
- 最后是风格和锦上添花能力。
5. 架构策略与权衡
| 架构策略 | 改善 | 牺牲 / 风险 |
|---|---|---|
| RAG with citations | groundedness、freshness、auditability | latency、retrieval quality、权限复杂度 |
| Fine-tune | 风格一致、领域表达、低延迟 | 数据治理、更新成本、遗忘风险 |
| Model routing | 成本、延迟、任务适配 | 行为一致性、测试复杂度 |
| Human-in-the-loop | safety、control、accountability | 运营成本、处理时长、人工负载 |
| Guardrail layer | safety、policy compliance | false positive、用户摩擦、维护成本 |
| Tool allowlist | agent safety、least privilege | 自动化能力受限 |
| Immutable audit log | auditability、incident review | 存储成本、隐私和访问控制 |
| Cache | cost、latency | stale answer、个性化风险 |
| Shadow mode | 风险降低、证据积累 | 上线周期变长 |
| Canary release | 控制爆炸半径 | 运维复杂度 |
架构评审要明确哪些是 tradeoff point:
- 更强模型可能提升准确性, 但增加成本、延迟、供应商依赖和数据风险。
- 更高自动化可能提升效率, 但降低人工控制和错误可恢复性。
- 更严格 guardrail 可能降低违规输出, 但增加误拒和业务摩擦。
- 更长上下文可能提高召回, 但增加成本、延迟和信息泄漏面。
6. 金融零售案例
6.1 AML Copilot
最高优先级不是生成流畅报告, 而是:
- 不遗漏关键事实。
- 事实和推断分离。
- 引用可审计。
- 高风险场景强制人工复核。
- 能在调查链路中保留证据。
Tradeoff:
| 选择 | 获得 | 代价 |
|---|---|---|
| 使用 RAG 引用交易和政策 | auditability、groundedness | retrieval latency、权限过滤复杂 |
| 禁止自动关闭 alert | safety、regulatory defensibility | 效率收益有限 |
| 强制 analyst review | 控制和责任清晰 | 人工负载仍在 |
6.2 信贷 Decision Support
质量属性要覆盖:
- explanation consistency。
- fairness impact。
- adverse action reason accuracy。
- override auditability。
- policy update modifiability。
如果只优化 approval prediction accuracy, 会误伤客户权益和合规可解释性。
6.3 Wealth Advisor Assistant
关键权衡:
- 个性化 vs 合规边界。
- 建议深度 vs suitability review。
- 实时市场信息 vs 数据许可和更新。
- conversational UX vs disclosure 和审计记录。
7. AI ATAM Workshop Agenda
1. Business driver briefing
- outcome, constraints, risk tier, target users
2. Architecture overview
- model, RAG, tools, data flow, human workflow, monitoring
3. Quality attribute elicitation
- stakeholders define top concerns
4. Scenario generation
- normal, edge, adversarial, incident, scale, change scenarios
5. Utility tree prioritization
- importance x difficulty x risk
6. Tactic analysis
- architecture tactics mapped to scenarios
7. Risk / sensitivity / tradeoff identification
- record as ADR candidates
8. Evidence plan
- eval, monitoring, pilot, audit evidence
9. Release recommendation
- pass, conditional pass, redesign, reject
8. 评审清单
| 问题 | 通过标准 |
|---|---|
| 是否有质量属性场景, 而不是只有功能清单? | 每个高风险能力至少 3 个场景 |
| 是否区分 normal / edge / adversarial / drift? | eval set 覆盖四类 |
| 是否明确 tradeoff point? | 每个关键方案至少写出牺牲项 |
| 是否有 sensitivity point? | 找出对阈值、模型、知识源、流量敏感的参数 |
| 是否有 owner? | 每个高优先级属性绑定 owner |
| 是否连接 release gate? | 质量属性有对应 eval / monitoring |
| 是否记录 ADR? | 关键权衡写入 AI ADR |
9. 面试回答
Q1: 你如何评审一个 AI 架构是否可上线?
30 秒版本:
我不会只看功能是否跑通, 会用 AI ATAM 方式评审质量属性: 对关键业务场景定义 accuracy、groundedness、safety、privacy、latency、cost、auditability、human control 等场景和阈值, 再识别权衡点、敏感点和残余风险, 最后把证据连接到 release gate 和 ADR。
Q2: RAG 和 fine-tune 怎么选?
30 秒版本:
我会把它变成质量属性权衡题。若需求强调知识新鲜度、可引用、权限过滤和审计, RAG 通常优先; 若强调稳定风格、领域表达、低延迟和固定任务模式, fine-tune 可能有价值。实际项目常是混合方案, 关键是用 eval 和风险约束证明选择。
追问准备:
| 追问 | 回答要点 |
|---|---|
| 模型越强是否越好? | 不一定, 要看成本、延迟、数据风险、可控性和任务收益 |
| 为什么需要 utility tree? | 帮助 stakeholder 对质量属性优先级达成一致 |
| 如何处理冲突指标? | 显性化 tradeoff, 由业务和风险 owner 接受残余风险 |
10. 作品集交付物
- AI Quality Attribute Taxonomy。
- Use Case Utility Tree。
- Quality Attribute Scenario Set。
- Architecture Tactic Matrix。
- Tradeoff / Sensitivity / Risk Register。
- AI ADR 集合。
- Eval Evidence Map。
- Release Gate Recommendation。
这套材料能证明你不是只会“画 AI 架构图”, 而是能解释这个架构在什么质量属性、风险和业务约束下成立。