返回 Papers
AI 底层逻辑 / 经典论文

AI Quality Attributes / ATAM:架构权衡

一句话:

339ai-foundations/papers/64-ai-quality-attributes-atam-architecture-tradeoff.md

AI Quality Attributes / ATAM / Architecture Tradeoff 解读

面向对象: Enterprise Architect / AI Architect / AI PM / Senior BA / Model Risk / Engineering Lead。 核心问题: AI 系统的架构争论经常停在“RAG 还是 fine-tune”“用哪个模型”“要不要 agent”。真正的架构问题是质量属性权衡: 准确性、groundedness、延迟、成本、隐私、安全、可解释、可审计、可变更、韧性和人工控制如何同时成立, 又在哪些场景必须取舍。 学习目标: 借助 SEI 的 ATAM 思想, 把 AI 架构评审从方案偏好升级为 quality attribute scenarios、utility tree、tradeoff point、sensitivity point 和 risk 的结构化分析。


Source Anchors

SourceLink用途
SEI Architecture Tradeoff Analysis Methodhttps://insights.sei.cmu.edu/library/the-architecture-tradeoff-analysis-method/参考 ATAM 的质量属性、架构策略、风险、权衡点和效用树方法
ISO/IEC/IEEE 42010https://www.iso-architecture.org/ieee-1471/参考 stakeholder、concern、viewpoint 的架构描述思想
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework将质量属性连接到 AI 风险的 Map / Measure / Manage
NIST GenAI Profilehttps://www.nist.gov/itl/ai-risk-management-framework/generative-artificial-intelligence-profile参考生成式 AI 特有风险, 如 hallucination、data leakage、harmful output、overreliance

一句话:

AI ATAM 是用质量属性场景和权衡分析, 判断一个 AI 架构在业务价值、风险、成本和演进约束下是否可接受。


1. 从功能评审转向质量属性评审

AI 架构最危险的误区是只问功能:

  • 能不能回答问题?
  • 能不能接入知识库?
  • 能不能调用工具?
  • 能不能生成报告?

高级评审要问质量属性:

  • 在什么任务分布下准确?
  • 对哪些错误类型必须零容忍?
  • 知识源过期时如何表现?
  • 延迟和成本达到什么水平才可规模化?
  • 模型输出如何被解释、引用、审计和复盘?
  • 用户如何知道 AI 的能力边界?
  • 供应商模型升级后如何回归测试?
  • agent 失败时系统如何降级、熔断和人工接管?

功能决定“系统能做什么”; 质量属性决定“系统是否值得上线、能否扩展、能否被信任、能否长期运营”。


2. AI Quality Attributes Taxonomy

质量属性AI 场景中的定义常见指标
Task Accuracy对目标任务的正确程度task accuracy、F1、exact match、human acceptance
Groundedness输出是否受授权来源支持citation precision、unsupported claim rate
Calibration置信表达是否匹配真实可靠性confidence-error correlation、escalation appropriateness
Robustness对噪声、长尾、攻击和分布变化的稳定性adversarial pass rate、drift impact
Safety是否避免客户、财务、合规和操作伤害critical failure rate、unsafe action rate
Privacy是否保护个人、敏感和机密数据PII leakage rate、data minimization compliance
Security是否抵抗 prompt injection、tool abuse、data exfiltrationattack success rate、policy bypass rate
Explainability是否能让用户和审计者理解依据rationale quality、citation coverage
Auditability是否能重建输入、版本、决策和输出trace completeness、log retention compliance
Latency用户工作流可接受的响应时间p50/p95/p99 latency
Cost Efficiency单次任务成本和规模化成本cost per case、monthly burn
Modifiability业务规则、知识、模型、prompt 变化的成本change lead time、regression effort
Resilience依赖失败、模型退化、流量峰值下的恢复能力fallback success、MTTR
Human Controllability人能否理解、纠正、拒绝、接管override success、review load
Fairness对不同群体是否产生系统性不利影响disparity metrics、impact analysis

这些属性不会全部最大化。架构工作就是让权衡显性化。


3. ATAM 如何迁移到 AI

经典 ATAM 关注:

  1. 业务驱动因素。
  2. 架构方案。
  3. 质量属性场景。
  4. 架构策略。
  5. 效用树。
  6. 风险、非风险、敏感点和权衡点。

AI 版本可以扩展成:

Business Driver
  -> AI Capability Boundary
  -> Quality Attribute Scenario
  -> Architecture Tactic
  -> Eval Evidence
  -> Risk / Tradeoff / Sensitivity Point
  -> ADR and Release Gate

3.1 Quality Attribute Scenario

模板:

Source:
  谁触发场景?

Stimulus:
  什么事件发生?

Environment:
  正常、高峰、模型升级、知识过期、攻击、人工忙碌?

Artifact:
  模型、RAG、agent、API、工作流、数据源、日志?

Response:
  系统应如何响应?

Response Measure:
  用什么指标判断响应可接受?

例子:

Source:
  AML analyst

Stimulus:
  请求 AI 总结高风险 alert 的交易链路和可疑点

Environment:
  客户历史资料完整, 但部分交易备注为空; alert 属于高风险 typology

Artifact:
  AML Copilot RAG + case summarizer

Response:
  输出事实摘要、引用交易证据、标注推断, 并提示必须人工复核

Response Measure:
  critical fact omission rate <= 1%
  citation precision >= 96%
  high-risk escalation recall >= 98%
  p95 latency <= 6s

4. AI Utility Tree

效用树把质量属性按业务价值和风险优先级排序。

AI Customer Service Copilot Utility Tree

Business Goal:
  降低处理时长, 提升政策一致性, 不增加投诉和合规风险。

High Priority
  Safety
    - 不输出未经授权退款承诺
    - 高风险投诉必须升级
  Groundedness
    - 政策回答必须引用授权知识源
  Human Controllability
    - 客服可编辑、拒绝、升级、反馈

Medium Priority
  Latency
    - p95 <= 4s
  Cost Efficiency
    - cost per case <= target
  Explainability
    - 展示政策依据和更新时间

Lower Priority
  Tone Optimization
    - 语气更自然
  Personalization
    - 根据客户历史定制表达

排序原则:

  • 先客户权益和合规风险。
  • 再任务正确性和可控制性。
  • 再效率、成本和体验优化。
  • 最后是风格和锦上添花能力。

5. 架构策略与权衡

架构策略改善牺牲 / 风险
RAG with citationsgroundedness、freshness、auditabilitylatency、retrieval quality、权限复杂度
Fine-tune风格一致、领域表达、低延迟数据治理、更新成本、遗忘风险
Model routing成本、延迟、任务适配行为一致性、测试复杂度
Human-in-the-loopsafety、control、accountability运营成本、处理时长、人工负载
Guardrail layersafety、policy compliancefalse positive、用户摩擦、维护成本
Tool allowlistagent safety、least privilege自动化能力受限
Immutable audit logauditability、incident review存储成本、隐私和访问控制
Cachecost、latencystale answer、个性化风险
Shadow mode风险降低、证据积累上线周期变长
Canary release控制爆炸半径运维复杂度

架构评审要明确哪些是 tradeoff point:

  • 更强模型可能提升准确性, 但增加成本、延迟、供应商依赖和数据风险。
  • 更高自动化可能提升效率, 但降低人工控制和错误可恢复性。
  • 更严格 guardrail 可能降低违规输出, 但增加误拒和业务摩擦。
  • 更长上下文可能提高召回, 但增加成本、延迟和信息泄漏面。

6. 金融零售案例

6.1 AML Copilot

最高优先级不是生成流畅报告, 而是:

  • 不遗漏关键事实。
  • 事实和推断分离。
  • 引用可审计。
  • 高风险场景强制人工复核。
  • 能在调查链路中保留证据。

Tradeoff:

选择获得代价
使用 RAG 引用交易和政策auditability、groundednessretrieval latency、权限过滤复杂
禁止自动关闭 alertsafety、regulatory defensibility效率收益有限
强制 analyst review控制和责任清晰人工负载仍在

6.2 信贷 Decision Support

质量属性要覆盖:

  • explanation consistency。
  • fairness impact。
  • adverse action reason accuracy。
  • override auditability。
  • policy update modifiability。

如果只优化 approval prediction accuracy, 会误伤客户权益和合规可解释性。

6.3 Wealth Advisor Assistant

关键权衡:

  • 个性化 vs 合规边界。
  • 建议深度 vs suitability review。
  • 实时市场信息 vs 数据许可和更新。
  • conversational UX vs disclosure 和审计记录。

7. AI ATAM Workshop Agenda

1. Business driver briefing
   - outcome, constraints, risk tier, target users

2. Architecture overview
   - model, RAG, tools, data flow, human workflow, monitoring

3. Quality attribute elicitation
   - stakeholders define top concerns

4. Scenario generation
   - normal, edge, adversarial, incident, scale, change scenarios

5. Utility tree prioritization
   - importance x difficulty x risk

6. Tactic analysis
   - architecture tactics mapped to scenarios

7. Risk / sensitivity / tradeoff identification
   - record as ADR candidates

8. Evidence plan
   - eval, monitoring, pilot, audit evidence

9. Release recommendation
   - pass, conditional pass, redesign, reject

8. 评审清单

问题通过标准
是否有质量属性场景, 而不是只有功能清单?每个高风险能力至少 3 个场景
是否区分 normal / edge / adversarial / drift?eval set 覆盖四类
是否明确 tradeoff point?每个关键方案至少写出牺牲项
是否有 sensitivity point?找出对阈值、模型、知识源、流量敏感的参数
是否有 owner?每个高优先级属性绑定 owner
是否连接 release gate?质量属性有对应 eval / monitoring
是否记录 ADR?关键权衡写入 AI ADR

9. 面试回答

Q1: 你如何评审一个 AI 架构是否可上线?

30 秒版本:

我不会只看功能是否跑通, 会用 AI ATAM 方式评审质量属性: 对关键业务场景定义 accuracy、groundedness、safety、privacy、latency、cost、auditability、human control 等场景和阈值, 再识别权衡点、敏感点和残余风险, 最后把证据连接到 release gate 和 ADR。

Q2: RAG 和 fine-tune 怎么选?

30 秒版本:

我会把它变成质量属性权衡题。若需求强调知识新鲜度、可引用、权限过滤和审计, RAG 通常优先; 若强调稳定风格、领域表达、低延迟和固定任务模式, fine-tune 可能有价值。实际项目常是混合方案, 关键是用 eval 和风险约束证明选择。

追问准备:

追问回答要点
模型越强是否越好?不一定, 要看成本、延迟、数据风险、可控性和任务收益
为什么需要 utility tree?帮助 stakeholder 对质量属性优先级达成一致
如何处理冲突指标?显性化 tradeoff, 由业务和风险 owner 接受残余风险

10. 作品集交付物

  1. AI Quality Attribute Taxonomy。
  2. Use Case Utility Tree。
  3. Quality Attribute Scenario Set。
  4. Architecture Tactic Matrix。
  5. Tradeoff / Sensitivity / Risk Register。
  6. AI ADR 集合。
  7. Eval Evidence Map。
  8. Release Gate Recommendation。

这套材料能证明你不是只会“画 AI 架构图”, 而是能解释这个架构在什么质量属性、风险和业务约束下成立。