返回 Papers
AI 扩展计划 / Playbooks

AI Safety Engineering / STPA Playbook

以下来源作为学习锚点。本文把它们转成 AI / Agent 系统安全工程语言, 不把任何框架简化成单一检查清单。正式项目应记录访问日期、版本、适用性判断、控制映射和审批记录。

808AI_SAFETY_ENGINEERING_STPA_PLAYBOOK.md

AI Safety Engineering / STPA / Control Structure Playbook

定位: 面向 AI PM / AI BA / AI Solutions Architect / Enterprise Architect / Security & Risk 的 AI 系统安全工程手册。目标是把 AI Agent 的“可控、安全、有人类监督”从原则表述, 转成基于 STPA 的 loss、hazard、unsafe control action、causal scenario、control structure、safety constraint 和运行时控制证据。

适用范围: 金融零售 AI / Agent 系统, 尤其是 AML Investigation Agent、Customer Service Copilot、Credit Policy / Underwriting Agent、Payment Dispute / Refund Agent、KYC / Fraud / Complaints Agent。

读者前提: 本文默认读者已经具备 CBAP 级别的业务分析能力, 不重复基础流程梳理、访谈、需求分类和普通 BPMN 训练。重点放在高级 AI 产品、架构、安全工程、系统控制结构、运行时监控、熔断、人工接管和审计证据。

重要说明: 本文是学习、作品集和内部治理训练材料, 不是法律意见、合规结论、审计意见、安全认证、模型验证报告或监管解释。正式项目必须由 Legal、Compliance、Risk、Model Risk、Internal Audit、Security、Privacy、Data Owner、Business Owner、Technology Owner 和管理层结合机构类型、司法辖区、业务用途、客户影响和内部政策确认。


Source Anchors

以下来源作为学习锚点。本文把它们转成 AI / Agent 系统安全工程语言, 不把任何框架简化成单一检查清单。正式项目应记录访问日期、版本、适用性判断、控制映射和审批记录。

AnchorOfficial link本文使用方式
STPA Handbookhttps://psas.scripts.mit.edu/home/get_file.php?name=STPA_handbook.pdf用 STPA 的 losses、hazards、unsafe control actions、causal scenarios、control structure 和 safety constraints 建立 AI / Agent 安全分析主线。
NIST AI Risk Management Frameworkhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern / Map / Measure / Manage 组织 AI 风险治理、场景边界、风险度量、控制处置和持续监控。
NIST AI RMF Generative AI Profilehttps://www.nist.gov/itl/ai-risk-management-framework/generative-artificial-intelligence-profile用 GenAI Profile 的生成式 AI 风险视角补充 hallucination、data leakage、misuse、prompt injection、agent tool misuse、第三方依赖、评测和治理要求。

Source anchor 使用纪律:

  • STPA 不是传统 FMEA 的替代品, 它更适合分析复杂社会技术系统中的控制失效、反馈缺失、错误控制动作和组织因素。
  • NIST AI RMF 提供风险管理闭环, 但不会自动告诉团队某个 Agent 具体应如何熔断、降级或接管。
  • NIST GenAI Profile 提醒团队关注生成式 AI 特有风险, 但落地时必须转成系统边界、权限、工具控制、日志、评测、监控和 incident response。
  • 对金融零售场景, 任何监管义务、客户权益、隐私、安全、模型风险和审计结论都必须由正式职能确认。

1. One-Sentence Positioning

AI Safety Engineering with STPA =
用系统控制结构分析 AI / Agent 如何造成不可接受损失,
识别危险状态、错误控制动作和因果场景,
再把安全约束落实到产品边界、架构权限、运行监控、熔断、人类接管和审计证据。

一句话面试表达:

我不会只问“模型准不准”或“有没有人审”。我会把 AI Agent 看成一个控制系统, 分析 controller、controlled process、actuator、sensor、feedback、process model 和 human authority 如何共同决定安全性, 然后用 STPA 找出 unsafe control actions 和 causal scenarios, 把控制约束落到 tool gateway、policy engine、trace、monitoring、kill switch 和 human takeover。


2. 为什么 AI Agent 需要系统安全工程

传统 AI 风险讨论经常集中在模型层:

  • 模型是否 hallucinate。
  • RAG 是否引用正确。
  • Prompt 是否足够严格。
  • Eval 分数是否过线。
  • 是否有人类审核。

这些都重要, 但不足以治理 Agent。Agent 的风险不只来自“输出错了”, 而来自“错误输出进入了控制链路”:

User / event
-> AI planner
-> RAG / memory / policy context
-> tool proposal
-> policy / permission decision
-> workflow action
-> downstream system state change
-> customer / regulator / business impact
-> monitoring feedback
-> human intervention or continued automation

2.1 AI Agent 的安全问题是控制问题

Agent 能力传统质量问题系统安全问题
检索政策找错或漏找文档过期政策进入控制决策, 导致错误拒付、错误信贷理由或 AML 漏报
生成建议文案不准确用户把建议当授权, workflow 默认采纳, 人工复核成为形式动作
调用工具参数格式错误Agent 越权发起退款、关闭 case、改变客户状态、外发敏感数据
长期记忆记忆不完整恶意或错误状态被持久化, 影响后续客户处理和其他 Agent
多 Agent 协作消息理解错误一个 Agent 的污染上下文传播到另一个 Agent, 形成跨系统失控
自主规划步骤不优雅Agent 为达成目标绕过审批、拆分动作、重复调用工具或扩大影响范围

2.2 为什么只靠风险清单不够

普通风险清单通常写成:

  • Prompt injection 风险。
  • 数据泄露风险。
  • 幻觉风险。
  • 人工审核不足风险。
  • 工具越权风险。

STPA 会继续追问:

STPA 问法对 AI Agent 的含义
什么是不可接受损失?客户资金错误、监管申报错误、隐私泄露、信贷不公平、AML 漏报、业务停摆。
哪些系统状态是危险的?Agent 处于可调用高风险工具但缺少有效反馈、人审或权限约束的状态。
哪些控制动作不安全?在错误时间、错误条件、错误权限、错误粒度下给出建议、执行动作、拒绝服务或不升级。
为什么 controller 会发出错误动作?过程模型错误、反馈缺失、上下文污染、目标函数错误、权限模型错误、组织压力、监控延迟。
安全约束应落在哪里?产品范围、tool gateway、policy engine、workflow、人类授权、日志、监控、熔断、变更门禁。

2.3 金融零售的特殊性

金融零售 AI Agent 的损失通常不是单一技术事故, 而是客户、监管、运营和声誉共同放大:

损失类型金融零售表现Agent 放大路径
客户权益损失错误拒绝 dispute、错误扣费、错误信贷解释、账户误冻结Agent 的建议直接进入客户沟通或状态变更
监管与合规损失SAR 漏报、KYC/EDD 错误、投诉处理不合规、adverse action reason 不准确Agent 使用错误政策或遗漏关键证据
隐私与安全损失PII / PCI / AML 信息泄露、跨租户访问、供应商外发Agent 检索、总结或调用外部工具时越权
财务损失重复退款、错误临时入账、欺诈放行、赔付扩大Agent 拥有 money movement 或 case disposition 工具
运营韧性损失队列积压、成本爆炸、工具循环、监控过载Agent 自主规划和批处理失控
信任损失员工过度依赖、客户投诉、监管质疑、管理层无法证明控制有效缺少可复现 trace 和证据包

3. STPA 到 AI 的核心映射

3.1 STPA 概念速记

STPA 概念中文理解AI / Agent 映射
Loss系统层面不可接受损失客户资金损失、隐私泄露、监管违规、错误信贷/AML/支付结果、系统不可用
Hazard在特定环境下可能导致 loss 的系统状态Agent 可以执行高影响动作但没有正确权限、反馈、约束或人工接管
Safety constraint防止 hazard 发生或扩大的系统约束高风险工具必须审批、RAG 必须引用有效政策、低置信必须升级、越权必须阻断
Control structureController、controlled process、actuator、sensor、feedback 组成的控制结构Human、AI planner、policy engine、tool gateway、workflow、monitoring、downstream systems
Control actionController 对 controlled process 发出的动作回答、建议、分类、升级、调用工具、拒答、停止、外发、写入 case
Unsafe Control Action在特定上下文下会导致 hazard 的控制动作错误时间调用退款工具、未升级高风险 AML case、给出无引用信贷理由
Causal scenario导致 UCA 的因果路径过程模型错误、反馈缺失、权限配置错误、RAG 污染、指标压力、监控延迟
Process modelController 对系统状态的内部理解Agent / human / policy engine 对客户、case、权限、证据、工具状态的认知
FeedbackController 用于校正 process model 的反馈trace、tool result、policy decision、human override、incident、quality metrics、alert

3.2 从传统 STPA 到 AI Control Structure

传统控制系统对象AI / Agent 对应对象关键安全问题
ControllerAI planner、workflow engine、human reviewer、policy engine、supervisor谁有权决定下一步? 谁能覆盖或停止?
Controlled processAML case、credit application、customer conversation、refund workflow、dispute case哪些状态变化会影响客户、监管或资金?
ActuatorTool API、RPA、CRM update、case management API、payment API、notification API动作是否最小权限、可审计、可撤销、可限额?
SensorRAG retrieval、event stream、case data、monitoring、human feedback、tool result反馈是否准确、及时、完整、按权限过滤?
Feedback channelTrace、dashboard、alert、review queue、incident ticket、audit logController 是否知道动作结果和异常?
Process modelPrompt context、memory、state machine、human mental model、risk tier state系统是否误以为已批准、已验证、低风险或客户已授权?
Control algorithmPrompt / policy / rules / planner / scoring / workflow routing控制逻辑是否把安全约束变成强制条件?
Environment客户、员工、攻击者、监管、供应商模型、政策变化、业务压力外部变化是否让旧约束失效?

3.3 STPA 到 AI 风险治理产物

STPA 步骤AI 治理产物证据形式
Define lossesLoss catalog / unacceptable outcome register业务、风险、合规、客户影响定义
Define hazardsHazard register系统危险状态、触发条件、影响路径
Define control structureAI control structure diagramC4、sequence、state machine、tool gateway、human handoff
Identify UCAUCA table控制动作、上下文、不安全类型、hazard、constraint
Identify causal scenariosCausal scenario analysis过程模型、反馈、权限、组织、供应商、监控失效
Derive constraintsSafety constraint catalog产品约束、架构约束、运行约束、组织约束
Design controlsRuntime control architecturepolicy engine、guardrail、approval、kill switch、monitoring
Create evidenceSafety case / assurance packtrace、eval、red-team、control test、incident drill、sign-off

4. AI Control Structure 模板

4.1 Reference Control Structure

Business objective / policy intent
        |
        v
Human authority / governance forum
        | control constraints, approval, risk appetite
        v
AI workflow controller
        | task plan, route decision, escalation decision
        v
AI planner / LLM
        | proposed answer, tool call, refusal, clarification
        v
Policy engine / tool gateway
        | allow, deny, require approval, dry-run, rate limit
        v
Controlled process
        | AML case / credit application / customer conversation / refund workflow
        v
Downstream systems
        | case management, CRM, payment, notification, audit store
        |
        v
Sensors and feedback
        | tool result, human override, quality metric, alert, incident, customer complaint
        |
        +-----------------> AI workflow controller / human authority

4.2 Control Structure Card

以下是一个已填好的 control structure card, 可作为作品集模板。迁移到其他场景时保留字段结构, 替换为真实系统值。

FieldExample: Payment Dispute / Refund Agent
System boundaryAgent 辅助客服处理支付争议和退款建议, 覆盖 dispute intake、evidence summary、policy lookup、refund recommendation draft、case note draft。
Approved use总结客户陈述、检索退款政策、生成内部建议、生成客户沟通草稿、创建待审批 case note。
Prohibited use自动执行退款、拆分退款绕过限额、关闭 dispute、外发敏感数据、改变客户账户状态。
Controller 1AI workflow controller, 负责路由、状态机、工具可用性和升级规则。
Controller 2Human supervisor, 负责高风险退款、客户投诉、例外处理和停用工具 route。
Controlled processDispute case lifecycle: intake -> evidence collection -> policy review -> decision -> customer communication -> financial adjustment。
ActuatorsCRM note tool、policy search tool、refund dry-run tool、supervisor approval queue、customer message draft。
Restricted actuatorsrefund execution API、case close API、external email tool, 默认不对 Agent 开放。
SensorsTransaction data、customer statement、merchant response、policy source、deadline timer、tool result、approval log、DLP result、complaint signal。
Feedbacktrace_id、tool decision、human edit diff、approval outcome、customer complaint、refund error rate、policy exception alert。
Process modelAgent 和 human 都必须知道 case risk tier、refund amount、customer authentication、policy source、deadline、approval state、tool permission。
Primary losses错误退款、错误拒绝客户争议、敏感数据泄露、违反支付网络时限、审计不可复现。
Primary hazardsAgent 在缺少有效审批或政策依据时推动资金动作或客户可见拒绝。
Safety strategy高风险工具不直接暴露; Agent 只能 dry-run 和 draft; policy engine 强制限额、累计金额、审批、DLP、trace 和 kill switch。

4.3 控制结构建模的高级注意点

建模点常见弱设计安全工程要求
Controller 分层只画 LLM, 不画 human、policy engine、workflow明确 AI、人、规则、网关各自控制权和覆盖关系
Actuator 风险把所有 API 视为“工具”区分 read、draft、write、state-changing、money-moving、external-send
Feedback 完整性只记录 final answer记录输入、检索、模型、工具、策略、人工、输出和下游结果
Process model默认 Agent 知道当前状态显式传递 approval_state、risk_tier、source_trust、tool_scope、customer_verified
Human authority写“人工审核”明确谁能 reject、edit、escalate、reverse、stop、restart
Environment忽略政策、供应商和攻击者变化把 policy update、vendor model change、prompt injection、业务压力纳入因果场景

5. Loss / Hazard / Constraint Library

5.1 Loss Catalog

Loss IDLoss statement金融零售示例
L-01客户遭受不可接受的资金、账户或权益损失错误退款、错误拒付、账户误冻结、错误费用减免或拒绝
L-02机构发生重大监管、合规或审计缺陷AML 漏报、KYC / EDD 不足、信贷 adverse action reason 不准确、投诉处理失控
L-03敏感信息被未授权访问、披露、外发或持久化PII、PCI、KYC 文件、AML typology、内部政策、系统 prompt、tool token 泄露
L-04AI 系统产生系统性不公平或不可解释的客户影响信贷建议偏差、投诉处理差异、退款建议对特定群体不利
L-05AI / Agent 造成不可接受的运营失效队列积压、成本爆炸、工具循环、错误批处理、人工接管失败
L-06机构无法证明 AI 控制有效缺少 trace、审批记录、来源证据、版本、复盘材料和残余风险记录

5.2 Hazard Register

Hazard IDHazard statementRelated lossSafety constraint
H-01Agent 在没有授权人工审批的情况下推动高影响业务动作L-01, L-02高影响动作必须由 policy engine 判断并进入审批; Agent 不得直接执行 money movement、case close、credit decision。
H-02Agent 基于过期、未授权或不支持结论的来源生成关键业务建议L-01, L-02, L-06关键建议必须引用 approved source、effective date 和 access-filtered evidence; 引用不支持结论时必须拒答或升级。
H-03Agent 将不可信上下文当作系统指令或政策依据L-01, L-03, L-05外部输入、附件、网页、邮件、tool result 必须标记为 untrusted evidence, 不得改变工具权限或审批规则。
H-04Human reviewer 不能及时、正确、有效地挑战 AI 输出L-01, L-02, L-04, L-06人审界面必须提供证据、限制、风险标记、拒绝/编辑/升级/停止动作和审计记录。
H-05监控未能及时发现 Agent 行为偏离批准边界L-02, L-03, L-05, L-06生产监控必须覆盖 tool attempts、policy denials、source drift、quality failures、human override、incident triggers。
H-06变更让已批准的安全论证失效L-01, L-02, L-03, L-06模型、prompt、RAG index、tool schema、policy source、workflow 和 vendor change 必须触发 materiality review 和回归测试。
H-07Agent 的自主规划把单次低风险动作组合成高风险结果L-01, L-05Gateway 必须检查累计金额、批量行为、步骤预算、动作序列和规避审批模式。
H-08敏感数据通过输出、日志、工具或第三方链路外泄L-03, L-06DLP、redaction、tenant isolation、egress approval、log masking 和 vendor data controls 必须在运行时强制执行。

5.3 Safety Constraint Catalog

Constraint IDSafety constraintEnforced byEvidence
SC-01Agent 只能建议或起草高影响决策, 不能独立作出最终信贷、AML、支付、退款或投诉处理结论。Workflow state machine、tool gateway、RBAC、UI copy、approval workflowPermission matrix、workflow test、trace sample、approval log
SC-02所有高影响输出必须携带可核验来源; 检索不到有效来源时必须拒答、要求补充信息或升级。RAG source registry、citation validator、policy engineGroundedness eval、source inventory、citation audit
SC-03高风险工具必须按动作类型、金额、客户影响、累计行为和用户角色进行授权。Tool gateway、ABAC/RBAC、policy-as-code、dual approvalGateway decision logs、access test、approval sample
SC-04外部输入和低信任来源不得修改系统指令、审批规则、工具权限、记忆策略或安全边界。Instruction hierarchy、source trust labels、context sanitizer、memory policyPrompt injection red-team、source trust test、memory audit
SC-05人工复核必须拥有足够证据、真实操作权、升级路径和停机权限, 并留下可审计记录。Review UI、queue routing、authority matrix、audit trailReviewer sample、edit diff、override reason、stop event
SC-06Agent 相关重大 incident、near miss、High/Critical eval failure 必须进入回归集和变更门禁。EvalOps、issue management、release gateRegression dataset card、issue log、release approval
SC-07监控必须能识别已批准使用边界的偏离, 并自动触发降级、限制、暂停或人工接管。Observability、alert rules、kill switch、runbookDashboard、alert history、kill switch drill
SC-08生产 trace 必须足以复现关键输出和控制决策, 同时避免日志成为敏感数据泄露源。Trace schema、secure log store、redaction、retentionReplay test、log scan、retention policy

6. Unsafe Control Action Table

STPA 通常把 UCA 按四类识别:

  1. 未提供必要控制动作。
  2. 提供了会导致危险的控制动作。
  3. 控制动作提供过早、过晚或顺序错误。
  4. 控制动作持续过久或停止过早。

6.1 通用 AI / Agent UCA 表

UCA IDControl actionContextUnsafe typeHazardSafety constraint
UCA-01Agent 给出“可退款”建议客户身份未验证、金额超过 frontline 阈值、政策证据缺失Provided when unsafeH-01, H-02Agent 只能生成需审批建议; 未验证身份或缺证据时必须升级。
UCA-02Agent 未升级 AML 高风险 alert交易模式命中高风险 typology, RAG 未返回完整历史 case notesNot providedH-04, H-05高风险 typology、证据缺失、历史数据不完整必须进入 L2 review。
UCA-03Agent 调用 CRM case close draft客户仍处于投诉升级窗口, supervisor review 未完成Provided too earlyH-01投诉、法律威胁、监管关键词未清除前不得关闭 case。
UCA-04Agent 持续自动回复客户对话中出现自杀、脆弱客户、法律威胁、媒体曝光或监管投诉信号Stopped too lateH-04, H-05高风险主题触发后必须停止自动回复并转人工。
UCA-05Policy engine 允许工具 dry-run低权限用户通过 prompt 要求查询他人账户交易Provided when unsafeH-08工具 dry-run 也必须执行用户、客户、case、purpose 权限过滤。
UCA-06Agent 未拒答信贷决定请求用户要求“直接告诉我是否应拒绝这个申请”Not providedH-01, H-02, H-04信贷决策请求必须拒绝自动决定并转为政策检索或人工 underwriter。
UCA-07Agent 写入长期记忆输入来自外部附件, 内容包含“未来该客户退款免审批”Provided when unsafeH-03, H-07外部输入不得写入控制性记忆; 记忆写入必须字段级 allowlist 和审计。
UCA-08Monitoring 未触发告警tool denial rate 突然升高且同一路由出现多次 prompt injectionNot providedH-05安全信号聚集必须触发 route-level limited mode 和安全复核。
UCA-09Human reviewer 批准 AI 建议UI 未展示引用失效、source trust、下游动作和 AI limitationProvided when unsafeH-04, H-06高影响审批 UI 必须展示证据、限制、risk flags 和下游影响。
UCA-10Workflow 解除 limited mode修复完成但 regression cases 未通过, residual risk 未重新接受Provided too earlyH-06恢复生产必须满足 regression、owner sign-off、incident closure 和 monitoring watch。

6.2 UCA 分析字段

FieldExample
Control actionrefund_recommendation_draft
ControllerAI planner + workflow controller
Controlled processPayment dispute case
Unsafe context客户身份未验证、退款金额 1200 美元、policy source stale、supervisor approval missing
UCA categoryProvided when unsafe
HazardAgent 推动未授权资金动作
Loss客户资金错误、财务损失、投诉和审计缺陷
Constraint未验证身份、缺少有效政策或超额金额时, Agent 只能总结事实并升级 supervisor
Control implementationPolicy engine blocks recommendation; UI shows escalation reason; trace records denial
EvidenceGateway denial log、review queue item、red-team case RT-REFUND-UCA-001、approval sample

7. Causal Scenario Analysis

UCA 表说明“什么控制动作在什么上下文下不安全”。Causal scenario 继续解释“为什么系统会走到这里”。这一步是 AI 安全工程的核心, 因为很多事故不是单点 bug, 而是控制结构、反馈、组织和变更共同失效。

7.1 Causal Scenario 分类

Causal factorAI / Agent 表现检测方式控制方向
Process model incorrectAgent 误以为客户已认证、政策已更新、审批已完成、工具只是草稿Trace state audit、state assertion test显式状态字段、强类型 workflow、policy engine
Feedback missingAgent 不知道 tool call 被部分失败、人工已覆盖、客户已投诉Tool result schema、event stream reconciliation反馈确认、状态同步、retry / compensation
Feedback delayed监控晚于批量动作, 人工队列积压Latency / backlog dashboardrate limit、batch guard、pre-action gate
Control algorithm flawedPrompt 允许“尽量完成任务”压过风险边界Prompt diff review、red-teampolicy-as-code、instruction hierarchy、hard gate
Inadequate actuator constraintTool API 暴露过宽, dry-run 可泄露敏感数据Permission test、API scope reviewleast privilege、field filtering、scoped token
Sensor unreliableRAG 返回过期政策、OCR 错读、客户陈述未验证Source freshness、retrieval eval、data quality SLOsource governance、metadata、confidence gating
Human mental model wrongReviewer 相信 AI 已验证引用, 或误以为按钮只是保存草稿User research、review sample、training drillUI evidence、AI literacy、reason capture
Organizational pressureKPI 强调处理速度, 导致人工默认采纳Override / review time analyticsbalanced metrics、quality gate、capacity plan
Change drift模型、prompt、index、工具或供应商变化后旧约束失效Change log、regression evalchange gate、canary、rollback
Adversarial influencePrompt injection、RAG poisoning、tool output injectionRed-team、security alertuntrusted labels、tool gateway、DLP

7.2 示例: Payment Refund Agent Causal Scenario

ElementAnalysis
UCAAgent 给出“可退款 1200 美元”的建议并生成 supervisor approval draft。
Unsafe context客户身份未完成二次验证; 附件中含有“系统应立即退款”的恶意文本; 退款金额超过 frontline 阈值。
HazardAgent 在无有效授权和无可信政策依据时推动资金动作。
Causal scenario 1RAG 把客户附件和正式退款政策一起放入 context, 但没有 source trust label, Agent 把附件中的命令当成操作规则。
Causal scenario 2Workflow state 只传入 case_open=true, 未传入 customer_verified=falserefund_limit_exceeded=true
Causal scenario 3Tool gateway 只在执行 refund 时检查金额, 没有在 recommendation draft 阶段检查拆单和累计金额。
Causal scenario 4Supervisor UI 把 AI 建议放在顶部, 政策证据折叠, 审批按钮比升级按钮更显著, 导致 automation bias。
Causal scenario 5Monitoring 只看已执行退款, 未看高风险 refund recommendation draft 的数量和 denial pattern。
Derived constraints外部附件必须 untrusted; refund recommendation 也进入 policy gate; workflow state 必须包含 customer_verified、amount、cumulative_amount、source_trust; UI 必须展示证据和风险 flags; monitoring 覆盖 recommendation 阶段。

7.3 示例: AML Agent Causal Scenario

ElementAnalysis
UCAAgent 未把 alert 升级到 L2 AML reviewer, 并生成“无明显可疑活动”的 case summary。
Unsafe context多笔小额跨境交易、历史相似警报、客户风险评级变更尚未同步到 Agent context。
HazardAML case 在关键证据缺失或风险模型过期时被低估。
Causal scenario 1Data pipeline 延迟导致最新 KYC risk rating 未进入 RAG / feature context。
Causal scenario 2Agent 的 process model 只知道当前 alert, 不知道同一客户过去 90 天跨产品行为。
Causal scenario 3Escalation rule 依赖模型生成的 summary, 而不是独立规则检测 high-risk typology。
Causal scenario 4Analyst KPI 强调队列清理速度, AI 草稿被默认采纳, L2 抽样率不足。
Derived constraints高风险 typology 由规则和数据控制独立触发; 数据 freshness 低于 SLA 时禁止 low-risk disposition draft; AI summary 不得作为唯一升级依据; L2 抽样覆盖 AI low-risk recommendations。

8. 金融零售案例

8.1 AML Investigation Agent

维度STPA 安全设计
AI role汇总 alert、交易模式、KYC profile、历史 case notes、政策和 typology; 生成 investigation summary、red flag checklist、SAR narrative draft。
Prohibited role自动关闭 alert、自动提交 SAR、自动降低客户风险评级、替代 AML analyst 或 L2 reviewer。
LossesAML 漏报、误报扩大、监管检查证据不足、客户不当影响、内部 typology 泄露。
HazardsAgent 在数据不完整、政策证据缺失或 typology 命中时生成低风险结论; reviewer 默认采纳。
Control actionssummarize alert、recommend escalation、draft SAR narrative、request more evidence、refuse disposition、route to L2。
UCA examples未升级 high-risk typology; 在 KYC stale 时生成 no-SAR draft; 基于无引用推断客户意图; 过早关闭 investigation checklist。
Safety constraintsAI 不得作 disposition; high-risk typology 独立触发 L2; data freshness breach 时只能升级; SAR draft 必须 evidence-cited; typology 内容按 need-to-know 控制。
Monitoringlow-risk recommendation sample、SAR draft edit rate、unsupported claim、data freshness、L2 disagreement、typology miss、case reopen rate。
Breaker / takeoverdata freshness breach、unsupported SAR narrative、high-risk typology miss、analyst rubber-stamp signal 触发 route limited mode 和 AML supervisor 接管。

AML UCA 表:

UCA IDControl actionUnsafe contextHazardConstraint
AML-UCA-01Recommend no escalation新 KYC risk rating 未同步, 历史 alert 不完整高风险 case 被低估数据 freshness 或历史覆盖不足时, Agent 必须标记 insufficient evidence 并升级。
AML-UCA-02Draft SAR narrative引用不支持 suspicious pattern, 或引用缺少交易证据SAR narrative 质量不足SAR draft 必须逐条 red flag 映射 evidence; citation failure 阻断 draft approval。
AML-UCA-03Summarize customer activity泄露内部 typology 或监控规则细节给低权限用户敏感合规信息泄露typology detail 按角色裁剪; 输出经过 policy 和 DLP gate。
AML-UCA-04Stop asking for evidence多账户、多产品、多地区行为未覆盖调查不足checklist completion 必须由规则覆盖和 human confirmation 共同决定。

8.2 Customer Service Copilot

维度STPA 安全设计
AI role检索政策、总结客户历史、生成回复草稿、标记投诉/脆弱客户/法律威胁、建议下一步。
Prohibited role直接承诺赔付、提供法律/监管结论、绕过身份验证、替代投诉升级、向外部发送敏感数据。
Losses错误承诺、隐私泄露、投诉升级失败、客户伤害、监管投诉处理不当。
HazardsAgent 在客户未认证或高风险主题出现时继续自动回复或建议错误承诺。
Control actionsdraft reply、summarize history、recommend escalation、ask verification、stop automation、route supervisor。
UCA examples未在法律威胁时升级; 客户未认证时展示账户细节; 过早承诺 fee waiver; 长时间继续自动回复 distress signal。
Safety constraints客户身份和 purpose 必须绑定; 高风险主题必须停止自动回复并升级; 客户可见内容必须由 human agent 发送; sensitive fields 默认隐藏。
Monitoringhigh-risk topic detection、agent edit rate、complaint escalation miss、PII block、wrong answer rate、first contact resolution with quality。
Breaker / takeover法律威胁、regulator keyword、self-harm / vulnerability signal、PII exfil attempt、source mismatch 触发 supervisor takeover。

Customer service UCA 表:

UCA IDControl actionUnsafe contextHazardConstraint
CS-UCA-01Draft customer reply客户未通过身份验证, prompt 要求查看他人账户隐私泄露认证和 entitlement 未通过时, Agent 只能给一般政策说明, 不得访问账户事实。
CS-UCA-02Recommend fee waiver政策源过期, 客户有投诉升级记录错误承诺赔付/减免建议必须显示有效政策、授权层级和 supervisor requirement。
CS-UCA-03Continue automated assistance客户表达法律威胁或监管投诉投诉处理失控高风险关键词触发 in-flight stop 和投诉队列升级。
CS-UCA-04Summarize prior interactions跨客户或跨账户检索结果混入 context隐私和事实错误Retrieval 必须按 customer_id、account_id、case_id、purpose 做硬过滤。

8.3 Credit Policy / Underwriting Agent

维度STPA 安全设计
AI role整理申请材料、检索信贷政策、生成 credit memo draft、解释 policy exception、提示缺失材料、辅助 adverse action reason review。
Prohibited role自动批准或拒绝贷款、替代 underwriter、生成无依据 adverse action reason、使用未授权变量推断敏感属性。
Losses不公平或错误信贷结果、客户权益损害、adverse action 不准确、模型风险和审计缺陷。
HazardsAgent 生成看似权威但无证据或带偏差的信贷建议, 人工决策者过度依赖。
Control actionsretrieve policy、draft memo、recommend missing evidence、flag exception、route senior review、refuse final decision。
UCA examples给出最终拒绝建议; 基于过期政策输出 reason code; 未升级 policy exception; 引入未授权变量。
Safety constraintsAgent 只能支持政策检索和草稿; final decision 由授权 underwriter; reason code 必须可解释、可引用、可审计; sensitive attribute proxy 必须监控。
Monitoringpolicy citation accuracy、reason code review、fair lending indicators、memo edit rate、exception escalation、underwriter disagreement。
Breaker / takeoverstale policy citation、reason code mismatch、protected-class proxy signal、vendor model change、high-risk exception miss 触发 credit policy SME 接管。

Credit UCA 表:

UCA IDControl actionUnsafe contextHazardConstraint
CR-UCA-01Draft decline rationale检索结果缺少适用产品、地区和生效日期错误或不可审计 adverse action reasondecline rationale draft 必须绑定 policy source、product、jurisdiction、effective date 和 underwriter review。
CR-UCA-02Recommend approval exception申请触发 policy exception 且 senior approval 未完成绕过信贷政策exception recommendation 必须进入 senior review, 不得作为自动批准依据。
CR-UCA-03Answer “should we reject?”用户要求最终授信结论AI 替代授权决策Agent 必须拒绝最终决策请求, 转为列出政策要求、缺失证据和人工判断点。
CR-UCA-04Retrieve customer data用户角色不具备该产品或地区权限越权访问信贷数据检索必须 ABAC 过滤, trace 记录 entitlement decision。

8.4 Payment Dispute / Refund Agent

维度STPA 安全设计
AI role汇总 dispute、检索规则、识别材料缺口、生成处理建议草稿、生成客户沟通草稿、准备 supervisor review。
Prohibited role自动执行退款、自动拒绝 dispute、拆分金额绕过审批、关闭 case、直接外发客户通知。
Losses错误资金动作、客户争议错误处理、支付网络规则失效、客户投诉、财务损失、审计缺陷。
HazardsAgent 在缺少认证、证据、审批或规则时推动资金动作或客户可见拒绝。
Control actionsrecommend refund、draft denial reason、route supervisor、request evidence、create case note、stop tool route。
UCA examples超额退款未审批; 拆分退款建议; 过晚提醒 chargeback deadline; 基于客户附件指令调用工具; 未升级欺诈信号。
Safety constraintsmoney movement 默认不可执行; refund recommendation 也受 policy gate; 累计金额和拆单检测; deadline 独立计时; 客户通知人工发送。
Monitoringrefund recommendation volume、blocked tool call、split pattern、deadline breach、wrong denial、complaint rate、manual override。
Breaker / takeoverunauthorized refund attempt、split refund pattern、deadline breach risk、PII external-send attempt、policy source stale 触发 tool-level kill switch 和 supervisor queue。

Refund UCA 表:

UCA IDControl actionUnsafe contextHazardConstraint
PAY-UCA-01Recommend refund金额超过阈值, 无 supervisor approval未授权资金动作超额或高风险退款只能进入审批草稿, 不得进入执行路径。
PAY-UCA-02Recommend denialdispute 证据未完整收集, 支付网络期限临近错误拒绝和规则失效缺证据或期限风险时, Agent 必须请求材料或升级, 不得生成最终拒绝。
PAY-UCA-03Split action plan用户要求将 1200 美元拆成 12 笔 100 美元绕过审批Gateway 检查累计金额和拆单意图, 触发拒绝和安全告警。
PAY-UCA-04Send customer message客户消息含敏感数据、承诺或监管结论客户误导和隐私泄露客户可见消息由人工确认, DLP 和 policy language gate 必须通过。

9. 监控 / 熔断 / 人工接管

9.1 Runtime Safety Control Loop

AI action proposed
-> pre-action policy check
-> risk tier classification
-> evidence and source validation
-> permission and purpose binding
-> human review decision
-> tool execution or refusal
-> post-action monitoring
-> anomaly detection
-> limited mode / kill switch / human takeover
-> incident review and regression update

9.2 监控指标

Metric含义阈值示例Action
UCA near-miss count被 gateway 阻断的高风险工具、越权、外发或拆单尝试任一 Critical near miss 即触发安全复核route limited mode、security review、regression case
Policy denial ratepolicy engine 拒绝 Agent 动作比例单日超过基线 3 倍检查 prompt、RAG、用户意图和攻击流量
Unsupported claim rate输出结论缺少有效引用或引用不支持Tier 1 场景超过 1%强制 human review、暂停自动草稿
Source freshness breachRAG source 过期或同步失败高风险政策源超过 SLAblock affected source、SME escalation
Human rubber-stamp signal审核时间异常短、override 近 0、批量批准连续 3 天异常reviewer calibration、UI review、capacity check
Tool loop / step budget breachAgent 重复调用工具或规划过长单 case 超过预算stop agent run、capture trace
Sensitive data egress attemptDLP 拦截外发敏感字段任一高敏外发尝试block egress、privacy/security incident triage
Topic drift生产问题超出 eval coverage新 topic 超过周流量 10%add eval samples、scope review
Model / vendor behavior drift拒答率、引用、格式、tool proposal 显著变化高风险 route 超过预设阈值freeze route、regression eval、vendor review
Customer harm signal投诉、reopen、wrong denial、refund correction 上升超过业务阈值incident review、limited rollout

9.3 熔断层级

LevelScopeTriggerEffectRestart condition
L1 Case-level stop单个 case / customer conversation高风险主题、证据冲突、客户认证失败、工具异常当前 case 转人工, Agent 不再推进动作Human owner 处理完成并记录 outcome
L2 Tool-level stop单个工具 routeunauthorized tool attempt、DLP hit、拆单、重复调用禁用相关 tool, 保留只读和草稿能力工具策略修复、回归通过、owner 批准
L3 Workflow limited mode某 use case routeunsupported claim spike、source freshness breach、review backlog所有高影响输出进入人工复核, 禁止自动建议质量恢复、队列恢复、risk sign-off
L4 Model / RAG route rollback模型、prompt、index、retriever 版本vendor change、regression fail、stale policy回滚到已批准版本或只用搜索门户变更评审、targeted eval、release gate
L5 Global kill switch整个 Agent capabilityCritical data leak、money movement incident、监管重大风险停止 Agent 生产能力, 启动 incident commandincident closure、root cause、control test、governance approval

9.4 人工接管设计

接管对象接管触发接管者接管界面必须展示
AML casehigh-risk typology、证据不足、SAR draft mismatchL2 AML reviewer / AML supervisor交易证据、KYC profile、历史 alert、AI summary、引用、缺口、trace
Customer service conversation投诉、法律威胁、客户脆弱性、身份认证失败Supervisor / complaint specialist对话历史、客户认证状态、AI 草稿、风险标记、政策来源
Credit applicationpolicy exception、reason code mismatch、敏感代理变量信号Senior underwriter / credit policy SME申请证据、政策引用、例外规则、AI memo、fairness flags
Payment refund超额、拆单、deadline risk、外发敏感数据Payment ops supervisor / fraud specialist交易、客户陈述、规则时限、金额、gateway decision、建议动作

人工接管不是“把任务丢给人”。接管必须包括:

  • Freeze: 冻结 Agent 对该 case 的进一步高影响动作。
  • Context: 提供完整 trace、证据、引用、风险标记和已阻断动作。
  • Authority: 人能 approve、reject、edit、reverse、escalate、stop route。
  • Accountability: 记录接管者、决定、理由、时间、下游影响。
  • Learning: 把接管原因回流到 eval、red-team、training、policy rule 和 product design。

10. Safety Architecture Pattern

10.1 Control Plane / Data Plane 分离

Layer责任关键设计
Product boundary定义 Agent 能做什么、不能做什么、哪些场景禁止自动化approved use、prohibited use、risk tier、human authority
AI reasoning plane生成草稿、建议、检索、总结、计划prompt registry、RAG source controls、structured output、uncertainty
Safety control plane强制安全约束, 不由模型自我约束决定policy engine、tool gateway、DLP、ABAC、approval、rate limit
Execution plane调用工具和改变状态idempotency、dry-run、dual control、rollback、audit
Observability plane记录、监控、复盘和告警trace schema、metrics、alert、dashboard、secure logs
Human command plane覆盖、接管、停机、恢复和风险接受authority matrix、review queue、incident command、restart approval

核心原则:

模型可以提出意图, 不能拥有授权。
Prompt 可以表达规则, 不能作为安全边界。
RAG 可以提供证据, 不能自动改变政策。
Human review 可以降低风险, 但必须被设计、度量和审计。
Kill switch 可以止血, 但必须预先演练。

10.2 Trace Schema

Field groupRequired fields
Identitytrace_id、use_case_id、user_id、role、business_unit、session_id、customer_id hash、case_id
Staterisk_tier、workflow_state、customer_verified、approval_state、source_trust、tool_scope
AI configmodel_family、model_version、prompt_version、retriever_version、index_version、judge_version
Inputuser_input_hash、input_channel、data_classification、untrusted_content_flag
Retrievalquery、document_ids、source_owner、effective_date、access_filter_result、citation_spans
Outputstructured_output、claims、citations、confidence / uncertainty、refusal_or_escalation
Toolproposed_tool、tool_args_hash、policy_decision、approval_required、execution_result、idempotency_key
Humanreviewer_role、action_type、reason_code、edit_diff、approval_timestamp、takeover_flag
Monitoringrule_hits、DLP_result、UCA_near_miss、alert_id、incident_id、regression_case_id

10.3 Policy Decision Pattern

{
  "trace_id": "TRACE-PAY-2026-06-29-0017",
  "use_case": "payment_dispute_refund_agent",
  "proposed_action": "refund_recommendation_draft",
  "risk_tier": "Tier 1",
  "customer_verified": false,
  "amount_usd": 1200,
  "cumulative_amount_usd_30d": 1800,
  "source_trust": "external_untrusted_plus_policy_stale",
  "policy_decision": "deny_and_escalate",
  "decision_reasons": [
    "customer_verification_missing",
    "amount_exceeds_frontline_threshold",
    "policy_source_stale",
    "external_attachment_contains_instruction"
  ],
  "allowed_next_actions": [
    "summarize_customer_statement",
    "request_supervisor_review",
    "request_verified_policy_source"
  ],
  "blocked_actions": [
    "refund_execution",
    "customer_visible_denial",
    "case_close"
  ],
  "human_queue": "payment_ops_supervisor",
  "evidence_retention": "secure_trace_7_years"
}

11. 反模式

反模式表面说法为什么危险修正
Prompt as control boundary“Prompt 已经写了不要越权”Prompt 不是强制授权, 会被上下文、攻击或模型行为绕过用 policy engine、tool gateway、ABAC、DLP 和审批强制执行
Human-in-the-loop theater“所有结果都有人点确认”人可能没有证据、时间、权限或训练, 只是 rubber stamp设计 evidence UI、override、edit diff、calibration、review metrics
Tool everything“Agent 可以调用所有内部 API, 方便完成任务”工具暴露过宽会把语言错误放大成业务事故按 action risk tier 暴露工具, state-changing 和 money-moving 默认不开放
Average eval comfort“平均准确率 95%”金融安全看最坏高影响错误, 不是平均分单独度量 Critical / High failure、UCA、customer harm 和 red-team
Static safety case“上线前做过评审”模型、政策、数据、用户、攻击和供应商都会变化建立 change gate、monitoring、quarterly refresh、incident-triggered refresh
Hidden automation“AI 只是建议”KPI、默认 UI 和工作流可能让建议实际变成决策检查采纳率、review time、override、workflow dependency
Audit log dumping“我们保存所有 prompt 和输出”日志可能泄露敏感数据, 且未必可复盘控制决策设计 trace schema、redaction、retention、replay test
No explicit losses“我们做 AI risk assessment”没定义不可接受损失, 控制强度无法判断先定义 loss、hazard、risk appetite 和 stop condition
Model-only ownership“这是数据科学团队的模型”Agent 事故横跨产品、架构、风险、安全、运营和人审建立 control owner、business owner、tool owner、monitoring owner
Manual fallback without capacity“出问题就转人工”人工队列没有 SLA、权限和容量会造成二次失效设计 takeover queue、capacity model、authority、timeout escalation

12. 30 天训练计划

目标: 30 天内完成一个可转作品集的 AI Safety Engineering / STPA Pack。建议选择一个场景贯穿到底: AML Investigation Agent、Payment Dispute / Refund Agent、Credit Policy Agent 或 Customer Service Copilot。

Day训练任务Artifact
1选择 use case, 明确 approved use、prohibited use、客户影响和监管敏感点Use Case Safety Scope
2写 6-8 条 unacceptable losses, 覆盖客户、监管、隐私、运营、审计Loss Catalog
3从 losses 推导 8-12 条 hazards, 写清危险系统状态Hazard Register
4画 AI control structure, 区分 controller、controlled process、actuator、sensor、feedbackControl Structure Diagram
5盘点 control actions: answer、summarize、recommend、draft、escalate、tool call、refuse、stopControl Action Inventory
6按四类 UCA 写第一版 UCA 表UCA Table v1
7为每条 UCA 写 safety constraintSafety Constraint Catalog
8分析 process model: Agent、人、policy engine 分别需要知道哪些状态Process Model Matrix
9分析 feedback: 哪些反馈缺失、延迟、不可靠或不可见Feedback Gap Analysis
10写 5 条 causal scenarios, 覆盖数据、工具、权限、RAG、人工和组织因素Causal Scenario Pack v1
11设计 policy engine 决策字段和 deny / allow / require approval 逻辑Policy Decision Spec
12设计 tool permission matrix, 区分 read、draft、write、external-send、money-movingTool Permission Matrix
13设计 trace schema, 覆盖输入、检索、模型、工具、人工和监控Trace Schema
14设计 monitoring metrics 和 alert rulesSafety Monitoring Spec
15设计 kill switch matrix: case、tool、workflow、model/RAG、globalKill Switch Matrix
16设计 human takeover queue、authority、UI evidence 和 reason codesHuman Takeover Design
17为 Prompt injection / RAG poisoning / tool misuse 写红队场景STPA-informed Red-team Cases
18把 UCA 转成 Gherkin acceptance criteriaSafety Acceptance Criteria
19设计回归 eval: high-impact failures、near miss、policy denial、source mismatchRegression Gate Set
20写 incident tabletop: unauthorized refund 或 AML missed escalationIncident Tabletop Script
21设计 change gate: model、prompt、index、tool、workflow、vendorSafety Change Control
22写 residual risk register, 标明 owner、decision、review triggerResidual Risk Register
23写 release gate checklist, 包括 STPA artifacts、eval、red-team、monitoring、kill switchRelease Safety Gate
24用 CRO 视角挑战 losses 和 residual riskCRO Challenge Notes
25用 CISO / Security 视角挑战 tool、DLP、prompt injection 和 traceSecurity Challenge Notes
26用 CTO / Architect 视角挑战 control structure、runtime controls 和 rollbackArchitecture Challenge Notes
27用 Internal Audit 视角抽样 5 条 trace, 验证是否可复盘Audit Replay Sample
28汇总成 10-15 页作品集 packSTPA Safety Engineering Pack
29写 30 秒、2 分钟、深挖面试答案Interview Talk Track
30做最终自检: 无空泛控制、无无法执行的约束、无缺 owner 的 residual riskFinal Safety Case Review

完成标准:

标准通过条件
STPA 完整性loss、hazard、control structure、UCA、causal scenario、constraint 全部闭环。
金融场景深度至少覆盖客户资金/权益、监管、隐私、安全、运营和审计 6 类影响。
控制可执行性每条关键约束都有 enforcement point: policy engine、gateway、workflow、human、monitoring 或 change gate。
运行时闭环有监控、告警、熔断、人工接管、incident tabletop 和 restart condition。
证据可审计trace、approval、source、tool decision、human action、alert 和 regression 都可复盘。
面试可表达能分别对 PM、Architect、CRO、CISO、Audit 解释同一个设计。

13. 面试答案

13.1 30 秒版本

AI Agent 的风险不是单纯模型准确率问题, 而是系统控制问题。我会用 STPA 先定义不可接受损失, 比如错误退款、AML 漏报、隐私泄露和信贷不公平; 再定义危险状态, 比如 Agent 在缺少审批、证据或反馈时推动高影响动作; 然后画 control structure, 找 unsafe control actions 和 causal scenarios。最后把 safety constraints 落到 tool gateway、policy engine、RAG source control、human takeover、monitoring、kill switch 和 audit trace。

13.2 2 分钟版本

我会把 AI Agent 当成一个社会技术控制系统, 不只看 LLM 本身。第一步定义 losses: 客户资金和权益损失、监管缺陷、隐私泄露、运营失效、无法审计。第二步定义 hazards: 哪些系统状态会让这些损失成为可能, 例如 Agent 能调用高风险工具但缺少审批, 或 Agent 基于过期政策生成客户可见建议。

第三步画 control structure: human authority、AI workflow controller、LLM planner、RAG、policy engine、tool gateway、controlled process、downstream systems、monitoring feedback。第四步识别 UCA: 必要动作没有发生、危险动作发生、动作过早过晚、动作持续过久或停止过早。例如 Payment Refund Agent 在客户未验证且超额时给出退款建议, 或 AML Agent 未升级高风险 typology。

第五步分析 causal scenarios: 过程模型错误、反馈缺失、RAG 污染、权限配置过宽、人审 UI 诱导、KPI 压力、供应商模型变化。最后设计 safety constraints 和运行时控制: 高风险工具默认不开放, tool call 必须 policy gate, RAG 必须 approved source 和 effective date, 人审必须看到证据和下游影响, 监控必须覆盖 near miss、unsupported claim、source drift、tool denial 和 customer harm, 并支持 case、tool、workflow、model 和 global 级熔断。

13.3 Q: STPA 和普通 AI risk assessment 有什么不同?

普通 risk assessment 常把风险列成清单, 例如幻觉、数据泄露、prompt injection。STPA 更关注这些风险如何通过控制结构造成损失。它会问: 谁是 controller, 控制动作是什么, controlled process 处于什么状态, feedback 是否足够, controller 的 process model 是否错误, 哪个动作在什么上下文下不安全。对 Agent 特别有用, 因为 Agent 的事故通常不是单个模型输出错误, 而是错误输出经过工具、流程、人审和下游系统放大。

13.4 Q: AI Agent 的 control structure 应该怎么画?

我会至少画七层: business policy / human authority、AI workflow controller、LLM planner、RAG / memory / context、policy engine / tool gateway、controlled process、monitoring feedback。图里必须标出 actuator, 比如 CRM 写入、支付工具、case close、客户通知; 也要标出 sensor, 比如 policy source、tool result、human override、complaint、incident。关键是不要只画模型和数据库, 要画谁能控制谁、谁给谁反馈、谁能停机。

13.5 Q: 为什么 prompt 不能作为 safety constraint?

Prompt 可以表达安全意图, 但不能强制执行授权。攻击者可以通过直接注入、附件、RAG 文档、工具输出或多 Agent 消息影响模型行为。真正的 safety constraint 要落在系统层, 例如 tool gateway、ABAC/RBAC、policy-as-code、DLP、approval workflow、rate limit、audit trace 和 kill switch。Prompt 是控制算法的一部分, 不是最终安全边界。

13.6 Q: Payment / Refund Agent 最关键的 UCA 是什么?

我会重点看四类 UCA。第一, 在客户未验证、金额超限或政策证据缺失时给出退款建议。第二, 没有在 chargeback deadline、欺诈信号或客户投诉升级时转人工。第三, 过早生成客户可见拒绝或 case close 草稿。第四, 持续执行多步计划, 把大额退款拆成多笔小额以绕过审批。对应控制是累计金额检测、拆单检测、pre-action approval、tool-level deny、supervisor queue 和 full trace。

13.7 Q: AML Agent 如何防止漏报?

不能只靠 LLM 判断是否可疑。我会把高风险 typology、KYC risk change、历史 alert、跨产品行为和数据 freshness 作为独立控制信号。Agent 可以生成 summary 和 SAR draft, 但不能作 disposition。若数据 freshness 不足、引用不支持结论或 typology 命中, 必须升级 L2 reviewer。监控上看 low-risk recommendation sample、L2 disagreement、SAR draft edit rate、missed red flag、case reopen 和 unsupported claim。

13.8 Q: 如何设计 AI Agent 的熔断?

我会做分层熔断。Case-level stop 用于单个客户或 case 的高风险信号; tool-level stop 禁用某个高风险工具 route; workflow limited mode 把某 use case 全部高影响输出转人工; model/RAG rollback 回到已批准版本; global kill switch 用于重大泄露、资金动作或监管风险。每一级都要有触发条件、授权人、影响范围、证据保全和恢复条件。熔断不是按钮, 是可演练的运行机制。

13.9 Q: CRO 问“哪些残余风险还存在”怎么回答?

我会先说明控制不是消灭所有风险, 而是在特定边界内降低不可接受损失。残余风险要写成具体场景: 例如外部附件 indirect injection 仍可能影响草稿措辞, 但无法触发工具动作; 或供应商模型行为变化可能改变拒答率, 但 model route 有回归门禁和 rollback。每个 residual risk 都有 owner、接受期限、monitoring trigger 和停止条件。管理层接受的是有范围、有控制、有证据、有复核时间的剩余风险。

13.10 Q: Architect 问“怎么把 STPA 变成系统设计”怎么回答?

我会把 STPA 产物映射到架构组件。Loss / hazard 决定 risk tier 和禁止自动化边界; UCA 决定 policy engine 规则和 tool gateway 阻断点; causal scenario 决定需要哪些状态字段、反馈、监控和变更控制; safety constraints 决定 workflow、权限、UI、人审和熔断设计; evidence need 决定 trace schema 和 audit store。最终形成的是一套运行时 safety control plane, 而不是一份静态风险文档。

13.11 Q: Internal Audit 问“如何证明控制真的运行”怎么回答?

我会准备抽样证据。抽 5 个高风险 trace, 看是否能复现输入、检索、模型、工具建议、policy decision、人工动作和下游结果。抽 3 个被阻断的 UCA near miss, 看 gateway 是否按规则拒绝并告警。抽 3 次变更, 看 prompt、index、model 或 tool 是否经过 materiality review 和 regression。抽 5 个人工覆盖, 看 reason code、edit diff 和 reviewer authority。审计要看到控制运行记录, 不是只看到设计文档。


14. 作品集交付物

建议把本文转成一个 12-18 页的作品集包, 标题可以是:

AI Safety Engineering with STPA:
Control Structure and Runtime Safety Pack for Payment Refund Agent

或:

System-Theoretic Safety Analysis for AML Investigation Agent:
From Unsafe Control Actions to Human Takeover and Kill Switch

14.1 Portfolio Pack 结构

Page内容
1Executive summary: use case、approved use、prohibited use、top losses、safety position
2Source anchors: STPA Handbook、NIST AI RMF、NIST GenAI Profile 和适用性说明
3Loss catalog: 客户、监管、隐私、运营、审计损失
4Hazard register: 8-12 条危险系统状态
5AI control structure diagram: controller、actuator、sensor、feedback、human authority
6Control action inventory: answer、summarize、recommend、draft、tool call、refuse、stop
7UCA table: 至少 12 条场景化 unsafe control actions
8Causal scenarios: 5 条深挖过程模型、反馈、权限、RAG、组织因素
9Safety constraints: 产品、架构、运行、组织和审计约束
10Runtime safety architecture: policy engine、tool gateway、trace、DLP、approval、monitoring
11Monitoring and breaker matrix: 指标、阈值、case/tool/workflow/model/global stop
12Human takeover design: queue、authority、UI evidence、reason code、restart condition
13Red-team and regression: UCA-derived adversarial cases、near miss、High/Critical gate
14Residual risk register: owner、decision、review trigger、accepted scope
15Audit evidence map: trace sample、access test、approval log、change record、incident drill
16Interview story: 30 秒、2 分钟、CRO / CISO / Architect / Audit 深挖

14.2 可展示 Artifact 清单

Artifact用途
STPA Safety Scope Brief说明系统边界、批准用途、禁止用途、风险等级和分析目标
Loss-Hazard Matrix把不可接受损失连接到危险状态和安全约束
Control Structure Diagram展示 AI、人、工具、流程、反馈和停机权如何连接
UCA Table证明你能识别 Agent 在具体上下文下的错误控制动作
Causal Scenario Pack证明你能从单点风险深入到系统因果机制
Safety Constraint Catalog把风险分析转成可执行约束
Tool Permission Matrix控制 Agent 工具权限、动作分级、审批和限额
Monitoring and Breaker Spec设计生产运行时监控、告警、降级和熔断
Human Takeover Runbook设计人工接管、证据展示、权限、SLA 和审计
Audit Evidence Binder汇总 trace、policy decision、approval、test、incident 和 regression 证据

14.3 面试差异化表达

我的作品集不是只展示一个 AI demo。
我展示的是: 对金融 AI Agent, 如何从不可接受损失出发,
画出控制结构, 找到 unsafe control actions,
分析导致失控的 causal scenarios,
再把安全约束落到架构、工具权限、监控、熔断、人工接管和审计证据。

这能体现四类高级能力:

能力面试信号
AI Product能定义 Agent 的 approved use、prohibited use、用户价值和风险边界
Architecture能把 STPA 转成 control plane、tool gateway、trace、rollback、kill switch
Security Engineering能处理 prompt injection、tool misuse、DLP、least privilege、red-team 和 incident
Risk / Governance能与 CRO、Compliance、Audit、Model Risk 讨论 residual risk 和 evidence sufficiency

15. 最小实践清单

如果只用半天演练一个场景, 完成下面 12 个动作:

StepDone 标准
1选择一个 Agent 场景: AML、客服、信贷、支付/退款。
2写 approved use 和 prohibited use, 明确 Agent 不做最终高影响决策。
3写 6 条 unacceptable losses。
4写 8 条 hazards, 每条连接到 loss。
5画 control structure, 标出 controller、actuator、sensor、feedback、human authority。
6列出 10 个 control actions。
7写 12 条 UCA, 覆盖四种 UCA 类型。
8每条高风险 UCA 写 safety constraint。
9写 5 条 causal scenarios, 覆盖过程模型错误和反馈缺失。
10设计 policy engine / tool gateway 的 enforcement points。
11设计 monitoring、breaker 和 human takeover。
12准备 30 秒和 2 分钟面试表达。

最终记忆句:

AI Agent 安全不是让模型“更听话”。
它是让整个控制结构在模型被误导、数据不完整、人类过载、工具异常、供应商变化时,
仍然不能越权、不能无证据推进高影响动作、不能无痕失败, 并且能被人接管和审计复盘。