返回 Papers
AI 底层逻辑 / 经典论文

AI Security Operations:MITRE ATLAS、OWASP 与 NIST CSF

一句话:

254ai-foundations/papers/46-ai-security-operations-mitre-atlas-owasp-csf.md

AI Security Operations / MITRE ATLAS / OWASP LLM Top 10 解读

面向对象: AI Security Architect / AI Platform PM / SOC Lead / Enterprise Architect / Risk Ops。 核心问题: AI 安全不能只在上线前红队一次。如何把 LLM、RAG、Agent、工具网关、模型服务和数据链路纳入持续安全监控、检测、响应和控制有效性管理? 学习目标: 理解 MITRE ATLAS、OWASP LLM Top 10、NIST CSF、AI telemetry、detection engineering、incident runbook 和 purple team,并映射到金融零售 AI SOC。


Source Anchors

SourceLink用途
MITRE ATLAShttps://atlas.mitre.org/理解 adversarial threats to AI systems 的战术技术知识库
OWASP LLM Top 10https://owasp.org/www-project-top-10-for-large-language-model-applications/理解 LLM 应用关键风险,如 prompt injection、data leakage、excessive agency
NIST Cybersecurity Frameworkhttps://www.nist.gov/cyberframework用 Govern、Identify、Protect、Detect、Respond、Recover 组织 AI SecOps
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework把安全风险和 AI 风险治理连接
Cloud Security Alliance AI Safety Initiativehttps://cloudsecurityalliance.org/ai-safety-initiative参考 AI 安全控制、治理和云环境实践

一句话:

AI SecOps 是把 AI 系统的 prompt、retrieval、tool call、model call、policy decision、data access 和 user feedback 变成可监控、可检测、可响应的安全运营面。


1. 为什么传统 SOC 不够

传统 SOC 看:

  • endpoint。
  • network。
  • identity。
  • cloud。
  • application logs。
  • SIEM alerts。

AI 系统新增:

  • prompt injection。
  • malicious retrieved content。
  • tool misuse。
  • excessive agency。
  • sensitive information disclosure。
  • model denial of service。
  • data poisoning。
  • model theft。
  • unsafe output handling。
  • RAG permission leakage。

这些事件常常不会表现成传统漏洞利用,而是:

用户输入 + 检索上下文 + 模型行为 + 工具调用 + 策略缺口

所以 AI SOC 需要新的 telemetry。


2. AI Telemetry Schema

最低可用字段:

类别字段
Identityuser_id、role、tenant、agent_id、session_id
Requestprompt hash、risk tier、channel、business object
Retrievalquery、document IDs、ACL decision、source version
Modelprovider、model、version、temperature、token count
Tooltool name、action、resource、arguments hash、result、side effect
PolicyPDP decision、policy version、deny reason、approval state
Safetyinjection score、PII detection、toxicity/safety classifier
Outcomeresponse category、user action、human override、incident flag
Cost/SLOlatency、cost、cache hit、rate limit

隐私控制:

  • 不一定保存原始 prompt。
  • 对敏感 payload 做 hash、mask 或受控保留。
  • trace retention 分级。
  • 安全调查需要 break-glass 和审计。

3. Detection Engineering

AI detection rules 示例:

检测信号
Prompt injection attempt输入或检索文档包含越权指令、ignore policy、exfiltration pattern
RAG permission leakageretrieved doc ACL 与 user entitlement 不一致
Tool misuse低权限 session 调用高风险工具
Excessive agencyagent 连续执行多个副作用动作且无审批
Data exfiltration输出包含敏感字段、批量导出、异常 token volume
Model DoS超长上下文、递归工具、异常重试
Jailbreak successpolicy violation 后仍生成禁止内容
Code agent secret exposurePR 或日志中出现 secret pattern
Model abuse同一 actor 高速探测边界

成熟检测不是只靠关键词:

  • 规则。
  • 分类器。
  • policy diff。
  • anomaly detection。
  • sequence pattern。
  • human analyst review。
  • purple-team generated cases。

4. NIST CSF 映射

CSF functionAI SecOps 映射
GovernAI security policy、risk tier、ownership、third-party control
IdentifyAI asset inventory、model/tool/data map、threat model
Protectaccess control、tool gateway、guardrails、DLP、segmentation
DetectAI telemetry、prompt/tool/RAG detection、SIEM rules
Respondincident triage、containment、kill switch、customer response
Recoverrollback、model/prompt revert、corpus cleanup、postmortem

AI 安全运营要把 AI RMF 的风险治理和 CSF 的安全运营连接起来。


5. 金融零售案例

5.1 客服 AI 数据泄露

事件:

  • 客户问一个普通问题。
  • RAG 召回了无权限内部文档。
  • 模型输出了敏感字段。

检测:

  • ACL mismatch。
  • sensitive output detector。
  • unusual citation source。

响应:

  • 关闭相关 corpus。
  • 回滚检索配置。
  • 查询受影响会话。
  • 通知 privacy/compliance。
  • 更新 permission tests。

5.2 Agent 越权调用工具

事件:

  • Agent 被 prompt injection 诱导调用 CRM write tool。

检测:

  • action risk tier mismatch。
  • policy deny event。
  • repeated blocked tool calls。

响应:

  • kill session。
  • freeze tool connector。
  • preserve trace。
  • purple-team reproduce。
  • update policy and test suite。

5.3 Code Agent Secret Exposure

事件:

  • Code Agent 在 PR 中意外输出 secret。

检测:

  • secret scanning。
  • repo permission trace。
  • agent action audit。

响应:

  • revoke secret。
  • rotate credential。
  • quarantine PR。
  • review agent context policy。

6. AI Incident Severity

Severity示例默认响应
SEV0客户数据泄露、资金动作越权、大规模高风险错误kill switch、exec/risk/legal/privacy、customer impact review
SEV1权限绕过、工具误用、关键 guardrail 失效containment、rollback、forensic trace
SEV2局部 policy violation、低风险错误输出patch、monitor、user notification as needed
SEV3检测误报、低影响异常tune rules、document

每个 severity 需要:

  • incident commander。
  • technical lead。
  • business owner。
  • risk/compliance/privacy/security owner。
  • communications owner。

7. Control Effectiveness

AI SecOps 不是告警越多越好,而是控制有效。

控制有效性指标
Prompt injection detectortrue positive、false positive、bypass found by purple team
Tool gatewayhigh-risk action blocked、approval bypass = 0
RAG ACL filterunauthorized retrieval = 0
DLPsensitive output blocked、investigation false positive
Rate limitmodel DoS prevented、legitimate user impact
Kill switchmean time to disable model/tool/corpus
Incident runbooktabletop completion、MTTD、MTTR

8. 面试表达

30 秒版本

AI 安全运营要把 LLM/RAG/Agent 的关键行为变成 telemetry: prompt、retrieval、tool call、policy decision、model version、输出和人工 override。然后基于 MITRE ATLAS、OWASP LLM Top 10 和 NIST CSF 建检测、响应和恢复流程。AI SOC 的目标不是只做一次红队,而是持续监控 prompt injection、权限泄露、工具误用和数据外泄。

2 分钟版本

我会先做 AI asset inventory 和 threat model,然后定义 AI telemetry schema,把用户身份、RAG 文档、模型调用、工具动作、policy decision、safety classifier 和 cost/SLO 写入 trace。检测规则包括 prompt injection、RAG ACL mismatch、high-risk tool misuse、sensitive output disclosure、model DoS 和 code agent secret exposure。响应上要有 severity matrix、kill switch、connector quarantine、corpus rollback、model/prompt revert 和 evidence preservation。最后通过 purple team 和 control effectiveness dashboard 证明控制有效。

架构师版本

AI SecOps architecture 包括 AI gateway telemetry、policy engine logs、tool gateway logs、RAG lineage、SIEM/SOAR integration、detection rule catalog、incident runbook、forensic trace store 和 purple-team harness。它是 AI 平台从 demo 到 regulated production 的安全运营层。


9. 作品集任务

设计一个“金融客服 AI SOC”:

  1. 写 AI telemetry schema。
  2. 设计 12 条检测规则。
  3. 按 MITRE ATLAS / OWASP LLM Top 10 做 threat mapping。
  4. 写 SEV0-SEV3 severity matrix。
  5. 画 SIEM/SOAR integration map。
  6. 写 prompt injection incident runbook。
  7. 设计 purple-team exercise 和 control dashboard。