AI 底层逻辑 / 经典论文

AI Security Operations：MITRE ATLAS、OWASP 与 NIST CSF

一句话:

254 行ai-foundations/papers/46-ai-security-operations-mitre-atlas-owasp-csf.md

AI Security Operations / MITRE ATLAS / OWASP LLM Top 10 解读

面向对象: AI Security Architect / AI Platform PM / SOC Lead / Enterprise Architect / Risk Ops。核心问题: AI 安全不能只在上线前红队一次。如何把 LLM、RAG、Agent、工具网关、模型服务和数据链路纳入持续安全监控、检测、响应和控制有效性管理？学习目标: 理解 MITRE ATLAS、OWASP LLM Top 10、NIST CSF、AI telemetry、detection engineering、incident runbook 和 purple team，并映射到金融零售 AI SOC。

Source Anchors

Source	Link	用途
MITRE ATLAS	https://atlas.mitre.org/	理解 adversarial threats to AI systems 的战术技术知识库
OWASP LLM Top 10	https://owasp.org/www-project-top-10-for-large-language-model-applications/	理解 LLM 应用关键风险，如 prompt injection、data leakage、excessive agency
NIST Cybersecurity Framework	https://www.nist.gov/cyberframework	用 Govern、Identify、Protect、Detect、Respond、Recover 组织 AI SecOps
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	把安全风险和 AI 风险治理连接
Cloud Security Alliance AI Safety Initiative	https://cloudsecurityalliance.org/ai-safety-initiative	参考 AI 安全控制、治理和云环境实践

一句话:

AI SecOps 是把 AI 系统的 prompt、retrieval、tool call、model call、policy decision、data access 和 user feedback 变成可监控、可检测、可响应的安全运营面。

1. 为什么传统 SOC 不够

传统 SOC 看:

endpoint。
network。
identity。
cloud。
application logs。
SIEM alerts。

AI 系统新增:

prompt injection。
malicious retrieved content。
tool misuse。
excessive agency。
sensitive information disclosure。
model denial of service。
data poisoning。
model theft。
unsafe output handling。
RAG permission leakage。

这些事件常常不会表现成传统漏洞利用，而是:

用户输入 + 检索上下文 + 模型行为 + 工具调用 + 策略缺口

所以 AI SOC 需要新的 telemetry。

2. AI Telemetry Schema

最低可用字段:

类别	字段
Identity	user_id、role、tenant、agent_id、session_id
Request	prompt hash、risk tier、channel、business object
Retrieval	query、document IDs、ACL decision、source version
Model	provider、model、version、temperature、token count
Tool	tool name、action、resource、arguments hash、result、side effect
Policy	PDP decision、policy version、deny reason、approval state
Safety	injection score、PII detection、toxicity/safety classifier
Outcome	response category、user action、human override、incident flag
Cost/SLO	latency、cost、cache hit、rate limit

隐私控制:

不一定保存原始 prompt。
对敏感 payload 做 hash、mask 或受控保留。
trace retention 分级。
安全调查需要 break-glass 和审计。

3. Detection Engineering

AI detection rules 示例:

检测	信号
Prompt injection attempt	输入或检索文档包含越权指令、ignore policy、exfiltration pattern
RAG permission leakage	retrieved doc ACL 与 user entitlement 不一致
Tool misuse	低权限 session 调用高风险工具
Excessive agency	agent 连续执行多个副作用动作且无审批
Data exfiltration	输出包含敏感字段、批量导出、异常 token volume
Model DoS	超长上下文、递归工具、异常重试
Jailbreak success	policy violation 后仍生成禁止内容
Code agent secret exposure	PR 或日志中出现 secret pattern
Model abuse	同一 actor 高速探测边界

成熟检测不是只靠关键词:

规则。
分类器。
policy diff。
anomaly detection。
sequence pattern。
human analyst review。
purple-team generated cases。

4. NIST CSF 映射

CSF function	AI SecOps 映射
Govern	AI security policy、risk tier、ownership、third-party control
Identify	AI asset inventory、model/tool/data map、threat model
Protect	access control、tool gateway、guardrails、DLP、segmentation
Detect	AI telemetry、prompt/tool/RAG detection、SIEM rules
Respond	incident triage、containment、kill switch、customer response
Recover	rollback、model/prompt revert、corpus cleanup、postmortem

AI 安全运营要把 AI RMF 的风险治理和 CSF 的安全运营连接起来。

5. 金融零售案例

5.1 客服 AI 数据泄露

事件:

客户问一个普通问题。
RAG 召回了无权限内部文档。
模型输出了敏感字段。

检测:

ACL mismatch。
sensitive output detector。
unusual citation source。

响应:

关闭相关 corpus。
回滚检索配置。
查询受影响会话。
通知 privacy/compliance。
更新 permission tests。

5.2 Agent 越权调用工具

事件:

Agent 被 prompt injection 诱导调用 CRM write tool。

检测:

action risk tier mismatch。
policy deny event。
repeated blocked tool calls。

响应:

kill session。
freeze tool connector。
preserve trace。
purple-team reproduce。
update policy and test suite。

5.3 Code Agent Secret Exposure

事件:

Code Agent 在 PR 中意外输出 secret。

检测:

secret scanning。
repo permission trace。
agent action audit。

响应:

revoke secret。
rotate credential。
quarantine PR。
review agent context policy。

6. AI Incident Severity

Severity	示例	默认响应
SEV0	客户数据泄露、资金动作越权、大规模高风险错误	kill switch、exec/risk/legal/privacy、customer impact review
SEV1	权限绕过、工具误用、关键 guardrail 失效	containment、rollback、forensic trace
SEV2	局部 policy violation、低风险错误输出	patch、monitor、user notification as needed
SEV3	检测误报、低影响异常	tune rules、document

每个 severity 需要:

incident commander。
technical lead。
business owner。
risk/compliance/privacy/security owner。
communications owner。

7. Control Effectiveness

AI SecOps 不是告警越多越好，而是控制有效。

控制	有效性指标
Prompt injection detector	true positive、false positive、bypass found by purple team
Tool gateway	high-risk action blocked、approval bypass = 0
RAG ACL filter	unauthorized retrieval = 0
DLP	sensitive output blocked、investigation false positive
Rate limit	model DoS prevented、legitimate user impact
Kill switch	mean time to disable model/tool/corpus
Incident runbook	tabletop completion、MTTD、MTTR

8. 面试表达

30 秒版本

AI 安全运营要把 LLM/RAG/Agent 的关键行为变成 telemetry: prompt、retrieval、tool call、policy decision、model version、输出和人工 override。然后基于 MITRE ATLAS、OWASP LLM Top 10 和 NIST CSF 建检测、响应和恢复流程。AI SOC 的目标不是只做一次红队，而是持续监控 prompt injection、权限泄露、工具误用和数据外泄。

2 分钟版本

我会先做 AI asset inventory 和 threat model，然后定义 AI telemetry schema，把用户身份、RAG 文档、模型调用、工具动作、policy decision、safety classifier 和 cost/SLO 写入 trace。检测规则包括 prompt injection、RAG ACL mismatch、high-risk tool misuse、sensitive output disclosure、model DoS 和 code agent secret exposure。响应上要有 severity matrix、kill switch、connector quarantine、corpus rollback、model/prompt revert 和 evidence preservation。最后通过 purple team 和 control effectiveness dashboard 证明控制有效。

架构师版本

AI SecOps architecture 包括 AI gateway telemetry、policy engine logs、tool gateway logs、RAG lineage、SIEM/SOAR integration、detection rule catalog、incident runbook、forensic trace store 和 purple-team harness。它是 AI 平台从 demo 到 regulated production 的安全运营层。

9. 作品集任务

设计一个“金融客服 AI SOC”:

写 AI telemetry schema。
设计 12 条检测规则。
按 MITRE ATLAS / OWASP LLM Top 10 做 threat mapping。
写 SEV0-SEV3 severity matrix。
画 SIEM/SOAR integration map。
写 prompt injection incident runbook。
设计 purple-team exercise 和 control dashboard。