返回 Papers
AI 扩展计划 / Playbooks

AI Security Operations / SOC Playbook

以下来源用于建立术语、控制映射和运营语言。正式项目应记录访问日期、版本、内部 policy mapping 和控制 owner。

1,019AI_SECURITY_OPERATIONS_SOC_PLAYBOOK.md

AI Security Operations / AI SOC Playbook

定位:面向 AI Security Architect / AI Platform PM / SOC Lead / Risk Ops / Enterprise Architect 的 AI 安全运营手册。 目标:把 LLM、RAG、Agent、代码 Agent、风控模型和 AI 平台网关的运行时风险,转成 SOC 可监控、可检测、可响应、可复盘、可度量的运营体系。 核心结论:AI Security Operations 不是在传统 SIEM 里多加几个关键词告警。真正的 AI SOC 要把 prompt、context、retrieval、model、tool、policy、DLP、identity、approval、egress、eval 和 incident evidence 串成可关联的 telemetry graph。

重要说明:本文是学习与作品集材料,不构成法律、监管、审计或正式安全评估意见。金融零售正式项目必须由 Security、Privacy、Legal、Compliance、Model Risk、Operational Risk、Business Owner、Technology Owner、Internal Audit 共同确认适用要求、证据保留、客户补救和外部通知义务。


Source Anchors

以下来源用于建立术语、控制映射和运营语言。正式项目应记录访问日期、版本、内部 policy mapping 和控制 owner。

SourceOfficial link本文使用方式
MITRE ATLAShttps://atlas.mitre.org/用 adversary tactics / techniques 组织 AI attack detection、attack path、case study、purple-team scenario 和 incident analysis。
MITRE ATLAS Datahttps://github.com/mitre-atlas/atlas-data作为 ATLAS living knowledge base 的结构化数据锚点,便于把 rule catalog 映射到 technique、mitigation 和 case study。
OWASP Top 10 for LLM Applications 2025https://genai.owasp.org/llm-top-10/用 LLM01 到 LLM10 建立 prompt injection、sensitive information disclosure、supply chain、data/model poisoning、improper output handling、excessive agency、system prompt leakage、vector weakness、misinformation、unbounded consumption 的检测覆盖。
NIST Cybersecurity Framework 2.0https://www.nist.gov/cyberframework用 Govern、Identify、Protect、Detect、Respond、Recover 组织 AI SOC 能力、runbook、SIEM/SOAR、incident criteria 和恢复闭环。
NIST CSF 2.0 PDFhttps://nvlpubs.nist.gov/nistpubs/CSWP/NIST.CSWP.29.pdf用 CSF Core 的 Detect / Respond / Recover 结果语言对齐安全运营、事件分析、沟通和恢复。
NIST AI Risk Management Frameworkhttps://www.nist.gov/itl/ai-risk-management-framework用 Govern、Map、Measure、Manage 把 AI SOC 接入 AI inventory、risk tier、monitoring、management reporting 和 residual risk。
NIST AI RMF Generative AI Profilehttps://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence用 GenAI lifecycle、AI actor、data privacy、information security、value chain、human-AI configuration 等风险语言补强 AI SOC 场景。
Cloud Security Alliance AI Controls Matrix v1.1https://cloudsecurityalliance.org/artifacts/ai-controls-matrix-v1-1用 AICM 的 AI 控制目标、角色责任、生命周期和审计指南组织 control effectiveness dashboard 与 evidence pack。
Cloud Security Alliance Cloud Controls Matrix v4.1https://cloudsecurityalliance.org/artifacts/cloud-controls-matrix-v4-1用云安全控制、CAIQ 和持续审计指标连接 AI 平台底座、供应商、日志、访问控制和安全责任边界。

框架组合方式:

Framework最适合回答的问题在本文中的落点
MITRE ATLAS攻击者怎样针对 AI 系统行动detection engineering、purple team、incident attack path、threat intel enrichment
OWASP LLM Top 10LLM / GenAI 应用有哪些高频风险rule coverage、test coverage、policy gate、product acceptance criteria
NIST CSF 2.0SOC 如何治理、检测、响应和恢复AI SOC operating model、runbook、SIEM/SOAR、metrics、management reporting
NIST AI RMF / GenAI ProfileAI 风险如何进入企业治理和生命周期AI risk tier、monitoring design、residual risk、model risk evidence
CSA AICM / CCM控制如何落成可审计的 cloud / AI evidencecontrol objective、owner、implementation evidence、audit sampling

1. 一句话定位

传统 SOC 擅长处理 endpoint、network、identity、cloud、app、email 和 vulnerability signals。AI SOC 要补上四类新信号:

AI SOC signal传统 SOC 为什么容易漏需要新增的运营能力
语义攻击payload 不是固定 IOC,而是自然语言、文档、网页、邮件、代码注释、tool result 中的指令冲突prompt / context classification、instruction hierarchy、semantic similarity、LLM-as-judge calibration
代理动作事故不一定是系统被攻破,而是 Agent 被诱导调用合法工具做非法动作tool gateway telemetry、policy decision log、approval evidence、side-effect tracking
检索污染攻击入口可能是 RAG 文档、embedding index、memory、feedback、供应商知识库retrieval provenance、source trust、ACL verification、index lineage、memory write log
输出外泄数据可能通过模型回答、摘要、日志、外部 ticket、邮件、webhook、代码 diff 被带出DLP for AI output、egress correlation、redaction audit、vendor route control

这份手册训练出的能力:

角色高级能力可展示交付物
AI Security Architect设计 AI telemetry、detection、response 和 control effectiveness 架构AI SOC Reference Architecture、Telemetry Schema、SIEM Integration Map
AI Platform PM把安全运营产品化为平台能力和上线门禁Detection Backlog、Risk-Tiered Alert UX、Control Dashboard、Runbook Pack
SOC Lead把 AI-native risk 纳入 SOC L1/L2/L3 与 incident commandDetection Rule Catalog、Severity Matrix、SOAR Playbooks、Analyst Triage Guide
Risk Ops把 AI security signal 转成风险事件、控制缺口和管理报告Risk Event Taxonomy、Control Effectiveness Dashboard、Residual Risk Register
Enterprise Architect把 AI SOC 接入企业架构、数据治理、身份、供应商和审计C4 / Data Flow、Control Mapping、Evidence Binder、Architecture Decision Record

一句话记忆:

AI SOC = AI telemetry + semantic detection + tool/action control + incident response + control effectiveness.

2. 与现有学习资产的关系

本文不替代已有 AI 安全文档,而是补上“运行时安全运营”和“SOC 工程化”这一层。

现有文档已提供能力本手册补强
docs/AI_THREAT_MODELING_RED_TEAM_PLAYBOOK.md威胁建模、红队、Agent 安全、攻击路径、tabletop。把红队场景转成持续检测规则、SOC triage、SIEM/SOAR 和 control effectiveness。
docs/AI_PLATFORM_SECURITY_GATEWAY_LAB.md安全网关、tool gateway、policy engine、approval、DLP、kill switch。把 gateway 事件转成 telemetry schema、correlation rules、runbooks 和 dashboard。
docs/AI_INCIDENT_POSTMORTEM_RELIABILITY_PLAYBOOK.mdAI incident taxonomy、severity、containment、postmortem、reliability review。补强安全类 AI incident 的检测、分流、证据拉取、SOAR 自动化和 purple-team 回归。
docs/AI_MODEL_RISK_MANAGEMENT_PLAYBOOK.mdAI inventory、validation、ongoing monitoring、change control、effective challenge。把 SOC 发现的攻击、滥用、控制失效变成 MRM monitoring evidence 和 issue remediation。
docs/AI_PRIVACY_DATA_PROTECTION_PLAYBOOK.md隐私、数据最小化、DLP、数据权利、敏感数据治理。补强输出外泄、KYC 文档外泄、日志二次泄露和隐私事故分级。
docs/AI_RETRIEVAL_EVAL_GRAPH_RAG_PLAYBOOK.mdRAG / GraphRAG 检索质量、证据、eval、知识治理。补强 RAG prompt injection、ACL bypass、poisoned source、retrieval anomaly 的检测和响应。

推荐学习顺序:

  1. AI_PLATFORM_SECURITY_GATEWAY_LAB.md 建立安全网关和 tool boundary。
  2. AI_THREAT_MODELING_RED_TEAM_PLAYBOOK.md 枚举攻击路径和红队场景。
  3. 用本文把攻击路径运营化为 telemetry、detection、runbook 和 dashboard。
  4. AI_INCIDENT_POSTMORTEM_RELIABILITY_PLAYBOOK.md 完成复盘和防复发。
  5. AI_AUDIT_EVIDENCE_BINDER_PLAYBOOK.md 把运行证据转成审计包。

3. 为什么重要

金融零售 AI 安全的风险,不只来自“模型说错”。更高阶的风险来自“模型被操控后借系统权限做了事”。

风险场景业务后果为什么 SOC 必须介入
客服 AI 数据泄露客户 PII、账户信息、投诉内容或交易摘要被错误展示或外发需要快速识别影响客户、隔离输出路径、保全 trace、触发隐私和法律流程
Agent 越权调用工具普通员工或客户通过 Agent 调用退款、账户状态、KYC、CRM、支付风控工具需要把 tool call 当成 security event,关联身份、权限、审批、参数和 side effect
RAG prompt injection恶意文档进入检索上下文,诱导模型泄露数据或调用外部工具需要检索来源、上下文标签、文档 lineage、index version 和恶意 payload 证据
KYC 文档外泄身份证件、地址证明、收入证明、受益人信息被摘要、日志或外部 ticket 带出需要 DLP、egress、vendor route、retention、客户通知和监管沟通准备
代码 Agent secret exposure代码 Agent 在 diff、日志、依赖分析或 issue 回复中暴露 API key、token、数据库连接信息需要 secret scanning、repo telemetry、chat-to-code trace、token rotation 和 supply-chain review
支付风控模型滥用攻击者用 AI 接口探测风控边界、规避规则或诱导模型给出欺诈策略需要 abuse detection、rate limit、decision boundary probing、fraud intel 和 risk model monitoring

AI SOC 的核心价值不是“拦住每一次 jailbreak”,而是:

价值高级表达
可见性能知道模型看到了什么、决定了什么、建议了什么、调用了什么、输出了什么。
可关联能把 user、session、prompt、retrieval、tool、policy、DLP、egress、approval、output 关联成一条 evidence chain。
可处置能按模型、prompt、index、tool、connector、tenant、workflow、risk tier 精确止血。
可验证能通过 purple team 和 replay 证明检测与控制真实有效。
可治理能把 SOC 结果接入 risk appetite、MRM、audit、board / regulator reporting。

4. AI SOC Reference Architecture

4.1 参考架构

flowchart TB
  User[User / Employee / Customer / API Client] --> Edge[AI App Edge]
  Edge --> Auth[Identity, Tenant, Device, Purpose]
  Auth --> PromptGW[Prompt and Context Gateway]
  PromptGW --> Retriever[RAG Retriever / Memory / Knowledge APIs]
  Retriever --> Context[Context Pack with Source Labels]
  PromptGW --> Orchestrator[Agent Orchestrator]
  Context --> Orchestrator
  ModelGW[Model Gateway] --> Orchestrator
  Orchestrator --> ToolProposal[Tool Call Proposal]
  ToolProposal --> ToolGW[Tool Gateway]
  ToolGW --> Policy[Policy Engine / Risk Tier / Approval]
  Policy --> DLP[DLP / Secrets / Egress Guard]
  DLP --> BusinessTools[Business Tools / Connectors]
  BusinessTools --> ToolResult[Tool Result]
  ToolResult --> Orchestrator
  Orchestrator --> OutputGuard[Output Guard / Citation / Redaction]
  OutputGuard --> User

  PromptGW --> Tel[AI Telemetry Collector]
  Retriever --> Tel
  Orchestrator --> Tel
  ModelGW --> Tel
  ToolGW --> Tel
  Policy --> Tel
  DLP --> Tel
  OutputGuard --> Tel
  Tel --> Privacy[Privacy Filter and Tokenization]
  Privacy --> Stream[Streaming Detection Engine]
  Privacy --> Lake[Trace Lake / Evidence Store]
  Stream --> SIEM[Enterprise SIEM]
  Stream --> SOAR[SOAR Playbooks]
  SIEM --> Case[Case Management / Incident Command]
  SOAR --> Kill[Scoped Kill Switch / Containment Actions]
  Lake --> Replay[Replay / Eval / Purple Team Regression]
  Lake --> Dashboard[Control Effectiveness Dashboard]

4.2 架构原则

Principle设计含义反模式
Trace before trust没有 trace、version、policy decision、tool span 和 evidence link 的 AI path 不应进入高风险生产只记录 final answer,不记录上下文和工具调用
Separate semantics from authority模型可以解释语义,权限、审批、DLP、外发和 side effect 必须由平台控制让模型自行判断“我是否可以调用工具”
Security events are product events高风险拒答、阻断、审批、人工接管、误拦截都影响产品体验SOC 只看告警,不反馈给 PM 和 workflow owner
Detection is layered规则、分类器、LLM judge、异常检测、DLP、identity、tool behavior 要叠加只靠关键词识别 prompt injection
Evidence is minimized证据要足以复盘,但日志本身不能变成敏感数据泄露源把完整 KYC 文档、客户身份号、system prompt 明文写入 SIEM
Response is scoped按 model、tenant、workflow、tool、connector、index、risk tier 分层止血一有事故就全局停用 AI 平台,或完全不敢停
Control effectiveness is measured控制是否有效要看覆盖率、误报、漏报、MTTD、MTTR、回归通过率和残余风险只有“控制已上线”的静态声明

4.3 AI SOC 能力地图

Capability关键问题主要产物
AI Asset and Use Case Inventory哪些 AI 系统、模型、RAG、Agent、工具、数据源、供应商进入生产AI security inventory、risk tier、owner map
AI Telemetry Engineering运行时是否记录足以复盘的语义、检索、工具、策略和输出证据Telemetry schema、trace ID standard、retention policy
Detection Engineering如何发现 prompt injection、tool misuse、data exfiltration、model abuse、jailbreak、policy violationDetection rule catalog、coverage map、test corpus
SIEM / SOAR IntegrationAI 信号如何进入现有 SOC,不制造噪声孤岛SIEM integration map、SOAR action library、case routing
Incident ResponseAI security incident 如何定级、止血、取证、恢复、沟通Severity matrix、SOC runbooks、war room checklist
Purple Team攻击与防守如何联合验证控制Exercise plan、attack cards、detection evidence、remediation register
Control Effectiveness控制是否真实降低风险,是否适合继续扩大上线Effectiveness dashboard、control test record、residual risk report
Governance and ReportingSOC 结果如何进入 CISO、CRO、MRM、audit、business reviewMonthly AI risk pack、architecture review evidence、audit binder

5. AI Telemetry Schema

AI telemetry 的目标不是收集越多越好,而是让每个高风险事件都能回答七个问题:

谁在什么业务目的下,让哪个 AI 系统看到哪些上下文;
模型产生了什么计划和输出;
系统允许或拒绝了哪些工具动作;
哪些控制被触发;
影响了哪些数据、客户、员工、系统和供应商;
SOC 如何处置;
哪些证据支持复盘和控制有效性评估。

5.1 Event Taxonomy

Event type触发点关键用途
ai.request.receivedAI 应用收到请求关联 actor、tenant、purpose、channel、risk tier
ai.prompt.composedprompt / context gateway 完成组装记录 prompt template version、trusted / untrusted segmentation、context label
ai.retrieval.queryRAG 查询发起记录 query intent、index、ACL、top_k、source filters
ai.retrieval.result检索结果返回记录 doc IDs、source trust、sensitivity、permission match、freshness
ai.model.invoked模型被调用记录 model alias、provider、route、token、latency、safety settings
ai.agent.plan.generatedAgent 生成计划记录 plan steps、tool proposal、risk estimate
ai.tool.proposed模型提出 tool call记录 tool name、arguments hash、business object、risk tier
ai.policy.evaluatedpolicy engine 做决策记录 allow / deny / redact / approval / dual-control、rule ID
ai.approval.decided人工审批完成记录 approver role、decision、evidence packet、reason code
ai.tool.executed工具执行记录 side effect、idempotency key、result sensitivity、target system
ai.dlp.evaluated输入、输出、日志、外发检查记录 data class、match type、redaction、block reason
ai.output.released回复或工件交付给用户或系统记录 output channel、redaction status、citation support、policy status
ai.egress.attempted外部发送、webhook、ticket、email、repo、vendor route记录 destination、data class、approval、DLP result
ai.memory.written长期记忆或反馈写入记录 source、retention、sensitivity、write policy
ai.eval.replayed事件样本进入 replay / eval记录 eval suite、pass/fail、regression link
ai.soc.alert.created检测生成告警记录 rule ID、severity、evidence bundle、case route

5.2 Schema Template

以下模板使用一条完整样例展示字段形态。生产落地时应使用机构内部数据分类、散列策略、retention policy 和字段级访问控制。

{
  "event_id": "evt_20260629_184512_7f3a",
  "event_type": "ai.tool.proposed",
  "event_time_utc": "2026-06-29T18:45:12Z",
  "ai_trace_id": "trc_care_refund_20260629_000384",
  "session_id_hash": "sha256:9b7a1b4c6e0f",
  "actor": {
    "actor_type": "employee",
    "actor_id_hash": "sha256:1f62d0e4b8a9",
    "role": "contact_center_associate",
    "tenant": "retail_bank_us",
    "device_risk": "managed_device",
    "auth_strength": "mfa"
  },
  "business_context": {
    "use_case_id": "uc_customer_service_refund_agent",
    "workflow": "card_dispute_refund_support",
    "purpose": "customer_support",
    "risk_tier": "high",
    "customer_region": "US",
    "business_object_type": "refund_case",
    "business_object_id_hash": "sha256:5cd9a201e2f0"
  },
  "ai_system": {
    "application": "customer_service_ai",
    "orchestrator_version": "agent-orch-4.8.2",
    "prompt_template_id": "pt_refund_agent_v17",
    "model_alias": "enterprise-llm-high-reasoning",
    "model_provider_route": "approved_us_region",
    "rag_index_id": "idx_card_dispute_policy_2026_06_21"
  },
  "context": {
    "input_channel": "agent_console",
    "untrusted_context_present": true,
    "retrieved_doc_ids_hash": [
      "sha256:doc_81b0",
      "sha256:doc_92ac"
    ],
    "highest_data_class_seen": "customer_confidential",
    "source_trust_min": "internal_approved",
    "sensitive_terms_count": 4
  },
  "tool": {
    "tool_name": "refund.create_case_credit",
    "tool_risk_tier": "regulated_financial_action",
    "tool_arguments_hash": "sha256:aa80346a11b1",
    "side_effect": "customer_credit_case_created",
    "idempotency_key": "idem_9c1a8470",
    "dry_run": true
  },
  "policy": {
    "decision": "require_dual_control",
    "decision_reason": "refund_amount_above_associate_limit",
    "matched_rule_ids": [
      "POL-TOOL-REFUND-004",
      "POL-DUAL-CTRL-002"
    ],
    "approval_packet_id": "appr_20260629_184512_028"
  },
  "security_signals": {
    "owasp_llm_tags": [
      "LLM01_prompt_injection",
      "LLM06_excessive_agency"
    ],
    "mitre_atlas_tactics": [
      "execution",
      "privilege_escalation"
    ],
    "dlp_result": "no_release",
    "prompt_injection_score": 0.71,
    "tool_misuse_score": 0.82,
    "exfiltration_score": 0.09
  },
  "soc": {
    "alert_id": "alrt_ai_tool_000921",
    "severity": "SEV2",
    "runbook_id": "RB-AI-TOOL-MISUSE-01",
    "case_id": "case_soc_20260629_1187",
    "status": "triaged"
  },
  "evidence": {
    "prompt_record_ref": "vault://ai-evidence/trc_care_refund_20260629_000384/prompt",
    "redacted_prompt_record_ref": "lake://ai-trace/redacted/trc_care_refund_20260629_000384",
    "tool_span_ref": "lake://ai-trace/tool-span/evt_20260629_184512_7f3a",
    "retention_class": "security_incident_7y",
    "pii_in_siem": false
  }
}

5.3 Field Governance

Field group设计要求SOC 使用方式风险控制
Identity存 actor hash、role、tenant、auth strength、device risk,避免明文身份扩散关联越权、异常行为、重复攻击、审批责任Hash with salt、field-level access、break-glass review
Prompt / Context保存版本、标签、摘要、敏感等级、证据引用,完整原文进受控 evidence vault复盘 injection、jailbreak、data exfil、policy conflictRedaction、purpose-limited access、retention class
Retrieval保存 index、doc hash、source trust、ACL result、freshness、sensitivity发现 RAG poisoning、ACL bypass、跨租户召回Index lineage、doc signing、ACL replay
Model保存 model alias、provider route、latency、token、safety settings,不把供应商内部 ID 当唯一版本发现 vendor drift、cost spike、model abuseModel route governance、change control
Tool保存 tool risk、argument hash、business object hash、side effect、idempotency发现 tool misuse、重复执行、审批绕过Tool gateway、policy engine、dual control
Policy保存 decision、rule IDs、reason code、approval packet证明拦截、审批、拒绝和例外Policy-as-code versioning、approval integrity
DLP / Egress保存 data class、destination、block/redact、external route发现 KYC 外泄、客服数据泄露、代码 secret exposureDLP tuning、egress allowlist、vendor controls
SOC保存 rule、severity、case、runbook、analyst decision管理告警质量、MTTD、MTTR、control effectivenessCase QA、false positive review

6. Detection Rule Catalog

6.1 Catalog Format

每条 AI detection rule 应同时服务三类受众:SOC analyst 能分流,AI platform engineer 能定位组件,risk owner 能判断控制缺口。

Field写法示例
Rule ID稳定编号,按风险域分组AI-PI-001
Rule name能说明攻击或控制失效Indirect prompt injection from RAG source triggered tool proposal
Risk domainprompt、RAG、tool、data、model abuse、policy、cost、identity、vendorRAG + Agent Tool
Framework mappingOWASP LLM、MITRE ATLAS、NIST CSF、内部 policyOWASP LLM01 / LLM06, NIST CSF DE.AE / RS.AN
Data sources需要哪些 telemetry eventai.retrieval.result, ai.tool.proposed, ai.policy.evaluated
Logic规则、模型分类器、异常检测或组合逻辑untrusted_context_present=true AND prompt_injection_score>=0.7 AND tool_risk_tier high
Severity默认等级和升级条件SEV2, external egress 或 executed side effect 升 SEV1
Evidenceanalyst 打开 case 需要看到的证据trace summary、doc hash、tool proposal、policy decision、output sample
Response自动动作和人工动作quarantine document、force human review、disable external send
Tuning如何降低误报按 use case baseline、trusted source allowlist、analyst feedback
Control link对应控制和 dashboard 指标CTRL-RAG-UNTRUSTED-CONTEXT-02, detection precision

6.2 Baseline Rule Catalog

Rule IDRule nameDetection logicDefault severityResponse
AI-PI-001Direct prompt injection attempt输入命中 instruction override、role hijack、policy bypass、system prompt extraction intent,且 use case risk tier 为 medium 或 highSEV3标记 session、返回安全拒答、保留 redacted prompt、进入攻击样本库
AI-PI-002Indirect prompt injection from RAG检索文档被标为 untrusted 或 low source trust,内容含指令性语义,随后出现 tool proposal、external egress 或 policy bypass 请求SEV2隔离文档、冻结 index delta、强制人工复核相关 trace
AI-PI-003Tool output injectiontool result 中出现面向模型的执行指令,且被后续 plan step 引用SEV2包装 tool output 为 untrusted evidence、阻断后续高风险 tool call、检查 connector
AI-JB-001Jailbreak escalation pattern同一 session 多次变体尝试绕过拒答、角色、政策或安全边界SEV3;涉及客户数据或工具升 SEV2增强 session throttling、触发 analyst review、更新 jailbreak corpus
AI-JB-002Multilingual or encoded bypassbase64、零宽字符、混合语言、同形字、代码块等绕过策略命中语义分类器SEV3规范化输入、记录 canonical payload、调优 classifier
AI-TOOL-001Unauthorized tool proposalactor role、purpose、tenant 与 tool policy 不匹配,但 Agent 提出高风险工具调用SEV2deny tool call、创建 case、检查 prompt / context 是否被操控
AI-TOOL-002Tool execution without required approvaltool risk tier 要求人审或双控,但缺少 approval packet 或 approver 不合格SEV1暂停相关 tool path、回滚或补救 side effect、启动 incident command
AI-TOOL-003Tool argument anomalytool argument 与历史 profile、业务对象、金额、地域、客户 segment 显著偏离SEV2dry-run、要求人工审批、关联 fraud / abuse telemetry
AI-TOOL-004Tool call loop or amplification同一 trace 内工具重复调用、递归计划、批量枚举或成本异常SEV2停止 agent run、启用 step budget、检查 unbounded consumption
AI-DATA-001Sensitive data in model outputfinal output 或 artifact 命中 PII、PCI、KYC、secret、账户、交易明细,且 channel 不允许该数据等级SEV1阻断输出、通知 privacy、保全 evidence、识别受影响对象
AI-DATA-002Cross-tenant retrieval resultretrieval result 的 tenant、ACL、region 或 business purpose 与 actor context 不匹配SEV1停用 index route、回滚 ACL filter、启动数据泄露评估
AI-DATA-003External egress after sensitive retrievaltrace 中先检索 customer_confidential 或 restricted 数据,随后出现 email、webhook、ticket、repo、vendor egressSEV1阻断外发、隔离 destination、拉取 egress evidence、隐私评估
AI-DATA-004System prompt or policy leakage输出包含 system instruction、policy internals、tool schema、secret-like config 或安全控制细节SEV2redaction、rotate exposed config if applicable、强化输出 guard
AI-RAG-001Retrieval source trust downgrade高风险 use case 引用了低信任、过期、未签名或权限不明的文档SEV3;驱动工具或客户输出升 SEV2降级答案、强制引用权威源、创建 data owner ticket
AI-RAG-002Poisoned document behavior新 ingest 文档导致 prompt injection score、policy conflict、unsafe citation sudden spikeSEV2暂停 ingest pipeline、quarantine doc batch、回滚 index
AI-ABUSE-001Model abuse probing大量请求探测风控边界、拒答边界、KYC 规则、支付欺诈策略或 AML typologySEV2rate limit、identity challenge、fraud intel enrichment、case routing
AI-ABUSE-002Decision boundary extraction请求批量枚举风控模型输入组合并询问通过概率、拒绝原因或绕过方法SEV1阻断、关联账户和 IP、通知 fraud / model risk
AI-CODE-001Code Agent secret exposure代码 Agent 输出、diff、issue comment、日志中出现 API key、token、connection string、private key patternSEV1阻断提交或回复、rotate secret、扫描 repo history、供应链复核
AI-CODE-002Code Agent unsafe dependency actionAgent 建议或执行引入未批准依赖、可疑 package、postinstall script 或模型文件SEV2阻断 PR 自动合并、触发 AppSec review、更新 allowlist
AI-POL-001Policy violation in customer-facing output客户可见输出违反投诉、费用、信贷、KYC、隐私、投资或消费者保护政策SEV1下架输出路径、人工复核受影响会话、业务补救
AI-POL-002Safety control disabled or bypassedprompt route、DLP、output guard、tool policy、approval、logging 在高风险 path 中被关闭或缺失SEV1scoped kill switch、恢复批准配置、变更审计
AI-COST-001Unbounded consumptiontoken、retrieval、rerank、judge、tool、agent step cost 超过 use case budget 或异常增长SEV2限流、降级模型、终止循环、恢复 budget cap
AI-VENDOR-001Vendor route driftmodel provider、region、data processing mode、logging setting 与批准 route 不一致SEV2切换批准 route、通知 vendor risk、保全变更证据

6.3 Detection Query Pattern

以下是伪查询风格,用于说明关联逻辑。生产中可映射到 Splunk SPL、KQL、SQL、Sigma-like rule、stream processor 或平台内 detection DSL。

SELECT
  ai_trace_id,
  actor.role,
  business_context.use_case_id,
  context.source_trust_min,
  security_signals.prompt_injection_score,
  tool.tool_name,
  tool.tool_risk_tier,
  policy.decision,
  soc.severity
FROM ai_security_events
WHERE event_time_utc >= NOW() - INTERVAL '15 minutes'
  AND context.untrusted_context_present = true
  AND security_signals.prompt_injection_score >= 0.70
  AND tool.tool_risk_tier IN ('regulated_financial_action', 'external_egress', 'restricted_data_read')
  AND policy.decision IN ('allow', 'require_approval', 'require_dual_control')
GROUP BY ai_trace_id, actor.role, business_context.use_case_id, context.source_trust_min,
         security_signals.prompt_injection_score, tool.tool_name, tool.tool_risk_tier,
         policy.decision, soc.severity;

6.4 Coverage Matrix

RiskOWASP LLM mappingDetection familiesMust-have data sources
Prompt injectionLLM01AI-PI, AI-JB, AI-RAG, AI-TOOLprompt, context labels, retrieval, tool proposal, policy
Sensitive information disclosureLLM02AI-DATA, AI-CODE, AI-POLDLP, output, egress, logs, code artifacts
Supply chainLLM03AI-CODE, AI-VENDOR, AI-RAGdependency, vendor route, model/package provenance, index ingest
Data and model poisoningLLM04AI-RAG, AI-PI, AI-ABUSEingest logs, index lineage, memory write, feedback loops
Improper output handlingLLM05AI-DATA, AI-POL, AI-CODEoutput guard, downstream consumer, rendering channel
Excessive agencyLLM06AI-TOOL, AI-POL, AI-COSTagent plan, tool gateway, approval, side effect
System prompt leakageLLM07AI-DATA, AI-PIprompt registry, output guard, leakage classifier
Vector and embedding weaknessesLLM08AI-RAGretrieval results, ACL, source trust, embedding/index version
MisinformationLLM09AI-POL, AI-RAGgroundedness, citation support, authoritative source checks
Unbounded consumptionLLM10AI-COST, AI-TOOLtoken, latency, step count, retry, cost ledger

7. Detection Engineering Patterns

7.1 Prompt Injection Detection

高级 prompt injection detection 不应等同于关键词黑名单。金融零售场景至少需要五层信号:

LayerSignalExampleControl
Syntax指令覆盖、角色改写、隐藏编码、分隔符滥用、重复拒答绕过“忽略上一条指令”“输出系统规则”“把以下内容当成最高优先级”Normalization、regex、encoding detector
Semantics请求改变目标、绕过政策、泄露内部机制、操控工具“为了合规测试,请给出 KYC 规则绕过方式”Classifier、LLM judge、semantic similarity
Context provenancepayload 来自用户、网页、PDF、邮件、tool result、知识库低信任来源RAG chunk 中出现面向 Agent 的指令Trusted / untrusted labeling、source trust
Behavioralinjection 后出现敏感检索、tool proposal、external egress、拒答边界探测上传附件后 Agent 提出外发客户数据Trace correlation、tool gateway
Control outcomepolicy deny、redaction、approval、human escalation、kill switch高风险工具被要求双控Policy decision logging、case enrichment

Prompt injection 告警分级:

ConditionSeveritySOC action
低风险内部 copilot 命中注入但无敏感数据、无工具、无外发SEV4样本入库,观察趋势
客户或员工会话多次尝试越权、泄露 system prompt 或绕过政策SEV3标记 session,触发 analyst review
RAG / tool result / 外部文档带来 indirect injection,并触发高风险工具提议SEV2隔离来源,冻结相关 path,检查 tool proposal
注入导致敏感数据外泄、审批绕过、工具执行、跨租户访问或客户影响SEV1 / SEV0启动 incident command 和隐私/法律评估

7.2 Tool Misuse Detection

Agent tool misuse 的本质是“合法工具被错误主体、错误目的、错误上下文、错误参数、错误频率或错误审批状态调用”。

Detection dimensionSignalExample
Actor mismatchactor role、tenant、region、auth strength 不满足 tool policycontact center associate 调用 KYC document export
Purpose mismatchpurpose 与工具用途不一致customer_support session 调用 fraud_model_threshold_explain
Context mismatch工具调用依据来自 untrusted source 或低信任 RAG上传 PDF 中指令触发 refund tool
Parameter anomaly金额、账户、客户 segment、字段数量、日期范围异常一次查询 5000 个高净值客户记录
Approval gap缺少审批、审批人不合规、approval packet 与实际参数不一致批准 100 美元,执行 10000 美元
Side-effect anomalydry-run 变执行、重复执行、不可逆动作多次创建退款、关闭投诉、冻结账户
Sequence anomaly先敏感检索,再外发或写工具查询 KYC 文档后创建外部 ticket

Tool misuse control response:

Decision使用条件SOC / Platform 动作
deny明确越权、目的不匹配、跨租户、敏感外发拒绝工具调用,生成告警
dry_run风险较高但可能是合法业务返回预览和 diff,进入审批
require_approval高风险读写、客户影响、敏感数据人审并记录 approval packet
require_dual_control资金、KYC、AML、信贷、投诉关闭、监管材料两人复核,职责分离
contain_workflow检测到 active attack 或控制失效停用 use case / tool / connector

7.3 Data Exfiltration Detection

AI 数据外泄不只发生在 final answer,也发生在日志、向量库、供应商调用、外部工具和代码工件中。

Exfil pathDetectionExample response
Final outputoutput DLP、channel policy、recipient authorization阻断客服回复,生成 privacy case
External toolegress allowlist、destination risk、data class correlation阻断 webhook / email / ticket,拉取 destination evidence
Prompt / model providerprovider route、region、data processing mode、prompt data class切换批准 route,暂停高敏数据 use case
Logs / SIEMpii_in_siem=false enforce、redaction coverage从 SIEM 只保留 hash 和 evidence ref
RAG / vector storeembedding of restricted docs、ACL drift、cross-tenant retrieval回滚 index,重建 ACL filter
Code artifactssecret scanning、PR / issue / chat output DLP阻断 commit,rotate exposed credentials
Memorysensitive memory write、retention violation清理 memory,复查 write policy

7.4 Model Abuse Detection

Model abuse 在金融零售中常表现为探测边界、规避风控、批量生成欺诈材料或自动化社工。

Abuse patternDetection signalFinancial retail focus
Fraud boundary probing大量微变参数、询问通过概率、试探阈值支付风控、开户风控、交易监控
KYC bypass request请求伪造证明、规避身份验证、解释审核弱点KYC / onboarding
AML typology extraction请求规避 SAR、拆分交易、规避监控AML / BSA
Social engineering generation批量生成针对客服、分行、客户的钓鱼内容客服 / branch operations
Policy exploitation请求最小化披露、利用例外、寻找投诉补偿漏洞投诉、退款、权益
Automated scraping via AI批量总结、抽取、枚举客户或产品信息数据保护、竞争情报

Model abuse response:

SeverityCriteriaResponse
SEV4单次低风险探测拒答、记录样本
SEV3多次变体、自动化痕迹、同账号重复限流、身份增强、case review
SEV2涉及欺诈、KYC、AML、支付风控、敏感策略关联 fraud intel、上报 Risk Ops、封禁自动化入口
SEV1已触发欺诈损失、客户影响、数据外泄或控制失效incident command、客户/监管路径评估

7.5 Jailbreak and Policy Violation Detection

Jailbreak 是攻击手法,policy violation 是业务后果。SOC 告警要优先看后果。

Signal弱解释强解释
Jailbreak keyword用户说了“忽略规则”不足以定高危,需看上下文和后续行为
Repeated refusal bypass用户多轮改写请求升级到 session-level abuse
Unsafe policy request请求违反金融、隐私、消费者保护、投资、信贷、AML 政策需要业务 policy mapping
Model complied模型输出了不应输出的内容需要 output sample 和 channel evidence
Downstream action输出被发送给客户、工具执行、外部系统更新进入 incident severity matrix

8. Incident Severity Matrix

Severity 要按客户伤害、数据敏感性、工具 side effect、监管暴露、blast radius、控制失效和可恢复性综合判定。

Severity定义AI security triggersDefault response
SEV0 - Critical AI Security Harm已造成或高度可能造成重大客户伤害、重大数据泄露、资金损失、监管违规或系统性失控大规模 PII / PCI / KYC 外泄;跨租户客户数据暴露;Agent 批量执行资金或账户动作;支付风控模型被滥用导致实际损失;监管材料被错误外发立即停用相关 AI path;CISO / Legal / Privacy / CRO / Business Head 进入 incident command;证据保全;客户补救和外部通知评估
SEV1 - High Impact高风险业务或客户可见路径受影响,控制已失效或接近失效工具审批绕过;KYC 文档外发尝试;客户服务 AI 输出客户敏感数据;代码 Agent 暴露生产 secret;RAG injection 导致敏感检索后外发scoped kill switch;隔离模型/工具/index/connector;拉取 evidence bundle;24 小时内初版影响评估
SEV2 - Material Security Degradation检测到可信攻击路径、控制缺口或中高风险异常,但 blast radius 可控indirect prompt injection 触发 tool proposal;高风险 tool argument anomaly;模型滥用探测支付风控边界;DLP 高置信阻断暂停相关动作或改 dry-run;SOC L2/L3 分析;更新 rule tuning 和回归样本
SEV3 - Controlled Security Event攻击或误用被控制捕获,无客户数据释放、无工具 side effectdirect prompt injection 被拒答;jailbreak 多轮尝试;低风险 system prompt leakage attempt记录样本、关联账号、趋势监控、加入 purple-team corpus
SEV4 - Learning Signal离线 eval、演练、近失误、误报、控制可用性问题purple-team 发现检测 gap;analyst 标记规则噪声;低风险 copilot 输出策略不一致backlog 进入 detection / control improvement,纳入月度 control review

Severity 升级规则:

TriggerMinimum severity
涉及客户 PII、PCI、KYC、身份文件、账户、交易、信用、AML 数据并有外发路径SEV1
Agent 工具调用改变客户资金、账户状态、投诉状态、KYC 状态、信贷或支付风控决策SEV1
跨租户、跨区域、跨客户数据访问或输出SEV1;批量或外泄升 SEV0
安全控制被关闭、绕过、缺失且发生在高风险生产路径SEV1
支付风控、欺诈、AML 或 KYC 模型被系统性探测或滥用SEV2;造成损失或可证明外部攻击升 SEV1 / SEV0
代码 Agent 暴露有效 secret 或生产凭证SEV1
prompt injection 被阻断且无工具、无数据、无外发SEV3

9. SOC Runbook

9.1 通用 AI Security Incident Runbook

Step目标关键动作Evidence
1. Declare判断是否达到 incident criteria根据 severity matrix 分级;指定 Incident Commander、SOC lead、AI platform lead、business owner、privacy/legal liaisonalert、trace ID、initial severity、decision log
2. Preserve防止证据丢失和二次泄露冻结相关 trace retention;复制 redacted evidence bundle;限制明文 prompt / output 访问prompt ref、retrieval docs hash、tool spans、policy logs、DLP result
3. Scope明确影响范围按 use case、tenant、model route、prompt version、index version、tool、connector、actor、customer group 查询blast radius query、affected object list hash
4. Contain精确止血scoped kill switch;禁用 tool / external egress;回滚 prompt / index / model route;强制人工队列containment action log、owner approval
5. Analyze找到攻击路径和控制失效还原 conversation、RAG、tool proposal、policy decision、DLP、output、egressattack path timeline、control failure map
6. Communicate同步业务、风险、法律、隐私和高管按 severity 启动沟通节奏;准备客户、监管、董事会材料的事实底稿comms log、approved statement version
7. Recover恢复到受控状态修复控制;回归 eval;canary;增强监控;逐步恢复regression run、control validation、release approval
8. Learn防复发更新 detection rule、runbook、purple-team scenario、architecture gate、MRM issuepost-incident action register、control effectiveness update

9.2 客服 AI 数据泄露 Runbook

PhaseActions
Detection告警来自 AI-DATA-001、客户投诉、DLP block、analyst review 或客服质量抽检。
Immediate containment停用受影响客服 AI 输出路径;改为人工队列;阻断相关 channel 的敏感字段输出;保留 evidence vault。
Evidence to pullai_trace_id、session、actor role、客户对象 hash、prompt version、retrieved docs、final output、DLP hit、channel、recipient、delivery status。
Key questions数据是否实际释放;是否被客户、员工、供应商或外部系统接收;是否涉及 PII / PCI / KYC;是否跨客户或跨租户。
Cross-functional routePrivacy、Legal、Customer Operations、Compliance、CISO、Business Owner、Model Risk。
Recovery修复输出 guard、字段级 redaction、customer authentication check、retrieval ACL、response template;回放泄露样本确认阻断。
Control improvement更新 data classification policy、DLP pattern、answerability gate、customer-facing response policy 和 SOC detection。

9.3 Agent 越权调用工具 Runbook

PhaseActions
Detection告警来自 AI-TOOL-001AI-TOOL-002、tool gateway deny、approval mismatch 或 tool side-effect anomaly。
Immediate containment将相关 tool 改为 dry-run 或 deny;冻结高风险 action;撤销可逆 side effect;开启所有同类 use case 的 approval enforcement。
Evidence to pulltool proposal、tool args hash、actual executed args、actor entitlement、purpose、approval packet、policy rule、business object、idempotency key。
Key questions模型为何提出工具;是否来自 prompt injection、RAG injection、错误 prompt、权限配置、审批缺失或工具 schema 误导。
Cross-functional routeSOC L3、AI Platform、Business System Owner、IAM、Operational Risk、Internal Audit as needed。
Recovery修正 policy-as-code、tool permission matrix、approval packet diff、tool schema risk label、step budget 和 scoped kill switch。
Control improvement所有高风险 tool call 必须有 actor-purpose-tool 三元校验和 side-effect evidence。

9.4 RAG Prompt Injection Runbook

PhaseActions
Detection告警来自 AI-PI-002AI-RAG-002、retrieval source trust downgrade、tool proposal after untrusted context。
Immediate containment隔离文档或 ingest batch;冻结 index refresh;把 RAG path 切到权威源;禁止相关 trace 的工具执行和外发。
Evidence to pulldocument hash、source system、ingest owner、index manifest、chunk text ref、source trust、ACL decision、query、retrieval rank、model plan。
Key questions恶意指令如何进入知识库;是否影响多个 index;是否被引用为权威;是否触发工具、外发或客户输出。
Cross-functional routeKnowledge Owner、Data Governance、AI Platform、Security、Business Owner。
Recovery文档签名、source trust scoring、chunk sanitizer、untrusted context wrapper、retrieval eval、index rollback drill。
Control improvement所有 RAG 文档必须有 provenance、owner、sensitivity、trust tier、ACL replay 和 freshness evidence。

9.5 KYC 文档外泄 Runbook

PhaseActions
Detection告警来自 AI-DATA-003、KYC data DLP、external egress correlation、vendor route anomaly、customer complaint。
Immediate containment阻断 KYC 文档摘要、下载、外发和日志明文;停用相关 connector;锁定 evidence vault。
Evidence to pullKYC document IDs hash、data classes、recipient / destination、egress status、model route、vendor processing mode、DLP match、redaction status。
Key questions数据是否离开受控边界;是否有供应商接收;是否涉及身份证件、地址、收入、受益人、制裁筛查或 AML 信息。
Cross-functional routePrivacy、Legal、Compliance、KYC Operations、Vendor Risk、CISO。
Recovery强制字段级 redaction、document viewer tokenization、egress approval、vendor route restriction、log masking。
Control improvementKYC 文档只允许在明确 purpose、强身份、受控 viewer、最小字段和人审条件下进入 AI context。

9.6 代码 Agent Secret Exposure Runbook

PhaseActions
Detection告警来自 AI-CODE-001、secret scanning、PR check、chat output DLP、repo history scan。
Immediate containment阻断 PR / issue / chat 输出;撤销公开 artifact;rotate secret;临时禁用代码 Agent 的外部回复能力。
Evidence to pullrepo、branch、commit hash、chat trace、diff artifact、detected secret type、exposure channel、credential scope、access logs。
Key questionssecret 是否有效;是否进入远程仓库、issue、日志、模型上下文或供应商;是否有使用痕迹。
Cross-functional routeAppSec、Platform Engineering、IAM、Cloud Security、SOC、Repository Owner。
Recoverytoken rotation、repo history cleanup、denylist update、code Agent output DLP、dependency review、developer communication。
Control improvement代码 Agent 输出和工具调用必须经过 secret scanning、dependency policy、license / supply-chain gate 和 human merge control。

9.7 支付风控模型滥用 Runbook

PhaseActions
Detection告警来自 AI-ABUSE-001AI-ABUSE-002、decision boundary probing、high-volume API use、fraud intel。
Immediate containment限流、增强身份验证、降低解释粒度、阻断批量请求、标记关联账号和设备。
Evidence to pullrequest parameter patterns、actor graph、IP / device risk、model explanation requests、decision outcomes、fraud losses、rate-limit logs。
Key questions攻击者是否在探测阈值;是否结合真实交易;是否诱导模型输出规避策略;是否影响线上决策。
Cross-functional routeFraud Risk、Payment Ops、Model Risk、Security、Legal、Data Science。
Recovery改进 explanation policy、abuse throttling、risk feature monitoring、red-team fraud scenarios、模型输出最小化。
Control improvement高风险风控模型不应暴露可逆推出阈值的信息;解释要按用户角色、业务目的和监管要求分层。

10. SIEM / SOAR Integration Map

10.1 SIEM Event Mapping

AI telemetrySIEM field familyMapping guidance
event_id, event_type, event_time_utcevent metadata保持唯一 ID 和 UTC 时间,支持跨系统 join
ai_trace_idcorrelation ID所有 prompt、RAG、model、tool、policy、DLP、output 事件共享
actor_id_hash, role, tenantidentity使用 hash 和 role,明文身份留在受控 IAM / evidence vault
use_case_id, workflow, purpose, risk_tierbusiness context支持按业务场景和风险等级 routing
prompt_template_id, model_alias, rag_index_idAI component version支持变更回滚和 blast radius 查询
retrieved_doc_ids_hash, source_trust_min, highest_data_class_seendata context支持 RAG poisoning、ACL bypass、data exfil correlation
tool_name, tool_risk_tier, side_effect, idempotency_keyaction context支持 tool misuse 和 side-effect 复盘
policy.decision, matched_rule_idscontrol outcome支持 control effectiveness 和审批缺口分析
dlp_result, egress_destination, redaction_statusdata protection支持隐私和外发事件关联
owasp_llm_tags, mitre_atlas_tacticsthreat enrichment支持 SOC triage、coverage 和 purple-team reporting
severity, runbook_id, case_idSOC case支持自动分流、SLA、MTTD / MTTR

10.2 SOAR Action Library

SOAR actionScopePreconditionsEvidence generated
Disable AI routemodel route / use case / tenantSEV1 或批准的 SEV2 containmentroute change log、approver、duration
Disable tooltool / connector / workflowtool misuse、approval bypass、side-effect anomalytool policy snapshot、disabled timestamp
Force dry-runtool risk tier / use case风险较高但业务不能完全停摆policy override record、manual review queue
Block external egressdestination / channel / connectorsensitive retrieval 后外发、DLP hitegress block record、destination hash
Quarantine RAG documentsdoc / source / ingest batch / indexindirect injection、poisoning、source trust failuredoc hash、index manifest、owner notification
Rollback indexindex version / tenant / use casebad ingest、ACL failure、poisoningindex rollback proof、freshness impact
Revoke or rotate secretscredential / repository / appcode Agent secret exposurerotation ticket、access log snapshot
Increase auth challengeactor / session / channelmodel abuse、boundary probing、automationauth challenge log、account graph
Open privacy caseaffected data class / customer cohortPII / PCI / KYC exposureprivacy case ID、affected object hash
Create model risk issueuse case / model route / controlsystemic control weakness or eval failureMRM issue ID、owner、residual risk
Start replay evaltrace sample / rule ID / use casepost-containment validationeval run ID、pass/fail evidence

10.3 Case Routing

Alert typePrimary queueSecondary reviewers
Direct prompt injection, no side effectSOC L1 / L2AI Security Engineering
Indirect prompt injection with tool proposalSOC L2 / L3AI Platform, Knowledge Owner
Tool execution anomalySOC L3Business System Owner, IAM, Operational Risk
Sensitive data output or egressPrivacy Incident QueueLegal, SOC, Business Owner
Code Agent secret exposureAppSec / Cloud SecurityRepo Owner, IAM, SOC
Payment model abuseFraud Risk OpsModel Risk, Data Science, SOC
Safety control disabledAI Platform SecurityChange Management, Internal Audit
Vendor route driftVendor Risk / Cloud SecurityAI Platform, Legal, Procurement

11. Purple-Team Exercise Plan

11.1 Exercise Charter

AreaDesign
Objective验证 AI SOC 是否能检测、分流、处置和复盘 AI-native 攻击路径,而不是只证明模型会拒答。
Scope客服 AI、RAG 知识库、Agent tool gateway、代码 Agent、KYC 文档处理、支付风控解释接口。
RolesRed Team、SOC L1/L2/L3、AI Security Architect、AI Platform PM、Business Owner、Privacy、Model Risk、Scribe。
Rules of engagement使用合成客户数据、演练 tenant、受控工具、dry-run side effect、预批准时间窗口、明确停止条件。
Success criteria攻击 payload 被记录;检测规则触发;case 正确分级;runbook 被执行;containment 可验证;control gap 进入整改。
Evidencetrace bundle、alert timeline、analyst notes、SOAR actions、control dashboard delta、lessons learned。

11.2 Scenario Cards

ScenarioAttack pathExpected detectionExpected response
Customer AI data leakage客户请求诱导客服 AI 汇总另一个客户的账户信息AI-DATA-001、AI-POL-001、identity mismatch阻断输出、privacy case、复查 customer authentication
Agent tool overreach普通客服会话诱导 Agent 调用高金额退款工具AI-TOOL-001、AI-TOOL-003deny / dry-run、approval enforcement、tool policy review
RAG prompt injection演练知识库文档包含面向 Agent 的外发指令AI-PI-002、AI-RAG-002quarantine doc、freeze index、replay affected traces
KYC document exfiltrationKYC 摘要被尝试发送到外部 ticketAI-DATA-003、egress correlationblock egress、privacy/legal routing、vendor route review
Code Agent secret exposure代码 Agent 在 PR 说明中生成有效 token 样式字符串AI-CODE-001block comment、rotate exercise token、repo scan
Payment risk model abuse自动化请求批量询问支付通过边界和规避方式AI-ABUSE-001、AI-ABUSE-002throttle、fraud case、explanation policy review
System prompt extraction用户多轮要求输出内部指令和工具 schemaAI-DATA-004、AI-JB-001safe refusal、session marking、prompt leakage regression
Tool output injection受控 connector 返回恶意指令并诱导下一步工具调用AI-PI-003、AI-TOOL-001label tool output untrusted、block chained tool call

11.3 Exercise Timeline

DayActivityOutput
Day -10Scope and approvalsExercise charter、systems list、synthetic data pack
Day -7Detection readiness reviewrule coverage map、logging checklist、SOAR dry-run confirmation
Day -3Analyst briefingrunbook refresher、severity matrix、case routing
Day 0Live exercisealert timeline、analyst actions、containment evidence
Day +1Hot washdetection misses、response friction、evidence gaps
Day +5Control remediation reviewrule updates、policy changes、runbook edits、owner assignments
Day +15Replay regressionpass/fail report、dashboard update、residual risk decision

11.4 Purple-Team Scorecard

MetricTarget interpretation
Detection coverage每个 scenario 至少有一条 primary rule 和一条 correlation signal
MTTD高风险 scenario 在分钟级进入 SOC case
Correct severity rateanalyst 初始分级与复盘分级一致或保守升级
Evidence completenesstrace、retrieval、tool、policy、DLP、output、SOAR action 可串联
Containment precision能按 workflow / tool / index / route scoped containment
False positive learning误报被转成 tuning rule,而不是关闭控制
Regression pass rate修复后演练样本和变体样本均通过
Control owner accountability每个 gap 有 owner、due date、验证方法和 residual risk decision

12. Control Effectiveness Dashboard

Control effectiveness 的核心问题不是“有没有控制”,而是“控制是否在真实攻击和真实业务中有效、稳定、可运营”。

12.1 Dashboard Sections

SectionMetricsDecision use
Coverageuse case coverage、risk tier coverage、OWASP / ATLAS mapping coverage、tool coverage、RAG source coverage哪些高风险 AI path 还没有可见性和规则
Alert qualityprecision、false positive rate、analyst escalation rate、duplicate rate、rule age哪些规则需要调优或重写
Detection performanceMTTD、time to case、correlation latency、missed purple-team scenarioSOC 能否及时发现攻击
Response performanceMTTC、MTTR、containment precision、SOAR success rate、rollback success能否精确止血并恢复
Data protectionDLP block rate、redaction success、pii_in_siem violations、egress blocks、sensitive output escapes日志和输出是否成为泄露源
Tool controlunauthorized proposal count、approval bypass count、dry-run conversion、side-effect anomalyAgent 是否被工具边界控制住
RAG controlsource trust failure、ACL mismatch、poisoned doc quarantine、index rollback time检索层是否可控
Abuse controlmodel abuse attempts、rate-limit effectiveness、fraud intel correlationAI 接口是否被系统性探测
Purple-teamscenario pass rate、detection misses、runbook failures、regression pass控制是否经得起演练
Residual riskopen critical gaps、risk acceptances、aging issues、business exceptions是否允许扩大生产范围

12.2 Control Effectiveness Template

Control IDControl statementEvidence sourceMetricHealthy rangeCurrent exampleDecision
CTRL-AI-LOG-001高风险 AI trace 必须包含 prompt、retrieval、model、tool、policy、DLP、output eventtrace completeness jobcompleteness rate>= 98%99.1%retain
CTRL-AI-DLP-002客户可见输出必须经过 DLP 和 channel policyoutput guard logDLP evaluated rate100%100%retain
CTRL-AI-TOOL-003高风险 tool call 必须经过 policy engine 和 approval ruletool gateway logunauthorized execution count00retain
CTRL-AI-RAG-004高风险 RAG 结果必须通过 ACL 和 source trust filterretrieval logACL mismatch count02 in canaryrestrict rollout
CTRL-AI-PI-005indirect prompt injection 演练必须触发 SOC 告警purple-team replayscenario pass rate>= 95%88%improve before expansion
CTRL-AI-SOAR-006SEV1 AI security alert 必须支持 scoped containmentSOAR action logcontainment success rate>= 95%97%retain
CTRL-AI-PRIV-007SIEM 中不得保存明文 KYC 文档和生产 secretSIEM field auditpii_in_siem violations00retain
CTRL-AI-ABUSE-008支付风控解释接口必须检测边界探测abuse detection logboundary probing MTTD< 10 minutes6 minutesretain

12.3 Executive Summary Format

QuestionAnswer format
本月 AI SOC 风险是否上升用 SEV1 / SEV2 事件趋势、攻击类型、受影响 use case、控制失效数量回答
哪些 AI use case 不适合扩大上线用 telemetry completeness、DLP coverage、tool control、RAG ACL、purple-team pass rate 回答
哪些控制真实有效用拦截案例、回归通过率、MTTD / MTTR、误报率和 audit evidence 回答
哪些 residual risk 需要管理层接受用业务价值、控制缺口、补偿控制、到期日期和扩展限制回答
哪些投资最值得做用 alert reduction、incident prevention、manual review savings、risk exposure reduction 回答

13. Product Decisions for AI Platform PM

DecisionOption AOption BRecommendation
Telemetry granularity只记录 final answer 和 error记录 full trace with redaction and evidence refs高风险 use case 必须 full trace;低风险可采样,但需要统一 trace ID
Detection placement只在应用层检测gateway + stream detection + SIEM correlationprompt / context / tool / output 在 gateway inline;跨事件关联进 SIEM
Response mode只报警alert + scoped containment + replaySEV1 / SEV2 必须有自动或半自动 containment path
DLP strategy通用 DLP 规则AI-aware DLP with prompt / output / egress context通用 DLP 作为底座,叠加 AI context 和 business purpose
Prompt injection classifier关键词规则规则 + classifier + LLM judge + behavior correlation分层检测,行为关联决定分级
Tool controlAgent 直接调工具tool gateway + policy engine + approval高风险工具必须脱离模型自治
Analyst UX原始日志Evidence bundle with attack timelineSOC 需要 trace summary、diff、risk tags、recommended runbook
SIEM integration所有明文进 SIEMredacted event to SIEM, raw evidence in vault降低二次泄露风险
Metrics只报告告警量coverage、precision、MTTD、MTTR、control pass rate用 effectiveness 管理风险,而不是用 volume 管理工作量
Vendor data默认走外部模型 route按 data class 和 region 选择批准 routeKYC、PII、PCI、高风险决策必须按批准路线和合同控制

产品验收标准:

CapabilityAcceptance criteria
Traceability任一 SEV1 / SEV2 AI alert 可在 15 分钟内串联 actor、prompt、retrieval、model、tool、policy、DLP、output、egress。
Scoped containmentSOC 能按 use case、tenant、tool、connector、index、model route 执行 scoped containment,并保留审批记录。
Rule testability每条 detection rule 有至少 3 个 positive case、3 个 benign case 和 1 个 purple-team scenario。
Privacy by designSIEM 默认不存明文敏感数据;evidence vault 有 break-glass、retention、audit 和 redaction。
Control evidence每个高风险控制有 owner、metric、source log、review cadence 和 residual risk decision。

14. Governance Operating Model

14.1 RACI

ActivitySOC LeadAI Security ArchitectAI Platform PMRisk OpsPrivacy / LegalBusiness OwnerModel RiskEnterprise Architect
AI detection rule designARCCCCCC
Telemetry schema governanceCA/RRCCCCR
SIEM / SOAR integrationA/RRCCCCCC
Severity matrixARCRRCCC
Incident commandA/RCCCR for privacy/legal impactR for business impactCC
Purple-team exercisesARCCCCCC
Control effectiveness dashboardCRRACCCC
Residual risk acceptanceCCCA/RCA/RCC
Architecture review evidenceCRCCCCCA/R

Legend:R = Responsible,A = Accountable,C = Consulted。

14.2 Cadence

CadenceForumAgenda
Daily for active incidentsAI Security War Roomseverity、blast radius、containment、evidence、next decision
WeeklyAI SOC Detection Reviewnew alerts、false positives、missed detections、rule tuning、threat intel
BiweeklyAI Platform Risk Reviewtelemetry gaps、tool policy gaps、DLP tuning、release gates
MonthlyAI Control Effectiveness Reviewdashboard、SEV trend、purple-team findings、residual risk
QuarterlyExecutive AI Risk Reviewhigh-risk use cases、control maturity、investment, audit and regulator readiness
Release gateAI Architecture / Security Reviewuse case risk tier、telemetry readiness、detection coverage、runbook readiness

14.3 Evidence Pack

EvidenceStored inUsed by
AI trace summarytrace lakeSOC, AI Platform, Incident Commander
Redacted prompt / outputevidence vaultSOC L3, Privacy, Legal, Model Risk
Retrieval manifestdata governance repositoryKnowledge Owner, AI Security, Audit
Tool policy decisionpolicy engine logSOC, IAM, Internal Audit
DLP / egress recordDLP platform / SIEMPrivacy, SOC, Legal
SOAR containment actionSOAR and change logIncident Commander, Audit
Purple-team resultsecurity testing repositoryAI Security, Platform PM, Risk Ops
Control dashboard snapshotGRC / BICISO, CRO, Audit, Business Owner

15. 30天高级训练计划

DayFocusDrillDeliverable
1AI SOC scope选择 3 个金融零售 AI use case,定义 risk tier、data class、tool side effectAI SOC scope brief
2Source anchor mapping把 MITRE ATLAS、OWASP LLM Top 10、NIST CSF、NIST AI RMF、CSA AICM 映射到一个 use caseFramework mapping table
3Telemetry inventory盘点 prompt、RAG、model、tool、policy、DLP、output 是否有日志Telemetry gap assessment
4Trace design为客服 AI 设计 ai_trace_id 和事件链Trace lifecycle diagram
5Schema design用本文 schema 改造成机构级字段AI telemetry schema v1
6Privacy filter设计 SIEM redaction 和 evidence vault 分层Evidence retention and access model
7Detection backlog按 OWASP LLM Top 10 列出至少 20 条规则Detection rule backlog
8Prompt injection detection设计 direct / indirect / tool output injection 规则Prompt injection rule pack
9Tool misuse detection设计高风险工具的 actor-purpose-tool-policy 关联规则Tool misuse rule pack
10Data exfiltration detection设计 sensitive retrieval 后 external egress 关联规则Data exfiltration rule pack
11Code Agent security设计 secret exposure 和 unsafe dependency 检测Code Agent SOC pack
12Payment risk abuse设计支付风控边界探测检测Model abuse detection pack
13SIEM mapping把 AI event 字段映射到企业 SIEM common schemaSIEM integration map
14SOAR action design定义 disable tool、block egress、quarantine doc、rollback index 等动作SOAR action library
15Severity model为 6 个金融零售案例做 SEV0-SEV4 分级AI security severity matrix
16Customer AI leakage runbook写客服数据泄露响应步骤Customer AI leak runbook
17Agent tool overreach runbook写越权工具调用响应步骤Agent tool misuse runbook
18RAG injection runbook写知识库污染和 indirect injection 响应步骤RAG injection runbook
19KYC exfil runbook写 KYC 文档外泄响应步骤KYC exfiltration runbook
20Code Agent incident runbook写 secret exposure 响应步骤Code Agent incident runbook
21Payment abuse runbook写支付风控模型滥用响应步骤Payment model abuse runbook
22Purple-team charter设计演练范围、角色、停止条件和证据Purple-team charter
23Scenario cards为 8 个场景写 attack path 和 expected detectionPurple-team scenario cards
24Live tabletop模拟一次 SEV1 RAG injection + tool proposalTabletop timeline and notes
25Control dashboard设计 coverage、precision、MTTD、MTTR、DLP、tool、RAG 指标Control effectiveness dashboard
26Analyst UX设计 SOC case evidence bundleAnalyst triage packet
27Governance设计 RACI、cadence、release gate、risk reviewAI SOC governance model
28Executive reporting写一页 CISO / CRO 月报AI security operations executive memo
29Interview rehearsal用 30 秒和 2 分钟版本回答 10 道题Interview answer set
30Portfolio assembly把 schema、rules、runbooks、dashboard、exercise 组织成作品集叙事AI SOC portfolio case

16. 面试回答

16.1 如何从零建设 AI SOC?

30秒回答

我不会从“买一个 AI 安全工具”开始,而是先建立 AI use case inventory 和 risk tier,然后定义运行时 telemetry:prompt、RAG、model、tool、policy、DLP、output、egress 都要有统一 trace ID。之后按 OWASP LLM Top 10 和 MITRE ATLAS 建 detection catalog,接入 SIEM/SOAR,做 severity matrix、runbook、purple-team 和 control effectiveness dashboard。最终目标是让 AI 安全从一次性 red team 变成持续运营。

2分钟回答

我会分五步。第一,盘点 AI 资产和业务风险,尤其是客户可见、受监管流程、高敏数据和可执行工具。第二,设计 telemetry schema,保证每个高风险事件能复盘 actor、purpose、prompt、retrieval、model、tool、policy、DLP、output 和 egress。第三,做 detection engineering,把 prompt injection、tool misuse、data exfiltration、model abuse、jailbreak、policy violation 映射到 OWASP LLM Top 10 和 MITRE ATLAS。第四,把 AI signals 接入 SIEM/SOAR,但 SIEM 只放 redacted events,完整证据进 evidence vault。第五,用 purple team 和 replay 证明控制有效,并用 dashboard 管理覆盖率、误报、MTTD、MTTR、回归通过率和残余风险。

16.2 AI telemetry schema 最重要的字段是什么?

30秒回答

最重要的是统一 trace ID、actor / purpose / tenant、AI component version、retrieval provenance、tool proposal and execution、policy decision、DLP result、output / egress channel 和 evidence reference。没有这些字段,SOC 只能看到一句回答,无法证明攻击路径、控制是否生效和影响范围。

2分钟回答

我会把字段分成七组。身份和业务目的决定是否越权;prompt 和 context 决定是否存在注入和不可信证据;retrieval 字段决定 RAG 是否有 ACL、source trust 和 index lineage;model route 字段用于供应商、区域和版本治理;tool 字段记录参数 hash、risk tier、side effect 和 idempotency;policy / DLP 字段证明 allow、deny、redact、approval 和 block;最后是 SOC case 和 evidence ref,保证 analyst 能打开一条完整证据链,同时避免把明文 PII 写进 SIEM。

16.3 如何检测 prompt injection?

30秒回答

我会分层检测:先做输入规范化和关键词/模式识别,再做语义分类和 LLM judge,接着看上下文来源是否 untrusted,最后关联行为结果,例如是否触发敏感检索、高风险工具提议、外发或 policy bypass。真正的分级要看后果,而不是只看 payload 文本。

2分钟回答

直接注入可以通过 role override、instruction override、system prompt extraction、policy bypass 等语义识别。间接注入更关键,需要 RAG、邮件、PDF、网页、tool result 全部带 provenance 和 trust label。一旦 untrusted context 后面出现 tool proposal、sensitive retrieval、external egress 或 policy deny,就要升级。检测不能只靠关键词,因为攻击可以用多语言、编码、同形字、代码块和长上下文隐藏。最终控制要落在 tool gateway、policy engine、DLP 和 output guard 上,模型识别只是信号之一。

16.4 如何检测 Agent 越权调用工具?

30秒回答

我会把每次 tool call 当成 security event,做 actor-purpose-tool-policy 四元校验,再看参数、频率、审批、side effect 和上下文来源。如果普通客服会话让 Agent 调用高风险退款或 KYC 导出工具,即使工具本身合法,也必须被 deny、dry-run 或进入审批。

2分钟回答

Agent tool misuse 的检测重点是合法工具的错误使用。字段上要记录 actor role、tenant、purpose、tool risk tier、argument hash、business object、approval packet、idempotency key 和 policy decision。规则上看几个异常:权限不匹配、业务目的不匹配、参数异常、审批缺失、重复 side effect、敏感检索后外发、来自 untrusted context 的工具提议。响应上不一定全局停机,可以按 tool、workflow、tenant 或 risk tier scoped containment。

16.5 如何把 AI SOC 接入现有 SIEM / SOAR?

30秒回答

我会把 AI events 转成企业 SIEM 可理解的 schema,但不把明文 prompt、KYC 文档和 secret 写进 SIEM。SIEM 负责 correlation、severity、case routing;evidence vault 保存受控原始证据;SOAR 执行 scoped containment,比如禁用工具、阻断外发、隔离 RAG 文档、回滚 index、rotate secret。

2分钟回答

关键是不要建孤岛。AI trace ID 要贯穿应用、RAG、model gateway、tool gateway、policy engine、DLP 和 output guard。SIEM 侧拿到 redacted event、risk tags、OWASP / ATLAS mapping、severity 和 evidence reference。SOAR 侧要有 AI-specific action library,包括 disable AI route、force dry-run、block egress、quarantine doc、rollback index、revoke secret、open privacy case、start replay eval。这样现有 SOC 流程可以继续使用,但证据和处置动作适配 AI。

16.6 如何度量 AI 安全控制有效性?

30秒回答

我会看 coverage、alert quality、detection performance、response performance、data protection、tool control、RAG control、abuse control、purple-team result 和 residual risk。控制有效不是“上线了 guardrail”,而是它在真实 trace 和演练中能及时发现、精确处置、低误报,并能通过回归测试。

2分钟回答

例如 prompt injection 控制可以看 indirect injection 演练通过率、未拦截样本数、误报率、从 payload 到 case 的 MTTD。DLP 控制要看输出检查覆盖率、外发阻断、SIEM 明文敏感数据违规数。Tool control 要看 unauthorized execution count、approval bypass、dry-run conversion 和 side-effect anomaly。RAG control 看 ACL mismatch、source trust failure、poisoned doc quarantine 和 index rollback time。最终 dashboard 要能支持 go / no-go、扩容、风险接受和审计抽样。

16.7 客服 AI 数据泄露怎么处理?

30秒回答

先阻断受影响输出路径并切人工,保全 trace 和 redacted evidence,确认数据是否实际释放、涉及哪些客户和数据类型,再由 Privacy、Legal、Compliance、Business 和 CISO 评估通知义务。技术侧复查 DLP、retrieval ACL、customer authentication、output guard 和 prompt / template。

2分钟回答

我会先按 SEV1 处理,除非确认没有数据释放且范围极小。证据包括 ai_trace_id、session、actor、retrieved docs、final output、DLP hit、channel、recipient 和 delivery status。影响评估要看是否涉及 PII、PCI、账户、交易、投诉或 KYC,是否跨客户或跨租户。Containment 可以关闭该客服 AI path、强制人工队列、启用更严格 redaction。防复发不是只改 prompt,而是补字段级权限、DLP、answerability gate、客户身份校验和回归样本。

16.8 RAG prompt injection 和普通 prompt injection 的关键差异是什么?

30秒回答

普通 prompt injection 来自当前用户输入;RAG prompt injection 来自被检索进上下文的外部文档、网页、邮件、工单或知识库。它更危险,因为用户可能没有恶意,模型却把低信任文档当成指令,所以必须有 source trust、ACL、index lineage 和 untrusted context labeling。

2分钟回答

RAG injection 的攻击面在 ingest、chunking、index、retrieval 和 context assembly。检测时要看恶意文本来自哪个 source、是否新 ingest、是否低信任、是否跨权限、是否被引用为权威,以及后续是否触发工具或外发。响应上要隔离文档、冻结 index delta、回滚 index、复查 ACL 和 data owner。控制上要做 document signing、source trust scoring、retrieval eval、untrusted-context wrapper 和 tool gateway enforcement。

16.9 代码 Agent 暴露 secret 怎么处理?

30秒回答

把它当 SEV1 起步:阻断输出或 PR,确认 secret 是否有效和暴露范围,立即 rotate,扫描 repo history、chat trace、issue、logs 和供应商上下文。之后把 secret scanning 放到代码 Agent 的输出、diff、日志和 tool call path 中。

2分钟回答

代码 Agent 的特殊点是 AI 输出可以直接变成持久化工件,例如 commit、PR comment、issue、CI log。证据要包括 repo、commit hash、chat trace、diff artifact、secret type、credential scope 和 access logs。Containment 是停止外发、撤销 artifact、rotate secret、检查使用痕迹。防复发要在代码 Agent workflow 加 secret scanning、dependency policy、license / supply-chain gate、human merge control 和 vendor route data boundary。

16.10 支付风控模型滥用如何检测?

30秒回答

我会看是否有大量微变请求在探测通过边界、拒绝原因、阈值、规则例外或规避策略。检测信号包括参数组合异常、请求频率、身份图谱、设备风险、解释请求模式和实际欺诈事件关联。响应包括限流、降低解释粒度、身份增强、fraud intel 和 model risk review。

2分钟回答

支付风控模型的解释能力很有价值,但也可能帮助攻击者逆推出边界。AI SOC 要区分合法客户解释、内部运营解释和异常边界探测。对于外部或低信任主体,解释应最小化,不暴露可操作阈值。检测上可以关联 request parameter sweep、decision outcome pattern、IP / device graph、account graph、velocity 和 fraud loss。高风险告警要进入 Fraud Risk Ops,同时反馈给 Model Risk 和 Data Science 调整 explanation policy 与 abuse controls。


17. 可落地交付物清单

Artifact最小可用内容高级完成标准
AI Telemetry Schemaevent taxonomy、trace ID、actor、prompt、RAG、model、tool、policy、DLP、output、SOC fields字段级隐私控制、evidence vault、retention、SIEM mapping、data quality checks
Detection Rule Catalogrule ID、logic、severity、data source、responseOWASP / ATLAS mapping、positive / benign test cases、precision tracking、rule owner
Incident Severity MatrixSEV0-SEV4、升级条件、默认动作客户、监管、数据、tool side effect、blast radius、reversibility 维度齐全
SOC Runbook通用流程和 6 个金融零售场景evidence checklist、SOAR actions、cross-functional route、replay regression
SIEM Integration MapAI fields 到 SIEM fields 的映射redaction strategy、case routing、correlation keys、schema quality monitoring
SOAR Playbooksdisable tool、block egress、quarantine doc、rollback index、rotate secretscoped containment、approval log、rollback proof、post-action validation
Purple-Team Exercise Plancharter、scenario cards、timeline、scorecard使用合成数据、dry-run side effect、control gap register、regression results
Control Effectiveness Dashboardcoverage、precision、MTTD、MTTR、DLP、tool、RAG、purple-team metrics支持 go / no-go、risk acceptance、audit sampling、investment prioritization
Interview Answer Set30 秒和 2 分钟回答能针对 CISO、CRO、AI Platform PM、SOC Lead、Enterprise Architect 深挖

18. 参考来源链接