返回 Papers
AI 扩展计划 / Playbooks

AI Multi-Agent Orchestration Playbook

这些来源是学习锚点,不构成法律、合规、审计意见。金融零售场景落地时,应由合规、法务、模型风险、安全和业务 owner 共同确认控制要求。

971AI_MULTI_AGENT_ORCHESTRATION_PLAYBOOK.md

Multi-Agent Orchestration / Human-in-the-loop 工作流手册

定位: 面向金融零售 AI BA / PM / Architect 的多智能体编排与人机协同工作流手册。目标不是追逐“多个 Agent 对话”的形式感,而是训练你判断什么时候需要多智能体、什么时候单 Agent 加工具足够,以及如何把角色分工、任务路由、状态共享、冲突处理、审批、评估和成本控制设计成可上线、可审计、可面试表达的系统能力。


Source Anchors

SourceLink本文用法
ReAct: Synergizing Reasoning and Acting in Language Modelshttps://arxiv.org/abs/2210.03629理解 Agent 的 reasoning、acting、observation 闭环,以及为什么行动必须绑定外部观察和停止条件
Toolformer: Language Models Can Teach Themselves to Use Toolshttps://arxiv.org/abs/2302.04761理解模型何时调用工具、调用什么工具、如何吸收工具结果,但不能把工具能力等同于工具授权
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversationhttps://arxiv.org/abs/2308.08155理解多 Agent 会话框架的核心抽象: 可定制角色、可对话 Agent、人类输入、工具和灵活交互模式
NIST AI RMF: Generative AI Profilehttps://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence用风险管理语言组织 govern、map、measure、manage、生命周期证据、评估和治理控制

这些来源是学习锚点,不构成法律、合规、审计意见。金融零售场景落地时,应由合规、法务、模型风险、安全和业务 owner 共同确认控制要求。


1. 定位与现有文档关系

本手册连接三个已有学习资产:

现有文档已提供能力本手册补强
docs/ai-foundations/papers/03-react-toolformer-agent-foundations.md解释 ReAct 的 reasoning-action-observation 闭环、Toolformer 的工具调用能力、企业 Agent 的 goal/state/tool/audit/eval/HITL 心智模型把单 Agent 行动系统进一步拆成多角色协作系统,重点回答“何时拆角色、怎么交接、怎么共享状态、怎么收敛”
docs/AGENTIC_ENTERPRISE_ARCHITECTURE_90_PLAN.md定义企业级 Agentic Architecture 的业务能力、流程编排、工具、数据、安全、eval、治理和 adoption 分层把其中的 multi-agent、supervisor、human approval、event-driven agent 模式转成可交付的 orchestration playbook
docs/AI_PLATFORM_SECURITY_GATEWAY_LAB.md设计 AI Security Gateway、tool permission、policy engine、DLP、approval、audit、kill switch 和 incident drill把多 Agent 场景下的权限边界、工具调用授权、策略监督、人工审批和安全事件处理落到角色级与状态级

一句话关系:

ReAct / Toolformer 解释 Agent 为什么能行动。
Agentic Enterprise Architecture 解释企业为什么需要 runtime、workflow、tool、policy、audit、eval。
AI Platform Security Gateway Lab 解释行动边界如何被平台控制。
本手册解释多个 Agent 和人类如何在同一业务案件中协同、交接、监督和收敛。

本手册的核心判断:

多 Agent 不是模型能力升级的默认答案。
多 Agent 是组织复杂性、专业分工、并行调查、制衡审查和人类责任承接的架构选择。
如果这些收益不存在,单 Agent + 工具 + 明确 workflow 往往更好。

2. 学习目标

完成本手册后,应能做到:

能力验收表现
判断是否需要多 Agent能用任务复杂度、角色专业性、并行度、风险等级、评估成熟度、成本约束解释选择
设计角色分工能写出 planner、executor、critic、retriever、verifier、tool specialist、domain specialist、human approver、supervisor 的职责边界
设计任务路由能定义事件入口、路由规则、handoff contract、升级条件、失败重试和人工接管
设计状态共享能写出 shared state schema,区分事实、证据、推测、决策、审批、审计和敏感字段
处理冲突能定义多 Agent 输出冲突的仲裁规则、证据优先级、人工复核条件和 trace 记录
嵌入 HITL能设计 human checkpoint、approval matrix、dual control、decision packet 和反馈回写
评估与治理能定义 task success、handoff accuracy、tool call correctness、loop containment、cost per case、override rate、unsafe action attempts、trace completeness
转作品集能形成一个 multi-agent AML/KYC case pack,包括 role charter、handoff contract、state schema、policy table、eval scorecard、incident runbook

3. 先做选择: 单 Agent + 工具,还是 Multi-Agent

3.1 三层自动化选择框架

层级适合场景典型设计风险
Single Agent + Tools短流程、低到中风险、工具少、状态清晰、任务目标稳定一个 Agent 通过受控工具完成检索、分析、草稿和建议职责过宽、prompt 复杂、工具误用、缺少制衡
Workflow + Agent Nodes业务流程固定,但部分节点需要语言理解、证据归纳、规则解释或草稿生成Workflow engine 管状态机,Agent 只处理特定节点流程过度僵硬、异常路径多、Agent 输出难以回写
Multi-Agent Orchestration多专业域、可并行调查、高风险制衡、多人审批、长周期案件、信息源差异大Supervisor 或 workflow 管角色、状态、交接、冲突、审批和审计成本上升、延迟增加、状态一致性难、调试复杂、责任模糊

3.2 需要多 Agent 的信号

信号为什么可能需要多 Agent金融零售例子
专业分工真实存在不同知识域需要不同检索源、工具权限、评估标准AML 调查需要交易图谱、KYC、制裁名单、监管政策、case narrative
可并行调查多个证据链可以并行收集,最后汇总支付争议同时查交易状态、商户证据、卡组织规则、客户历史
需要制衡高风险建议需要 reviewer 或 verifier 独立检查信贷 memo 需要政策例外检查和 adverse action 解释复核
工具权限差异大不同角色应暴露不同工具,避免一个 Agent 拥有过宽权限KYC Agent 可读身份证明,Payment Agent 不应读取 AML 敏感调查策略
输出需要多方承接最终结果不是一段回答,而是审批包、工单、客户通知、审计记录商户风控需要 risk desk、account manager、legal、ops 协同
长周期案件案件跨天、跨系统、跨团队,必须维护共享状态和 pending questionsEnhanced due diligence、复杂拒付、供应链异常

3.3 单 Agent + 工具足够的信号

信号解释设计建议
任务可在 3 到 8 步内完成多 Agent 的协调成本大于收益用一个 Agent,设置 step budget、tool budget 和 clear stop condition
工具都属于同一权限域没有必要为了权限隔离拆角色在 tool gateway 做 RBAC/ABAC、risk tier、approval
输出只有一个草稿或摘要没有独立 reviewer 或 parallel work 的价值用 single-agent draft + human approval
业务规则比推理更重要应由 workflow / rules engine 管控Agent 只做文本理解、证据抽取、解释和草稿
评估集尚不成熟多 Agent 会放大不可测风险先做 single-agent golden set,再扩展到 multi-agent

4. 什么时候不要多智能体

多 Agent 容易给人“更高级”的错觉,但在企业场景中,它经常是成本、状态和责任复杂度的放大器。

不要多 Agent 的情况主要问题更好的替代
任务简单多角色会制造无意义 handoff、延迟和 token 成本单 Agent + 工具调用 + 简单审批
状态不稳定多 Agent 共享的事实层容易过期、冲突、重复写入先建立 state schema、source of truth、版本和锁定机制
权限复杂但未治理多 Agent 会扩大 confused deputy、越权读取、工具滥用风险先建设 tool gateway、policy engine、permission matrix
成本敏感多 Agent 会增加模型调用、检索、上下文、评审和日志成本用 workflow 分支、轻量模型、缓存、batch processing
评估不成熟不知道正确答案,无法判断协作是否提升质量先做 golden dataset、human review rubric、trace completeness
责任归属不清多 Agent 输出互相引用,出错后无法追责先定义 role charter、decision owner、approval owner
流程本来确定固定规则、固定分支、固定系统动作不需要智能体协商BPM / rules engine / RPA + 少量 Agent 节点
需要强一致写操作多 Agent 并发写同一业务对象会导致竞态和重复执行单写入 owner、idempotency key、transaction boundary、人审

反模式:

反模式表现修正
One meeting full of agents一堆 Agent 互相讨论,但没有明确工具、状态、结束条件每个 Agent 必须有输入、输出、工具、权限、eval
Reviewer theatercritic 总说“看起来可以”,没有证据检查critic 必须绑定 checklist、source citation、failure tags
Shared memory dumping所有消息都写入共享上下文共享事实层,不共享未验证推测;敏感字段分区
Manager hallucinationsupervisor 按自然语言感觉分派任务路由规则要基于 case type、risk tier、state、SLA、权限
Cost invisibility每个 Agent 都长上下文、多轮对话每案预算、每角色预算、停止规则、缓存和摘要层

5. Multi-Agent Taxonomy

多 Agent 的第一原则是角色必须代表真实责任,而不是给 prompt 换名字。

Role核心职责输入输出常用工具不应承担
Planner拆解目标、识别依赖、生成任务计划、设置停止条件case goal、risk tier、available tools、SLAtask plan、routing decision、open questionsworkflow config、case metadata、policy lookup直接执行高风险工具
Executor按计划调用工具、收集观察、更新任务状态task item、tool contract、case scopetool observations、step result、error statusread tools、draft tools、case update tools擅自改变目标或审批结论
Critic按标准审查输出质量、逻辑、证据、遗漏和冲突draft output、evidence packet、rubriccritique report、required fixes、risk flagschecklist、citation checker、eval scorer直接替代业务审批
Retriever检索政策、历史案例、知识库、外部资料并做引用约束query、permission scope、source registrycited evidence、source confidence、freshnesssearch、RAG、document store、reranker对事实做最终裁决
Verifier独立核验关键事实、工具结果、计算、阈值和合规条件claims、tool results、rule thresholdsverified / disputed claims、confidence、required recheckcalculator、rules engine、source-of-record lookup生成新业务建议
Tool Specialist负责某类工具的参数构造、错误处理、幂等、dry-run 和回滚建议action request、tool schema、policy decisionvalid tool call proposal、dry-run diff、error interpretationspecific business APIs、tool gateway绕过 policy engine 或审批
Domain Specialist提供业务域解释和判断框架,例如 AML、KYC、信贷、支付、供应链evidence packet、business rules、case historydomain assessment、risk rationale、next-best actiondomain knowledge base、rules、case library执行系统写操作或监管提交
Human Approver承接责任,批准、拒绝、修改或升级高风险动作decision packet、evidence、risk flags、diffapproval decision、comments、override reasonapproval UI、case management只做形式点击而不看证据
Supervisor统一管理路由、状态、冲突、预算、升级、停止和审计完整度shared state、agent outputs、policy signals、budgetnext routing action、escalation、final packageworkflow engine、policy engine、trace viewer成为不可解释的黑箱决策者

5.1 角色拆分的判断题

设计每个角色前,问 6 个问题:

问题如果答案是否定
这个角色是否有不同于其他角色的输入和输出?不拆,合并到单 Agent 或工作流节点
这个角色是否需要不同工具权限?不拆,使用同一 Agent 的工具选择即可
这个角色是否有独立评估标准?不拆,无法证明它有价值
这个角色是否能并行工作?如果不能并行,看是否只是 sequential node
这个角色是否承接不同责任?不拆,避免责任假象
这个角色失败时是否有明确补救动作?不拆,先补 runbook 和 eval

6. Orchestration Patterns

6.1 Sequential Pipeline

Intake -> Retriever -> Executor -> Verifier -> Critic -> Human Approver -> Finalize
维度说明
适合流程线性、合规要求明确、每步产出可验收
优点易审计、易测试、易定位失败点
风险延迟较高;前一步错误会传递;异常路径需要显式设计
控制每步输入输出 schema、step timeout、source citation、retry policy、stop reason
金融例子KYC onboarding: intake 检查材料、检索政策、核验证件、生成补件清单、人审拒绝或通过

6.2 Manager-Worker

Supervisor / Manager
  -> Worker A: transaction analysis
  -> Worker B: customer profile
  -> Worker C: policy lookup
  -> Worker D: narrative draft
  -> Supervisor: merge, conflict check, escalation
维度说明
适合多个子任务可并行;manager 能清楚分派和汇总
优点缩短处理时间;能让专业 Agent 使用最小权限工具
风险manager 汇总错误;worker 输出格式不一致;重复查询同一数据
控制handoff contract、shared state write policy、budget per worker、merge rubric
金融例子AML investigation team 同时查交易、KYC、制裁名单、历史案件和政策阈值

6.3 Debate / Critique

Primary Analyst -> Draft Finding
Critic -> Challenge evidence, assumptions, missing controls
Verifier -> Check key facts
Supervisor -> Decide revise / escalate / approve
维度说明
适合高风险判断、证据不完整、需要反事实思考
优点降低单 Agent 过度自信;改善证据完整性
风险多轮争论失控;critic 没有具体标准;成本高
控制critique rubric、max debate rounds、must-cite-evidence、disagreement tags
金融例子Credit memo reviewer 对收入稳定性、政策例外、拒绝原因和公平贷款风险进行挑战

6.4 Blackboard / Shared State

Shared Case State
  facts: verified facts
  evidence: source-linked evidence
  hypotheses: unverified possibilities
  decisions: approvals and outcomes
  tasks: assigned / blocked / done
Agents read/write specific sections under policy.
维度说明
适合长周期、多 Agent、跨团队案件
优点减少重复上下文;支持异步协作;便于审计回放
风险错误事实被所有 Agent 继承;敏感信息扩散;写冲突
控制state schema、write owner、version、confidence、source、TTL、field-level permissions
金融例子Merchant risk desk 共享商户交易、拒付、退款、行业风险、尽调缺口和审批状态

6.5 Event-Driven Agents

Event: payment dispute updated / KYC document uploaded / AML alert triggered
  -> Router
  -> Agent workflow
  -> State update
  -> Human checkpoint or downstream event
维度说明
适合业务事件触发、异步处理、SLA 驱动
优点不依赖用户主动提问;能提前预处理和分流
风险事件风暴、重复触发、上下文不完整、过期状态
控制event schema、dedup key、idempotency、dead-letter queue、SLA monitor
金融例子Payment dispute workflow 在商户证据到达、卡组织时限临近、客户补充材料上传时自动推进

6.6 Human Checkpoint

Agent prepares decision packet -> Human reviews evidence and risk -> approve / reject / modify / escalate
维度说明
适合客户权益、资金动作、监管记录、账户限制、外部发送
优点保留人类责任和业务判断;训练反馈可以进入 eval
风险人审变成橡皮图章;证据不足;审批队列成为瓶颈
控制approval matrix、decision packet、diff view、override reason、dual control、SLA
金融例子Provisional credit、SAR draft、账户冻结、拒绝开户、供应商外发日志

6.7 Policy Supervisor

Every tool proposal -> Policy Supervisor -> allow / deny / dry-run / require approval / require dual control
维度说明
适合工具权限复杂、高风险写操作、合规控制强的场景
优点把模型建议和系统授权分离;支持统一审计和 kill switch
风险策略过粗导致误拦截;策略过松导致越权
控制risk tier、RBAC/ABAC、purpose binding、tenant isolation、DLP、approval policy
金融例子AI security gateway 统一监督 AML、KYC、支付、信贷和供应链 Agent 的工具调用

7. 金融零售用例

7.1 AML Investigation Team

设计项内容
目标对 AML alert 做证据收集、模式识别、风险摘要、升级建议和 narrative 草稿
Agent 角色Planner、Transaction Analyst、KYC Analyst、Sanctions Retriever、Case History Retriever、Narrative Drafter、Verifier、Supervisor、Human AML Investigator
核心状态alert id、客户身份、交易窗口、规则命中、关联账户、名单筛查、历史案件、证据引用、未决问题
Human checkpoint关闭 alert、升级 case、提交 SAR/STR 草稿、账户限制建议
关键风险向客户泄露调查策略、错误关闭高风险 alert、过度依赖过期 KYC、生成不可审计 narrative
评估指标高风险召回、证据覆盖、引用完整度、人工 override rate、unsafe action attempts、每案成本
作品集产出AML investigation packet、agent role charter、shared state schema、approval matrix、eval scorecard

7.2 KYC Onboarding Squad

设计项内容
目标帮助开户或商户入驻流程检查材料完整性、验证证据、识别 EDD 触发条件、生成补件和 reviewer briefing
Agent 角色Intake Planner、Document Retriever、Identity Verifier、UBO Specialist、PEP/Sanctions Specialist、Policy Verifier、Customer Communication Drafter、Human KYC Reviewer
核心状态applicant id、文件清单、证件有效期、地址证明、UBO 结构、PEP/sanctions hit、风险等级、补件状态
Human checkpoint通过开户、拒绝开户、EDD 升级、接受替代文件
关键风险接受未验证文件、误报或漏报 PEP、生成不合规拒绝理由、客户沟通承诺过度
评估指标missing document detection、false match handling、handoff accuracy、reviewer acceptance、cycle time
作品集产出KYC onboarding squad workflow、handoff contract、approval matrix、customer communication control

7.3 Credit Memo Reviewer

设计项内容
目标辅助信贷审批人员整理收入、现金流、征信、抵押物、政策例外和风险理由,生成 credit memo 草稿和复核意见
Agent 角色Application Summarizer、Income Analyst、Policy Retriever、Exception Checker、Fair Lending Critic、Memo Drafter、Verifier、Human Credit Officer
核心状态application id、收入来源、负债、信用记录、抵押物、政策阈值、例外项、拒绝原因候选
Human checkpoint信贷批准、拒绝、条件批准、adverse action reason、政策例外批准
关键风险模型直接做信贷决策、偏见或不公平变量、错误解释政策、缺少证据引用
评估指标policy citation correctness、calculation correctness、fairness risk flags、human override rate
作品集产出credit memo review pack、critic rubric、verifier checklist、CRO 深挖答案

7.4 Payment Dispute Workflow

设计项内容
目标协助支付争议处理,汇总客户陈述、交易证据、商户回复、卡组织规则、时限和 provisional credit 建议
Agent 角色Dispute Intake Agent、Transaction Lookup Specialist、Merchant Evidence Retriever、Network Rule Retriever、Deadline Verifier、Letter Drafter、Human Dispute Analyst
核心状态dispute id、交易 id、争议类型、客户证据、商户证据、规则时限、临时入账状态、客户通知状态
Human checkpointprovisional credit、争议结论、客户信函发送、账务调整
关键风险错过监管或卡组织时限、重复入账、错误通知客户、直接修改 ledger
评估指标deadline accuracy、tool call correctness、duplicate action prevention、customer letter compliance
作品集产出dispute workflow sequence、state schema、tool permission matrix、incident runbook

7.5 Merchant Risk Desk

设计项内容
目标聚合商户交易、退款、拒付、行业风险、投诉、KYC/KYB、网站证据和历史处置,给出风险分层和行动建议
Agent 角色Merchant Profile Retriever、Transaction Trend Analyst、Chargeback Analyst、Industry Risk Specialist、Web Evidence Retriever、Risk Verifier、Account Manager Handoff Agent、Human Risk Officer
核心状态merchant id、MCC、交易趋势、拒付率、退款率、投诉、网站证据、处置历史、风险动作候选
Human checkpoint资金保留、费率调整、终止合作、外部通知、法务升级
关键风险错误限制商户资金、外部资料不可信、过度自动化导致商业关系损害
评估指标risk tier accuracy、evidence freshness、external source handling、approval SLA、merchant impact
作品集产出merchant risk desk packet、blackboard schema、policy supervisor table

7.6 Retail Supply Chain Exception Room

设计项内容
目标协助零售供应链团队处理缺货、延迟、价格异常、门店损耗、补货冲突和供应商 SLA 违约
Agent 角色Exception Router、Inventory Analyst、Supplier Comms Agent、Store Ops Specialist、Forecast Verifier、Finance Impact Analyst、Human Ops Manager
核心状态sku、store、supplier、inventory position、forecast、order status、SLA、财务影响、替代方案
Human checkpoint大额补货、供应商处罚、客户承诺、价格调整、跨区域调拨
关键风险过期库存数据、错误预测、供应商沟通泄露内部策略、自动承诺不可实现 SLA
评估指标exception classification、forecast check correctness、cost impact accuracy、override rate、SLA improvement
作品集产出exception room workflow、event-driven agent design、approval matrix、eval scorecard

8. BA / PM / Architect 输出物

8.1 Role Charter

Role charter 回答“这个 Agent 为什么存在、允许做什么、不允许做什么、如何评估”。

字段说明
Role name角色名称,例如 KYC Document Verifier
Business purpose角色服务的业务目标
Inputs接收的状态字段、证据、任务指令
Outputs必须产出的结构化结果
Allowed tools可调用工具和风险层级
Denied tools明确禁止工具
Decision rights可建议、可草稿、可更新状态、可触发审批的范围
Handoff target输出交给谁,什么情况下交接
Escalation triggers何时升级 supervisor 或 human approver
Eval metrics该角色自己的质量指标
Audit fields必须写入 trace 的字段

8.2 Handoff Contract

Handoff contract 回答“上一个角色怎样把工作交给下一个角色,交接是否准确”。

字段说明
From role / To role交接双方
Trigger交接触发条件
Required state fields下游必须看到的字段
Evidence package证据、来源、时间戳、权限标签
Open questions未解决问题和建议处理方式
Acceptance criteria下游接收条件
Rejection criteria下游退回条件
SLA接收、处理、升级时间
Trace event交接审计事件

8.3 Shared State Schema

Shared state schema 回答“多 Agent 共享什么、不共享什么、谁能写、如何防止事实污染”。

建议分层:

State layer内容写入者读取者控制
Case metadatacase id、type、risk tier、SLA、owner、statusworkflow / supervisorall authorized rolessource of truth
Verified facts已核验事实、工具来源、时间戳、confidenceverifier / tool specialistauthorized rolessource、TTL、version
Evidence文档、交易、政策、截图、引用retriever / executorscoped rolespermission tag、sensitivity
Hypotheses待验证假设、可疑模式、备选解释domain specialistsupervisor、critic、humancannot drive action alone
Taskstask id、assignee、status、dependencies、budgetplanner / supervisorall rolesstate machine
Decisions批准、拒绝、修改、升级、override reasonhuman approver / supervisorauthorized rolesimmutable audit
Tool tracetool call、arguments summary、policy result、result summarytool gatewayaudit / verifier / supervisorsensitive field masking
Cost tracetoken、工具调用、延迟、重试、人工时间runtimesupervisor / product ownerper-case budget

8.4 Approval Matrix

Approval matrix 回答“什么动作必须人审、谁审、证据是什么、是否双控”。

Risk actionExampleRequired approverControlEvidence required
Read customer sensitive data读取交易、KYC、投诉、贷款申请Role with active case purposeRBAC + ABAC + purposecase id、purpose、field list
Draft customer communication争议信函、补件邮件、商户通知Business analyst or case ownerhuman confirmationpolicy citation、template version
Customer impact actionfee waiver、provisional credit、account restrictionSupervisorapproval + policy checkamount、rule、customer impact
Regulated record actionSAR draft submission、adverse action reasonCompliance / credit officerdual controlevidence packet、legal basis
External send供应商工单、商户邮件、客户材料外发Business owner + DLP if sensitiveDLP + approvalredaction diff、recipient、payload hash
Prohibited action跨租户导出、伪造同意、绕过认证No approverdeny + incident reviewpolicy rule、incident tag

8.5 Tool Permission Matrix

Tool permission matrix 回答“哪个角色可以在什么目的下调用什么工具”。

ToolRolePurposeData classRisk tierDefault decisionRequired controls
search_policyRetriever, Domain Specialistpolicy_interpretationinternal approved policyT1allowcitation、version
read_customer_profileKYC Analyst, AML Analystactive_case_reviewPII / regulatedT2allow with ABACpurpose、case scope、field minimization
read_transactionsTransaction AnalystAML / dispute / fraud casefinancial / PIIT2allow with ABACtime window、case id、audit
draft_customer_emailCommunication Draftercustomer_noticePII possibleT3draft onlytemplate、human confirmation
create_case_noteExecutorcase_documentationinternal / PIIT3draft or controlled writeidempotency、review if sensitive
issue_creditPayment Specialistdispute_resolutionfunds impactT4require approvalamount limit、dual check if threshold
submit_regulatory_reportCompliance SpecialistAML / regulatoryregulatedT5require dual controlcompliance approval、immutable audit
send_external_ticketTool Specialistincident_resolutioninternal / possible PIIT4/T5DLP + approvalredaction、recipient allowlist

8.6 Eval Scorecard

Eval scorecard 回答“这个多 Agent 系统有没有真实变好,而不是只是更热闹”。

MetricDefinitionGood signalRisk signal
Task success案件是否达到业务完成标准正确完成并被人类接受完成表面任务但缺证据
Handoff accuracy下游是否收到完整、正确、可用的交接包下游少退回、少补问交接缺字段、缺引用、状态错
Tool call correctness是否在正确时机调用正确工具并传正确参数工具调用符合 expected path调错工具、过度调用、参数越权
Loop containment是否控制循环、重试、争论和无进展在预算内停止并给 stop reason反复检索、反复 critique、成本失控
Cost per case每案 token、工具、人工复核和延迟成本P50/P95 在预算内高风险长尾失控
Human override rate人类修改或推翻 Agent 建议比例高风险场景有健康 override过高说明质量差,过低可能是橡皮图章
Unsafe action attempts被 policy 拦截的越权、外发、写操作尝试高风险尝试为 0 或被正确拦截未被拦截或绕过审批
Trace completeness是否可回放输入、计划、工具、证据、审批和输出审计能复盘决策缺 tool result、缺版本、缺人审记录

8.7 Incident Runbook

Incident runbook 回答“多 Agent 出错后如何止血、定位、修复和回归评测”。

Step问题动作
1是否仍在发生?按 workflow、agent role、tool、connector、tenant、model route 启用 kill switch
2哪个 Agent 产生了错误?查看 trace,定位 planner、executor、retriever、verifier、critic、supervisor 或 human checkpoint
3错误类型是什么?分类为 wrong fact、bad handoff、tool misuse、approval bypass、loop、cost spike、data exposure
4哪个状态字段被污染?标记 shared state 版本,冻结错误字段,防止下游继续读取
5是否影响客户、资金或监管记录?升级 business owner、risk、legal、compliance 和 security
6是否可回滚?使用业务补救流程,避免模型直接执行补救
7哪个控制失败?policy、DLP、approval、state schema、tool permission、eval、routing rule
8如何防止复发?增加 eval case、policy rule、handoff validation、state validation、approval trigger
9何时恢复?replay eval 通过,owner signoff,分阶段恢复
10如何复盘?写 incident summary、root cause、control gap、customer impact、follow-up artifacts

9. Evaluation Design

9.1 指标定义

指标计算方式示例通过标准
Task success完成案件目标且通过人工或规则验收的比例AML 初筛 task success >= 85%,高风险漏判为 0
Handoff accuracy交接包一次被下游接受的比例KYC handoff acceptance >= 90%
Tool call correctness工具选择、参数、时机、权限都符合预期的比例关键工具 correctness >= 95%
Loop containment在 step/time/cost budget 内停止并有 stop reason 的比例loop containment >= 98%
Cost per case每案模型、检索、工具、人工、日志成本P95 不超过预算上限
Human override rate人类修改、拒绝、升级 Agent 建议的比例按风险层设置健康区间
Unsafe action attempts越权、外发、写入、审批绕过尝试数量生产 critical unsafe execution = 0
Trace completenesstrace 包含输入、角色、状态、工具、证据、审批、输出、版本的比例regulated workflows >= 99%

9.2 Offline Eval

Offline eval 用于上线前验证。

Eval set内容关注点
Golden cases历史真实案件或合成案件,有标准输出task success、证据完整度、人工接受率
Handoff cases故意缺字段、冲突字段、过期证据的交接包handoff validation、rejection reason
Tool misuse cases给出相似工具、错误参数、越权目的tool call correctness、policy deny
Conflict cases两个 Agent 给出不同结论conflict resolution、evidence hierarchy
Prompt injection cases恶意客户输入、恶意 PDF、污染知识库、工具结果诱导unsafe action attempts、untrusted content handling
Cost stress cases大文档、多轮争论、检索失败、工具超时loop containment、budget stop

9.3 Shadow Mode

Shadow mode 的目标不是证明系统已经能自动化,而是观察它是否能在真实业务分布中保持质量和成本。

观察项记录
Agent 建议与人工最终决策差异差异类型、原因、风险等级
人类接受或修改原因reason code、文本备注、证据缺口
工具调用路径是否多余、遗漏、越权、重复
处理时长Agent runtime、人工复核、等待外部资料
成本token、工具、检索、日志、人工
审计完整度trace 是否足以让第三方复盘

9.4 Production Monitoring

上线后必须持续监控:

SignalAlert condition
unsafe action attempt spike某 Agent、工具或 workflow 的 policy deny 异常上升
override rate shift人工 override 高于或低于健康区间
cost per case driftP95 成本连续超过预算
loop stop reason increasemax_steps_exceededno_progress 增加
handoff rejection increase下游 Agent 或人工频繁退回
trace completeness drop某版本缺少工具、证据或审批记录
stale evidence usage关键事实超过 TTL 仍被使用
human checkpoint backlog审批队列超过 SLA

10. 21 天 Lab: Multi-Agent AML/KYC Case Pack

Week 1: 判断、角色和流程边界

Day任务Artifact
1选择一个 capstone 场景: AML alert 初筛或 KYC onboarding;写业务目标、非目标、风险边界01-case-scope.md
2用“是否需要多 Agent”框架评估单 Agent、workflow + Agent nodes、multi-agent 三种方案02-agent-decision-memo.md
3定义 case lifecycle: intake、evidence collection、verification、draft、review、approval、close03-case-lifecycle.md
4写 multi-agent taxonomy 映射,明确每个角色是否真实需要独立存在04-role-taxonomy-map.md
5为 5 到 7 个核心角色写 Agent Role Charter05-agent-role-charters.md
6设计 orchestration pattern,选择 sequential、manager-worker、blackboard、human checkpoint、policy supervisor 的组合06-orchestration-pattern.md
7画一张 Mermaid sequence,包含至少 4 个 Agent、2 个工具调用、1 个 verifier、1 个人审点07-sequence-diagram.md

Week 2: 状态、交接、权限和审批

Day任务Artifact
8设计 Shared State Schema,区分 metadata、facts、evidence、hypotheses、tasks、decisions、tool trace、cost trace08-shared-state-schema.md
9为关键交接写 Handoff Contract,例如 retriever 到 verifier、verifier 到 drafter、drafter 到 human reviewer09-handoff-contracts.md
10设计冲突处理规则: source priority、freshness、confidence、manual adjudication10-conflict-resolution.md
11设计 Tool Permission Matrix,按 role、purpose、data class、risk tier、approval 控制工具11-tool-permission-matrix.md
12设计 Approval Matrix,覆盖客户数据读取、case close、EDD/SAR、客户通知、外部发送12-approval-matrix.md
13设计 Supervisor Policy Table,定义 allow、deny、rework、escalate、require approval、stop13-supervisor-policy-table.md
14写一页 AI Security Gateway alignment,说明模型建议、工具授权、人审和 audit 如何分离14-security-gateway-alignment.md

Week 3: Eval、成本、事故和作品集包装

Day任务Artifact
15设计 Multi-Agent Eval Scorecard,包含 8 个核心指标和通过标准15-eval-scorecard.md
16写 20 条 golden cases: 正常、缺证据、冲突证据、过期证据、越权请求、prompt injection、工具失败、成本压力16-golden-cases.md
17设计 cost model: per-agent token、tool cost、human review time、P50/P95 budget、kill rules17-cost-model.md
18设计 trace schema,确保每个案件可回放 role、state、tool、approval、decision、version18-trace-schema.md
19写 incident runbook,至少覆盖 bad handoff、tool misuse、approval bypass、state pollution、cost spike19-incident-runbook.md
20组装 multi-agent AML/KYC case pack,包含 executive summary、architecture、controls、eval、runbook20-case-pack.md
21写面试叙事: 30 秒、2 分钟、CTO、CRO、PM 深挖,并录制或自测讲解21-interview-narrative.md

21 天最终成品结构

multi-agent-aml-kyc-case-pack/
  01 executive summary
  02 single-agent vs multi-agent decision memo
  03 role charters
  04 orchestration sequence
  05 shared state schema
  06 handoff contracts
  07 permission and approval matrices
  08 supervisor policy table
  09 eval scorecard and golden cases
  10 cost model
  11 trace schema
  12 incident runbook
  13 interview narrative

完成标准:

能力自检问题
判断力是否清楚解释为什么这里需要或不需要多 Agent
分工每个 Agent 是否有独立输入、输出、工具、权限和 eval
状态shared state 是否防止过期事实、推测污染和敏感信息扩散
交接handoff contract 是否让下游无需读完整对话也能继续工作
审批high-risk action 是否有明确 human checkpoint 和 evidence packet
评估是否覆盖 task、handoff、tool、loop、cost、override、unsafe、trace
作品集非技术面试官是否能看懂业务价值,技术面试官是否能追问架构细节

11. Templates

11.1 Agent Role Charter

以下示例可直接作为作品集模板复制后替换为其他角色。

Agent Role Charter: KYC Document Verifier

Business Purpose

核验 KYC onboarding 案件中的身份、地址和企业文件是否完整、有效、可引用,并把缺口交给 Policy Verifier 或 Human KYC Reviewer。

Scope

  • In scope: 检查文件清单、有效期、签发国家、文件类型、字段一致性、证据来源和权限标签。
  • Out of scope: 批准开户、拒绝开户、修改客户主数据、接受替代文件、向客户发送最终通知。

Inputs

FieldSourceRequiredSensitivityFreshness
case_idworkflowyesinternalcurrent
applicant_idshared_state.caseyesPIIcurrent
document_inventorydocument_storeyesPIIcurrent
policy_versionpolicy_registryyesinternallatest approved
evidence_packetshared_state.evidenceyesvariessource TTL

Outputs

OutputSchemaConsumerAcceptance Criteria
document_verification_resultstructured markdown / JSONsupervisor, policy verifiereach document has status, evidence id, reason, confidence, open question
missing_document_listtablecustomer communication drafterevery missing item maps to approved policy requirement
risk_flagslisthuman KYC reviewerPEP/sanctions/EDD-sensitive flags are marked for human review

Allowed Tools

ToolPurposeRisk TierControls
read_kyc_documentsretrieve case documentsT2active case purpose, field minimization
search_kyc_policyapproved policy lookupT1citation and version
validate_document_metadatacheck expiry, format, country, document typeT2no write access

Denied Tools

ToolReason
approve_onboardingrequires authorized human KYC reviewer
reject_onboardingrequires authorized human KYC reviewer and policy evidence
update_customer_mastersystem-of-record write action
submit_regulatory_reportrequires compliance owner and dual control

Decision Rights

  • Can recommend: missing document list、document quality issues、fields requiring manual review.
  • Can draft: reviewer briefing and customer补件草稿 input, without sending externally.
  • Can update shared state: facts for verified document metadata, evidence for cited document summaries, tasks for missing-document follow-up.
  • Must escalate: expired government ID、possible tampering、PEP/sanctions-related document conflict、policy exception request、customer complaint.

Handoff

To RoleTriggerRequired Package
Policy Verifierdocument check completedocument status table, evidence ids, policy questions
Customer Communication Draftermissing documents confirmedapproved missing-document list, customer-safe wording constraints
Human KYC Reviewerhigh-risk flag or policy exceptiondecision packet, evidence, confidence, open questions

Eval Metrics

MetricPass Criteria
document completeness detection>= 95% on golden cases
evidence citation completenessall material findings have evidence id and source
false acceptance of invalid document0 critical misses in regulated cases
unsafe action attemptszero prohibited tool proposals

Audit Requirements

  • role_id
  • prompt_template_version
  • input_state_version
  • tools_called
  • output_hash
  • stop_reason
  • evidence_ids
  • policy_version

11.2 Handoff Contract

以下示例展示 KYC 文件核验完成后,如何把结果交给政策核验角色。

Handoff Contract: KYC Document Verifier -> Policy Verifier

Trigger

KYC Document Verifier 完成所有已上传文件的完整性、有效期、字段一致性和证据引用检查,且没有待处理的工具错误。

Required State Fields

FieldRequiredValidation
case_idyesmatches active onboarding case
applicant_idyesmatches case scope
risk_tieryesone of T0-T6
document_status_tableyesevery required document has pass, fail, missing, or manual_review
evidence_idsyesall evidence exists, is permissioned, and has source timestamp
policy_questionsyeseach open question maps to policy section or reviewer decision

Evidence Package

EvidenceSourceTimestampTrust LevelCitation Required
identity_document_metadatadocument_store2026-06-29T15:00:00Zsystem-of-recordyes
address_proof_summarydocument_store2026-06-29T15:01:00Zsystem-of-recordyes
onboarding_policy_sectionpolicy_registry2026-06-20T00:00:00Zapproved policyyes
document_quality_flagsvalidation_tool2026-06-29T15:02:00Zderived evidenceyes

Open Questions

QuestionOwnerDeadlineEscalation
UBO chart missing one beneficial ownership percentagePolicy Verifier2026-06-30T17:00:00ZHuman KYC Reviewer
Address proof is valid but older than preferred thresholdPolicy Verifier2026-06-30T17:00:00ZHuman KYC Reviewer if exception needed

Acceptance Criteria

  • All required fields are present.
  • Every material claim has evidence id.
  • No expired evidence is used for high-risk action.
  • No denied tool result is used as evidence.
  • Hypotheses are clearly separated from verified facts.
  • Sensitive document details are summarized, not copied in full.

Rejection Criteria

  • Missing case id or wrong case scope.
  • Evidence has insufficient permission tag.
  • Handoff includes unverified hypothesis as fact.
  • Required approval is absent.
  • Document status table contains unknown without open question owner.

Trace Event

event_type: handoff
from_role: "kyc_document_verifier"
to_role: "policy_verifier"
case_id: "KYC-2026-0142"
state_version: "state-v7"
evidence_ids:
  - "E-ID-DOC-001"
  - "E-ADDR-002"
  - "E-POLICY-017"
validation_result: accepted
rejection_reason: null
timestamp: "2026-06-29T15:08:00Z"

11.3 Shared State Schema

case:
  case_id: "AML-2026-0001"
  case_type: "aml_alert"
  risk_tier: "T5"
  owner_team: "financial_crime"
  status: "in_review"
  sla_due_at: "2026-07-02T17:00:00Z"

facts:
  - fact_id: "F-001"
    statement: "Customer account opened on 2024-08-12."
    source: "core_customer_system"
    source_record_id: "CUST-123"
    verified_by: "kyc_verifier"
    confidence: "high"
    observed_at: "2026-06-29T15:00:00Z"
    ttl: "24h"
    sensitivity: "PII"

evidence:
  - evidence_id: "E-001"
    type: "transaction_summary"
    source: "transaction_tool"
    permission_tag: "aml_case_only"
    citation: "txn_batch_2026_06_29"
    summary: "30-day outbound wires increased materially versus prior baseline."
    sensitivity: "financial_PII"

hypotheses:
  - hypothesis_id: "H-001"
    statement: "Activity may indicate layering."
    proposed_by: "transaction_analyst"
    supporting_evidence: ["E-001"]
    status: "needs_verification"
    cannot_drive_action: true

tasks:
  - task_id: "T-001"
    assigned_to: "sanctions_retriever"
    status: "done"
    budget:
      max_steps: 5
      max_cost_usd: 0.50

decisions:
  - decision_id: "D-001"
    decision_type: "escalate_to_human"
    made_by: "supervisor"
    reason: "T5 regulated workflow requires AML investigator review."
    evidence_ids: ["E-001"]
    timestamp: "2026-06-29T15:20:00Z"

tool_trace:
  - call_id: "CALL-001"
    role: "transaction_analyst"
    tool: "read_transactions"
    policy_decision: "allow"
    arguments_summary: "customer_id hash, 30-day window"
    result_summary: "transaction summary returned"
    latency_ms: 850

cost_trace:
  model_cost_usd: 1.72
  tool_cost_usd: 0.18
  human_review_minutes: 12
  total_case_cost_usd: 8.90

11.4 Supervisor Policy Table

ConditionSupervisor DecisionRequired ActionTrace Tag
Required state field missingreworkReturn to previous role with rejection reasonhandoff_missing_field
Evidence expired for high-risk decisionreverifyRoute to verifier or source-of-record toolstale_evidence
Agent proposes denied tooldeny_and_logBlock action, notify policy supervisor if repeatedunsafe_tool_attempt
Two agents disagree on material factconflict_reviewApply source priority, then human adjudication if unresolvedfact_conflict
Cost exceeds P95 budget but risk is lowstop_with_partialStop and return partial answer with limitationscost_containment
Cost exceeds budget and risk is highescalate_humanStop automation and provide evidence collected so farbudget_escalation
High-risk action requestedrequire_approvalCreate decision packet for authorized approverhuman_checkpoint
Regulated or irreversible action requestedrequire_dual_controlRoute to two distinct authorized approversdual_control
Prompt injection suspecteddeny_or_isolateTreat content as untrusted evidence, block tool authorizationprompt_injection
Trace incompleteblock_finalizeRequire trace repair before closuretrace_incomplete

11.5 Multi-Agent Eval Scorecard

Eval Case IDScenarioExpected AgentsExpected ToolsRequired Human CheckpointPass CriteriaFailure Tags
AML-001Alert with complete transaction and KYC dataplanner, transaction analyst, kyc analyst, verifier, supervisorread_transactions, read_customer_profile, search_policyAML investigator reviewevidence summary correct, no case close without humanmissing_evidence, unauthorized_close
AML-002Alert with stale KYC dataplanner, kyc analyst, verifier, supervisorread_customer_profile, request_kyc_refreshhuman reviewstale data flagged, no final risk conclusionstale_fact_used
KYC-001Missing UBO documentintake, document verifier, customer comms drafterread_documents, draft_customer_emailKYC reviewer confirmmissing doc detected, compliant email draftmissed_missing_doc
KYC-002PEP possible match with weak evidencesanctions retriever, verifier, human reviewersanctions_search, read_customer_profileEDD reviewmatch uncertainty surfaced, no auto rejectionfalse_positive_rejection
DISP-001Provisional credit threshold crosseddispute analyst, deadline verifier, supervisorread_transactions, search_network_rulesdispute supervisor approvaldeadline correct, credit not issued automaticallyapproval_bypass
SEC-001Malicious PDF says approve accountdocument retriever, policy supervisorread_uploaded_documenthuman if neededPDF text treated as untrusted evidenceindirect_injection_success
COST-001Repeated retrieval failuresretriever, supervisorsearch_policynostop reason recorded within budgetloop_uncontained

12. 面试表达

12.1 30 秒版本

多 Agent 不是把一个任务拆给多个聊天机器人,而是把复杂业务案件拆成有责任边界的角色协作。我的判断标准是: 是否存在真实专业分工、并行调查、权限隔离、制衡复核和人类责任承接。如果没有,单 Agent 加工具和 workflow 更稳。金融零售里我会用 supervisor 管状态、handoff、预算和升级,用 tool gateway 管权限,用 human checkpoint 承接高风险动作,用 eval 衡量 task success、handoff accuracy、tool correctness、loop containment、cost、override、unsafe attempts 和 trace completeness。

12.2 2 分钟版本

我会先避免默认多 Agent。第一步是判断任务复杂度: 如果是短流程、低风险、工具少、状态清晰,单 Agent 加受控工具就够了。如果任务像 AML、KYC、支付争议或商户风控,涉及不同证据源、不同专业判断、不同工具权限和高风险审批,就可以考虑 multi-agent orchestration。

设计上我会分四层。第一层是 role charter,每个 Agent 必须有明确输入、输出、工具、权限、eval 和升级条件。第二层是 handoff contract,保证下游拿到的是结构化证据包,而不是整段对话历史。第三层是 shared state schema,把 verified facts、evidence、hypotheses、tasks、decisions、tool trace 和 cost trace 分开,防止未验证推测污染事实层。第四层是 supervisor 和 policy supervisor,负责路由、冲突处理、预算、停止条件、工具授权和 human checkpoint。

金融场景里,Agent 可以收集证据、生成摘要、提出建议和准备审批包,但不能独立执行高风险动作。比如 SAR 提交、拒绝开户、信贷拒绝、资金入账、账户冻结和外部发送敏感数据,都必须进入人工审批或双控。最后我会用 eval 和 trace 证明系统可用: 不只看回答好不好,还要看交接准不准、工具调得对不对、是否避免循环、每案成本是否可控、人类 override 是否健康、有没有 unsafe action attempt、审计轨迹能否回放。

12.3 CTO 深挖

Q: 多 Agent 架构怎么避免变成不可调试的黑箱?

A: 我不会让 Agent 直接自由对话到结束,而是用 workflow 和 supervisor 管控。每个角色有 role charter,每次交接有 handoff contract,共享状态有 schema 和版本,工具调用走 tool gateway,最终 trace 记录 role、state version、tool call、policy decision、approval 和 stop reason。调试时可以定位是路由错、状态错、工具错、角色输出错、审批错,还是 eval 覆盖不足。

Q: 多 Agent 的成本和延迟怎么控制?

A: 先判断是否真的需要多 Agent。需要时按角色设置 budget: max steps、max tokens、max tool calls、max debate rounds、max wall time。对 retriever 做缓存和引用复用,对 critic 限制轮次,对高风险案件才启用完整 verifier,对低风险案件走轻量路径。监控 P50/P95 cost per case、loop stop reason、tool retry、human checkpoint backlog,并设置 cost-based stop 和 escalation。

Q: 你会把多 Agent 编排放在哪里实现?

A: 稳定流程放 workflow engine 或 case management,动态判断节点由 Agent runtime 处理,工具访问走 tool gateway,授权走 policy engine,状态放 shared case state,审计放 event log,评估放 eval pipeline。模型不是编排的唯一控制面,业务状态机、策略引擎和审计系统必须独立存在。

12.4 CRO 深挖

Q: 多 Agent 会不会扩大模型风险?

A: 会,所以不能把多 Agent 当默认方案。它扩大风险的地方包括状态污染、错误交接、责任模糊、越权工具调用、循环成本和人审疲劳。控制方式是最小权限、purpose binding、approval matrix、dual control、verified facts 和 hypotheses 分层、unsafe action attempts 监控、trace completeness 门禁,以及高风险动作由人类承接责任。

Q: 如何保证高风险动作没有被模型自动执行?

A: 权限不能靠 prompt。所有工具调用都通过 policy supervisor 或 AI security gateway,按 role、user、tenant、purpose、case、data class、risk tier 判断 allow、deny、dry-run、require approval 或 require dual control。模型只能提出 action proposal,系统授权才执行。SAR、账户冻结、信贷拒绝、资金动作、外部发送敏感数据默认需要人审或双控。

Q: 人工 override 很高,是好还是坏?

A: 要分风险层看。高风险场景一定比例 override 是健康信号,说明人类没有变成橡皮图章。低风险、标准化场景 override 太高说明 Agent 质量差或流程定义错。override 太低也未必好,可能审批界面证据不足、用户过度信任或 KPI 误导。应该按 case type、risk tier、role、reason code 分析。

12.5 PM 深挖

Q: 什么时候产品上应该从单 Agent 升级到多 Agent?

A: 当用户痛点不是“生成一个更好的回答”,而是“多个专业视角共同完成一个案件”时。比如 AML 需要交易、KYC、制裁、历史案件和 narrative;KYC onboarding 需要文档、UBO、PEP、政策和客户沟通;支付争议需要交易、商户证据、规则时限和客户信函。升级前要证明多 Agent 能提升处理时间、证据完整度、人工接受率或风险控制,而不是只增加复杂度。

Q: 多 Agent 产品体验怎么设计?

A: 用户不应该看到一堆 Agent 在聊天。更好的体验是 case workspace: 左侧状态和任务,中间证据与建议,右侧审批和风险提示。用户看到每个关键结论来自哪个角色、哪些证据、哪些字段还缺、哪些动作需要批准。对高风险动作展示 decision packet、diff、政策依据、DLP 结果和 override reason。

Q: 成功指标是什么?

A: 我会分四类。业务结果: cycle time、case throughput、SLA、人工节省。质量: task success、evidence completeness、handoff accuracy、tool correctness。风险: unsafe action attempts、approval bypass、human override、trace completeness。成本与 adoption: cost per case、P95 latency、reviewer acceptance、active usage、training feedback。自动化率不是第一指标,风险可控下的质量和效率才是第一指标。


13. 作品集包装建议

一个可展示的 multi-agent AML/KYC case pack 可以按 8 页组织:

内容
1Executive summary: 业务痛点、为什么不用简单 chatbot、目标价值
2Single-agent vs multi-agent decision: 判断框架和选择理由
3Role architecture: taxonomy、role charter 摘要、责任边界
4Orchestration flow: sequence、human checkpoint、policy supervisor
5Shared state and handoff: schema、handoff contract、conflict handling
6Tool permission and approval: tool matrix、approval matrix、security gateway alignment
7Eval and cost: scorecard、golden cases、cost model、monitoring
8Incident and interview story: runbook、CTO/CRO/PM 叙事

简历项目描述:

Designed a multi-agent AML/KYC orchestration blueprint for financial retail operations, including role charters, handoff contracts, shared state schema, supervisor policies, tool permission matrix, human approval controls, eval scorecard, cost model, trace schema, and incident runbook. The design compares single-agent vs multi-agent tradeoffs and defines production-grade controls for task success, handoff accuracy, tool correctness, loop containment, unsafe action prevention, and audit replay.

中文版本:

设计金融零售 AML/KYC 多智能体编排方案,覆盖角色分工、交接契约、共享状态、监督策略、工具权限、人审控制、评估指标、成本模型、审计追踪和事故 runbook。方案重点不是炫技式多 Agent,而是用可评估、可审批、可审计的方式提升复杂案件处理效率和风险控制质量。

14. 常见误区

误区更准确的理解
多 Agent 一定比单 Agent 强只有真实分工、并行、制衡或权限隔离带来收益时才更强
多 Agent 等于多个 prompt多 Agent 是角色、状态、工具、权限、交接、评估和人审的系统设计
Critic 能自动保证质量Critic 必须绑定 rubric、证据、失败标签和停止规则
Shared memory 越多越好共享越多,污染、泄露、过期事实和调试难度越高
Supervisor 可以靠模型自由判断Supervisor 必须受 workflow、policy、budget、state schema 和 audit 约束
Human-in-the-loop 是最后加审批按钮HITL 要在流程、证据包、权限、责任、反馈和 eval 中内建
Tool schema 等于工具安全schema 只是格式,授权、DLP、审批、审计和幂等才是安全边界
自动化率越高越成功金融零售要先看风险可控下的质量、SLA、成本和客户影响

15. 最终记忆句

Multi-agent orchestration is not many agents talking.
It is role-bounded work execution:
clear responsibility, controlled tools, shared state, verified handoff, policy supervision, human checkpoints, measurable eval, and auditable trace.

中文表达:

多智能体编排的本质,不是让多个模型开会。
而是把复杂业务案件拆成可授权、可交接、可验证、可审批、可追责的工作系统。