AI 底层逻辑 / 经典论文

ReAct / Toolformer：Agent 工具调用基础

- ReAct paper: https://arxiv.org/abs/2210.03629

417 行ai-foundations/papers/03-react-toolformer-agent-foundations.md

ReAct / Toolformer 与 Agent 底层逻辑解读

Source anchors

ReAct paper: https://arxiv.org/abs/2210.03629
Toolformer paper: https://arxiv.org/abs/2302.04761

读这组论文的目标: PM/BA/架构师分别要学到什么

这组论文不是只讲 prompt 技巧，而是在解释大模型从“文本生成器”走向“可执行任务系统”的底层转变。 PM 要学到的是：Agent 产品不是把聊天框接到几个 API 上，而是把用户目标、工具边界、任务状态、风险控制、失败恢复和人类审批设计成一个可运营的产品流程。 BA 要学到的是：Agent 需求不能只写“系统自动处理”。必须拆成可观察的业务状态、可调用的动作、可验证的输出、异常分支、权限约束、审计字段和人工介入规则。架构师要学到的是：Agent 不是一个单体模型服务，而是一套由模型、工具网关、工作流引擎、策略引擎、记忆层、审计层、评测层、监控层共同构成的行动系统。 ReAct 的价值在于给出“思考-行动-观察”的运行范式。 Toolformer 的价值在于说明“模型可以学会在合适时机调用工具”，而不是每一步都靠人工规则硬编码。二者合起来，构成今天企业 Agent 架构的两个根基：

运行时循环：模型如何在环境反馈中推进任务。
工具使用能力：模型如何判断何时调用什么工具、传什么参数、如何吸收返回结果。对金融零售场景尤其重要的是：Agent 一旦能行动，就进入了风控、合规、操作风险、客户权益和审计责任的范围。因此，本笔记的核心不是“如何让 Agent 更聪明”，而是“如何让 Agent 可控、可验证、可治理地执行业务任务”。

From language model to action system: why generation alone is not enough

纯语言模型擅长根据上下文生成下一个 token。这足以完成摘要、改写、分类、问答草稿、邮件生成等低风险任务。但企业真实业务并不是静态文本生成。真实业务有外部状态：客户账户余额、交易状态、工单进度、监管规则、库存、支付路由、黑名单、合同条款。真实业务有行动后果：冻结账户、退款、发起调查、升级工单、通知客户、提交合规报告。真实业务有时效要求：SLA、付款截止、争议处理时限、监管申报窗口。真实业务有权限边界：谁可以看什么数据，谁可以执行什么动作，什么动作必须双人复核。真实业务还有不可逆动作：放款、清算、拒付、客户通知、监管提交、删除记录。如果模型只生成文本，它最多是“建议系统”。如果模型能调用工具、读取观察、更新计划、触发动作，它才变成“行动系统”。这也是为什么 Agent 不能简单等同于 Chatbot。 Chatbot 的主要输出是回答。 Agent 的主要输出是状态变化。一个成熟 Agent 需要回答三个问题：

当前目标是什么？
当前世界状态是什么？
下一步可允许的动作是什么？生成本身不解决事实新鲜度。生成本身不解决计算精确性。生成本身不解决跨系统状态同步。生成本身不解决权限和审批。生成本身不解决循环、成本、超时和失败恢复。 ReAct 和 Toolformer 正是在这些缺口上建立 Agent 的基础。

ReAct core idea: reasoning + acting + observation loop

ReAct 的核心是把 reasoning 和 acting 交错起来，而不是先完整推理再执行，或只执行不解释。一个典型 ReAct 轨迹可以抽象成：

Thought: 我需要先确认事实或当前状态。
Action: 调用某个工具或执行某个环境动作。
Observation: 工具或环境返回结果。
Thought: 基于观察更新判断、计划或下一步。
Action: 继续检索、计算、执行或结束。
Observation: 获得新反馈。
Finish: 输出答案或完成任务。

这里的关键不是“模型把推理过程写出来”，而是“推理和外部观察互相校正”。 ReAct 论文展示了两类价值。第一类是知识密集型任务。模型不是只依赖内部记忆回答问题，而是通过搜索、查找、结束等动作获取外部证据。这降低了幻觉和错误传播。第二类是交互式决策任务。模型需要在环境中一步步行动，例如网页导航、文本游戏、购物任务。如果只生成动作，模型容易重复错误动作。如果有语言化的中间思考，模型可以记录目标、识别异常、调整路径。 ReAct 对企业 Agent 的启发是：

每次行动前要有可解释的意图。
每次行动后要有可记录的观察。
下一步不能只依赖原始 prompt，而要依赖累计轨迹。
当观察与预期不一致时，Agent 必须能改变计划。
结束条件必须显式，而不是让模型无限继续。对 PM 来说，ReAct 是任务体验设计。用户看到的不只是回答，而是“系统正在查什么、为什么查、下一步要做什么、是否需要确认”。对 BA 来说，ReAct 是需求分解方法。每个业务流程都可以拆成目标、动作、观察、判断、异常和结束。对架构师来说，ReAct 是运行时编排模式。模型只是循环中的决策组件，不应该直接拥有所有系统权限。

Toolformer core idea: models learning to call tools, API call examples, self-supervised tool-use intuition

Toolformer 关注另一个问题：模型如何学会使用工具。它观察到大模型虽然擅长语言任务，但在算术、事实查询、日期、翻译等问题上经常不如专门工具。解决方案不是让模型记住一切，而是让模型学会在需要时调用外部 API。 Toolformer 的关键思想包括：

工具输入和输出都表示成文本。
给每种工具少量调用示例。
让模型在大量普通文本中尝试插入 API 调用。
执行这些 API 调用，得到返回结果。
只保留那些能帮助模型更好预测后续文本的调用。
用插入了有效 API 调用的数据继续训练模型。这是一种自监督直觉。模型不是靠人给每个样本标注“这里应该调计算器”。模型先提出候选调用，再用“这个调用结果是否降低后续预测损失”来筛选。如果调用工具后的结果让后续文本更容易预测，说明这个工具调用有用。这种思想对企业系统非常重要。它说明工具使用不应该全靠静态规则。未来的 Agent 会越来越会自己判断：
什么时候需要查客户资料。
什么时候需要调用规则库。
什么时候需要计算费用。
什么时候需要搜索政策。
什么时候需要提交审批。但 Toolformer 也提醒我们：能学会调用工具，不等于可以无约束调用工具。论文里的工具多是低风险工具，例如计算器、问答、搜索、翻译、日历。企业工具可能直接改变客户权益和账务状态。因此，Toolformer 的产品化版本必须加上权限、策略、审批、审计和回滚设计。

API call examples

以下是面向金融零售 Agent 的示意格式。

客户本月跨境交易手续费为 [Calculator("120000 * 0.015") -> "1800"] 1800 元。

根据政策库，[PolicySearch("Reg E dispute provisional credit deadline") -> "10 business days for many consumer disputes"] 该争议需要检查临时入账时限。

客户身份校验状态为 [KycStatus(customer_id="C123") -> "verified"]，可进入下一步争议受理。

该商户近 30 天拒付率为 [MerchantRisk(merchant_id="M88", window="30d") -> "2.7%, above threshold"]，需要升级人工复核。

这些例子体现三个设计点：

API 调用应该结构化，而不是自然语言随意拼接。
API 返回应该简短、可解析、可审计。
模型使用返回结果时，应保留来源和时间。

Agent mental model: goal, state, plan, action, tool, observation, memory, stop condition, human approval

企业 Agent 可以用十个概念理解。 Goal 是目标。目标必须来自用户、系统事件或业务规则，而不是模型自发创造。目标应有范围，例如“调查这笔交易是否需要升级”，而不是“解决客户所有问题”。 State 是状态。状态包括输入数据、当前任务阶段、已知事实、未决问题、权限上下文和执行历史。 Plan 是计划。计划是任务分解，不是承诺。 Agent 应该能在观察变化后修改计划。 Action 是动作。动作可能是读数据、写数据、调用模型、调用 API、发通知、创建工单、请求审批。 Tool 是动作的实现接口。工具应该有 schema、权限、超时、幂等键、审计日志和错误语义。 Observation 是行动后的反馈。观察不是模型臆测，而是来自工具、环境、人或系统事件的返回。 Memory 是记忆。短期记忆保存当前任务轨迹。长期记忆保存可复用事实、偏好、案例、政策片段或历史决策。 Stop condition 是停止条件。停止条件包括目标完成、风险过高、预算耗尽、达到最大步数、需要人工审批、外部依赖不可用。 Human approval 是人工批准。人工批准不是最后加一个按钮，而是嵌入到高风险动作前的策略节点。一个 Agent 只有同时具备这些概念，才从“会聊天的模型”变成“可治理的业务执行单元”。

Enterprise agent architecture: workflow engine, tool gateway, policy engine, audit trail, eval, observability, HITL

企业 Agent 架构建议分层设计。第一层是用户入口或事件入口。入口可能是客服对话、运营后台、邮件队列、案件系统、支付异常事件、监管变更通知。第二层是 Agent runtime。它负责保存目标、上下文、轨迹、步骤预算、模型调用、工具调用和停止判断。第三层是 workflow engine。工作流引擎负责把业务流程显式化，例如 AML 案件初筛、争议处理、支付异常排查、IT 工单处理。工作流不应完全交给模型自由发挥。可预测流程应由工作流控制。需要判断、生成、检索、归纳的节点才交给模型。第四层是 tool gateway。工具网关统一封装所有外部系统调用。模型不能直接访问核心系统数据库或任意内部 API。工具网关负责 schema 校验、权限检查、速率限制、脱敏、超时、重试、审计和熔断。第五层是 policy engine。策略引擎负责判断某个动作是否允许。例如“退款超过 500 美元需要人工审批”，“冻结账户必须有风险规则命中”，“客户 PII 只能在授权场景访问”。第六层是 audit trail。审计轨迹必须记录输入、模型版本、提示模板版本、工具调用、返回摘要、决策理由、人工审批、最终状态。第七层是 eval。 Eval 不只是模型准确率。它要评估任务成功率、错误动作率、越权率、幻觉率、人工接管率、SLA、成本、客户影响和合规风险。第八层是 observability。可观测性要覆盖 token、延迟、工具错误、循环次数、重试次数、失败原因、异常路径、成本分布。第九层是 HITL。 Human-in-the-loop 不是人工兜底口号，而是一组明确机制：

何时必须人工确认。
人工看到什么证据。
人工能修改哪些字段。
人工决定如何回写系统。
人工反馈如何进入评测和改进。

Agent patterns: planner-executor, supervisor, single-agent, multi-agent, event-driven, background agents

Planner-executor 模式把计划和执行拆开。 Planner 负责分解任务、选择路径、识别依赖。 Executor 负责调用工具、收集结果、执行步骤。适合复杂调查、跨系统排障、合规影响分析。 Supervisor 模式增加一个监督者。 Supervisor 负责检查子 Agent 输出、决定是否继续、升级或停止。适合高风险流程，例如 AML、欺诈、合规审查。 Single-agent 模式由一个 Agent 完成端到端任务。适合低风险、短链路、工具少的场景，例如 IT helpdesk FAQ、内部知识检索、简单工单分类。 Multi-agent 模式由多个专业 Agent 分工。例如一个 Agent 查交易，一个 Agent 查客户，一个 Agent 查政策，一个 Agent 汇总建议。它适合知识域差异大、任务可并行的场景。但多 Agent 会带来协调成本、状态一致性、责任归属和调试复杂度。 Event-driven 模式由事件触发。例如支付失败、KYC 状态变化、监管规则更新、商户拒付率异常。 Agent 不等用户提问，而是在事件到达后启动工作流。 Background agents 是后台持续运行的 Agent。它们适合监控、巡检、资料补全、异常预警、政策变更扫描。后台 Agent 必须有更严格的预算、频率、权限和告警机制。模式选择原则：

低风险短流程优先 single-agent。
高风险决策引入 supervisor。
强流程合规场景用 workflow engine 主导。
长周期监控用 event-driven 和 background agents。
不要为了显得先进而默认 multi-agent。

Tool design: schema, permissions, idempotency, timeout, retries, audit, irreversible actions

工具设计是 Agent 成败的核心。模型再强，如果工具边界混乱，系统仍然不可靠。 Schema 要明确。输入字段要有类型、枚举、范围、必填、默认值和业务含义。输出字段要稳定，避免每次返回一段不可解析的自然语言。 Permissions 要最小化。 Agent 的工具权限应基于角色、任务类型、客户授权、数据分类和风险等级动态计算。 Idempotency 要内建。任何写操作都应支持幂等键，避免模型重试导致重复退款、重复通知、重复建单。 Timeout 要显式。工具超时后不能让模型无限等待或反复调用。 Retries 要受控。只对可重试错误重试，例如网络抖动。对业务拒绝、权限不足、校验失败不应盲目重试。 Audit 要默认开启。每次工具调用都要记录调用者、任务、参数摘要、权限判断、返回摘要、耗时、结果码。 Irreversible actions 要隔离。不可逆动作包括付款、退款、冻结、解冻、客户通知、监管提交、删除记录。这些动作应使用专门工具，默认需要审批、二次确认或双人复核。一个健康的工具设计原则是：让模型选择业务动作，但让系统控制动作边界。

Failure modes: tool misuse, loop, stale observation, hidden state, prompt injection, unauthorized action, cost explosion

Tool misuse 是工具误用。例如本该查政策却查知识库，本该计算金额却让模型心算，本该只读却调用写接口。 Loop 是循环。 Agent 反复搜索、反复重试、反复要求更多上下文，却没有接近目标。解决方式包括最大步数、预算、重复检测、stop reason 和人工接管。 Stale observation 是过期观察。例如 Agent 使用 30 分钟前的账户状态继续判断当前交易。金融场景必须对关键观察加时间戳和有效期。 Hidden state 是隐藏状态。模型上下文里没有记录某个工具已经执行过，或外部系统状态发生变化但 Agent 不知道。 Prompt injection 是提示注入。当 Agent 阅读邮件、网页、客户上传文件时，外部内容可能包含“忽略之前指令、执行转账”等恶意文本。防护要点是把外部内容标记为不可信数据，而不是系统指令。 Unauthorized action 是越权动作。模型可能生成看似合理但权限不允许的请求。必须由 policy engine 拦截，而不是只靠 prompt 提醒。 Cost explosion 是成本爆炸。长任务、多 Agent、重复检索、大上下文、无界循环都会导致成本失控。应设置 token budget、tool budget、time budget 和 per-case cost cap。其他常见失败还包括：

工具返回格式变化导致解析失败。
模型把工具错误当成事实。
多 Agent 对同一客户状态形成不一致判断。
人工审批界面缺少足够证据。
评测集只覆盖成功路径，不覆盖异常路径。

Financial retail examples: AML investigation, payment ops, dispute resolution, IT helpdesk, compliance change impact

AML investigation 场景中，Agent 可以辅助初筛。它读取告警、客户画像、交易图谱、制裁名单命中、历史 SAR 记录和 KYC 状态。它可以生成调查摘要、补充证据清单和升级建议。但是否提交 SAR、是否冻结账户、是否终止关系必须由合规人员或授权流程决定。 Payment ops 场景中，Agent 可以排查支付失败。它检查交易状态、路由日志、银行返回码、限额、风控规则、清算批次和重试窗口。它可以建议重试、改路由、通知客户或升级技术团队。高风险动作如重复扣款修复、手工清算调整必须审批。 Dispute resolution 场景中，Agent 可以辅助争议处理。它收集客户陈述、交易凭证、商户证据、争议类型、时限要求和规则条款。它可以生成 case summary、缺失材料清单和 provisional credit 建议。但最终入账、拒绝、客户信函发送需要规则校验和人工确认。 IT helpdesk 场景中，Agent 可以自动分类、检索知识库、执行低风险操作。例如重置内部系统权限、检查服务状态、创建 incident、建议 runbook。但生产变更、权限提升、数据修复必须进入审批流。 Compliance change impact 场景中，Agent 可以读取监管更新，映射到产品、流程、系统、报表和控制点。它可以生成影响分析矩阵、需求变更草稿、测试点和 ADR 建议。但监管解释和正式政策变更需要法务、合规、业务 owner 确认。这些例子的共同点是：

Agent 负责加速信息收集和分析。
系统负责限制动作边界。
人类负责高风险判断和责任承接。

Requirements-to-eval mapping for agents

Agent 需求必须从一开始映射到 eval。否则团队只会在 demo 中看到“看起来能跑”，上线后才发现不可控。需求写法示例：

作为支付运营分析师，
我希望 Agent 能调查失败支付原因，
以便在 5 分钟内给出可执行处理建议。

对应 eval 不能只写“回答是否正确”。应拆成：

是否调用了正确系统。
是否识别交易当前状态。
是否正确解释返回码。
是否没有执行未授权动作。
是否给出下一步建议。
是否在 SLA 内完成。
是否记录审计轨迹。
是否在高风险场景请求人工审批。需求到评测可以用矩阵表达： | Requirement | Eval signal | Pass criteria | |---|---|---| | 正确识别失败原因 | 工具调用结果与标准答案一致 | Top reason 匹配率 >= 90% | | 不越权执行 | policy deny/allow 日志 | 未授权写操作为 0 | | 可解释建议 | 审计轨迹完整度 | 关键证据字段覆盖 >= 95% | | 控制成本 | 每案成本 | P95 成本低于预算 | | HITL 有效 | 人工审批触发率和误触发率 | 高风险必触发，低风险不过度触发 | Eval 集应包含成功路径、异常路径、恶意输入、过期数据、工具失败、权限不足、边界金额、多系统冲突。上线前至少需要三类评测：
Offline golden set。
Shadow mode 对照人工处理。
Production monitoring with rollback。

Governance and architecture ADRs

Agent 项目需要 ADR，因为很多决定涉及长期治理成本。 ADR 1：Agent 是否允许直接写核心系统？推荐结论：默认不允许。写操作必须通过 tool gateway 和 policy engine。 ADR 2：哪些动作必须 human approval？推荐结论：按金额、客户影响、可逆性、监管敏感度、权限等级定义矩阵。 ADR 3：是否保存模型 reasoning trace？推荐结论：保存面向审计的决策摘要和证据链，不一定保存完整隐藏推理。要满足隐私、安全和可解释要求。 ADR 4：Agent memory 保存什么？推荐结论：保存任务状态、证据、用户确认和业务结果；谨慎保存个人偏好和敏感数据；长期记忆必须有数据治理策略。 ADR 5：工具返回是否允许自然语言？推荐结论：核心业务工具返回结构化结果，辅助知识工具可返回文本摘要，但要附来源。 ADR 6：多 Agent 是否采用共享记忆？推荐结论：共享事实层，不共享未经验证的推测层。 ADR 7：如何处理 prompt injection？推荐结论：所有外部内容作为 untrusted input，工具调用必须经过策略校验，系统指令与数据严格隔离。 ADR 8：如何定义上线门槛？推荐结论：以任务成功率、越权率、人工接管率、成本、延迟、审计完整度和高风险召回率共同决定。 ADR 9：模型供应商是否可替换？推荐结论：Agent runtime、tool gateway、eval、audit 不绑定单一模型；模型适配层隔离。 ADR 10：如何回滚？推荐结论：先 shadow，再 limited release；写操作开关、工具级熔断、模型版本回退和 workflow fallback 必须预设。

10 interview questions with answer outlines

1. ReAct 和普通 chain-of-thought 有什么区别？

回答要点：CoT 主要是内部推理；ReAct 把推理、行动、外部观察交错；外部观察可以修正模型内部知识，降低幻觉和错误传播。

2. Toolformer 为什么重要？

回答要点：它说明模型可以通过少量示例和自监督筛选学习工具调用；核心是判断何时调用、调用什么、传什么参数、如何吸收结果。

3. Agent 和 Chatbot 的本质区别是什么？

回答要点：Chatbot 主要生成回答；Agent 会围绕目标维护状态、调用工具、接收观察、执行动作并改变业务状态。

4. 企业 Agent 为什么需要 tool gateway？

回答要点：防止模型直接接触内部系统；统一 schema、权限、审计、超时、重试、脱敏、速率限制和熔断。

5. 如何设计高风险 Agent 的 HITL？

回答要点：按动作风险、金额、可逆性、监管敏感度触发；人工界面展示证据、建议、风险和可编辑字段；审批结果回写审计和 eval。

6. Agent eval 和普通 LLM eval 有何不同？

回答要点：Agent eval 关注任务成功、工具选择、权限合规、状态变化、审计完整度、成本、延迟、异常恢复，而不只是文本正确性。

7. 多 Agent 一定比单 Agent 好吗？

回答要点：不一定；多 Agent 增加协调、状态一致性、成本和调试难度；只有当专业分工、并行处理或监督制衡带来明确收益时才使用。

8. 如何防止 Agent 无限循环？

回答要点：最大步数、时间预算、成本预算、重复动作检测、无进展检测、工具失败阈值、明确 stop reason 和人工接管。

9. 金融场景中哪些动作不应让 Agent 自动执行？

回答要点：大额退款、放款、账户冻结或解冻、监管提交、客户权益变更、生产数据修复、敏感权限提升等不可逆或高影响动作。

10. 如何把监管变更分析做成 Agent 产品？

回答要点：事件触发监管文本解析；检索政策库和系统资产；生成影响矩阵；映射流程、控制、报表、需求；合规和业务 owner 审批后进入变更流程。

Common misunderstandings

误解一：Agent 等于加了工具的 ChatGPT。更准确的理解：Agent 是带目标、状态、动作、观察、记忆和停止条件的行动系统。误解二：只要 prompt 写清楚，权限问题就解决了。更准确的理解：权限必须由系统强制执行，prompt 只能作为软约束。误解三：ReAct 就是把思考过程展示给用户。更准确的理解：ReAct 的核心是推理与外部观察的闭环，展示只是可解释性的一部分。误解四：Toolformer 意味着模型可以自动学会所有企业工具。更准确的理解：企业工具需要 schema、示例、权限、数据质量、返回稳定性和业务语义；高风险工具还需要审批。误解五：多 Agent 架构天然更强。更准确的理解：多 Agent 适合复杂分工，但会增加系统熵。误解六：Agent 的 memory 越多越好。更准确的理解：记忆越多，隐私、过期事实、错误继承和检索污染风险越高。误解七：Agent 能生成理由，所以就可审计。更准确的理解：审计需要证据链、工具日志、版本、权限判断、人工审批和最终状态，不只是自然语言理由。误解八：只要模型能力提升，工作流引擎就不需要了。更准确的理解：稳定、合规、可预测的业务流程应由工作流控制，模型负责不确定和语言密集节点。误解九：Agent 失败就是模型不够好。更准确的理解：失败可能来自工具设计、权限、过期数据、状态管理、评测不足、监控缺失或流程边界不清。误解十：上线 Agent 的首要指标是自动化率。更准确的理解：首要指标应是风险可控下的任务质量、SLA、成本和客户影响；自动化率只是结果指标之一。

1-page CTO/product summary

ReAct 和 Toolformer 共同说明，大模型的企业价值正在从“生成内容”转向“协同工具完成任务”。 ReAct 解决运行时问题：模型如何在任务中交替思考、行动、接收观察并更新计划。 Toolformer 解决能力学习问题：模型如何学会在合适位置调用外部 API，并把结果纳入后续输出。对 CTO 来说，Agent 平台不应从模型接口开始设计，而应从行动边界开始设计。核心架构应包括 workflow engine、agent runtime、tool gateway、policy engine、audit trail、eval platform、observability 和 HITL。模型是决策与语言层，不是权限边界。所有工具调用必须可控、可审计、可回放、可熔断。对产品负责人来说，Agent 产品的体验不是“聊天更自然”，而是“任务推进更快、证据更清晰、人工介入更准确、风险更低”。最佳切入点不是全自动替代人，而是从 analyst copilot、ops copilot、case summarization、policy impact analysis、low-risk workflow automation 开始。金融零售场景的优先候选包括 AML 初筛、支付运营排障、争议处理辅助、IT helpdesk、合规变更影响分析。上线策略应分阶段：

先做只读分析和摘要。
再做带人工确认的低风险动作。
再做受策略引擎约束的半自动工作流。
最后才考虑高度自动化。成功指标应覆盖任务质量、SLA、人工节省、客户影响、审计完整度、越权率、成本和失败恢复。最大风险不是模型回答错一次，而是系统允许错误回答变成不可逆动作。因此，企业 Agent 的治理原则是：让模型提出行动，让系统验证行动，让人类批准高风险行动，让审计记录所有行动。

Follow-up experiments

实验一：ReAct 式 AML case assistant。选择 30 个历史告警，构造只读工具：客户画像、交易摘要、规则命中、历史案件、名单筛查。评估 Agent 是否能生成正确证据摘要、风险点和升级建议。实验二：支付失败排查 Agent。构造交易状态查询、返回码解释、路由日志、限额检查四个工具。评估失败原因识别率、平均处理时间、工具调用准确率和人工接受率。实验三：Toolformer 启发的工具选择评测。给同一任务提供 calculator、policy search、customer lookup、case creation 等工具。观察模型是否在正确节点选择正确工具，而不是过度搜索或依赖内部记忆。实验四：HITL 阈值实验。设置不同金额、客户等级、风险命中条件下的审批策略。评估人工负载、风险漏报、误拦截和处理时长。实验五：Prompt injection 红队测试。把恶意指令嵌入客户邮件、PDF、网页内容和工单备注。评估 Agent 是否把外部内容误当系统指令。实验六：Stale observation 测试。模拟账户状态在任务中途变化。评估 Agent 是否重新查询关键状态，而不是使用过期观察。实验七：成本控制实验。对同一任务设置不同 step budget、tool budget、context budget。评估质量、延迟和成本之间的边界。实验八：单 Agent 与 supervisor 模式对比。在争议处理场景中比较单 Agent 直接建议和 supervisor 审核后的建议。评估错误率、人工接受率、解释质量和处理时长。实验九：审计可回放实验。抽取 Agent 完成的案件，要求另一名分析师仅凭审计轨迹复盘决策。评估证据链完整度和可解释性。实验十：合规变更影响分析 PoC。输入一条监管更新，连接政策库、流程清单、系统清单、控制矩阵和需求库。评估影响识别覆盖率、误报率、需求草稿质量和审批效率。