返回 AIPA 笔记
AIPA Day 98

P3 阶段总结 — 旗舰交付清单、SOTA 重审与 P4 开工预查

P3 阶段总结 — 旗舰交付清单、SOTA 重审与 P4 开工预查

2026-09-20
phase-summarysota-recheckp4-prep

日期: 2026-09-20 阶段: Phase 3 - AML 调查 Copilot 标签: #phase-summary #sota-recheck #p4-prep

核心问题

P3(D64-98,W10-14,约五周净工时)只为证明一个命题:作品②(AML 调查 Copilot v1.0)能从前两阶段的「尺子 + 架构骨架」上长出一个真实接入 LLM、有合规蓝图、有 AI PRD、有单位成本数字的金融×AI 旗舰产品。 P1 建度量底座(尺子先于引擎)、P2 建参考架构(部件齐而引擎待接)、P3 接上引擎并加合规+商业封装——三阶段递进闭合。

本日 P3 阶段总结回答三件事:

  1. P3 全阶段 SOTA 重审:FIS/Fiserv 是否如期 GA?EU AI Act Omnibus 后续?Fuselab/EBA 口径是否仍有效?这些是 P3 的「主线案例」,阶段末必须逐一复查是否仍是 SOTA(顶层硬规则 + 计划 D98 明文要求)。
  2. 作品②(AML Copilot v1.0)交付清单:逐项对照计划,证据可链接性如何,哪些是 ✅ 已建、哪些 🟡 设计/骨架、哪些 🔴 缺口(诚实门)。
  3. P4 开工预查:AgentCore Policy/Evals 是否转 GA(计划悬而未决的一个问题)?这直接决定 P4「自建 Agent 平台 vs 对标托管」的研究对象状态。

关键内容

A. P3 全阶段 SOTA 重审(主线案例逐一复查,2026-09-20 检索)

P3 的五条主线案例,本日逐一 WebSearch 复查现状:

主线案例P3 开工时口径(2026-05~08)2026-09-20 复查结论仍 SOTA?
FIS+Anthropic Financial Crimes AI Agent2026-05-04 宣布,BMO/Amalgamated 部署中,GA 2H 2026仍在 development,GA 仍计划 2H 2026;调查「hours→minutes」,FDE 嵌入 co-design,client data 留 FIS 基础设施、每决策可追溯✅ 是
Fiserv agentOS2026-05-14 宣布(OpenAI+AWS),GA 2026-08GA 口径仍指向 ~2026-08("widely available by August 2026");四初始 agent 含 Agentic AML Triage Analysis;6 行试点、2 个 beta 在跑、9 个三方 marketplace 伙伴✅ 是
EU AI Act(Art.50 / Omnibus)Art.50(1) 生效 2026-08-02;50(2) 机器可读标记经 Digital Omnibus 临时协议(2026-05-07)推迟至 2026-12-02;Annex III 高风险义务推迟至 2027-12-02期限口径未变(仍待 Omnibus 正式通过确认);50(1)/HITL 编辑责任豁免逻辑(day49)仍成立✅ 是(待正式通过复核)
Fuselab Agent UX 七模式2025-08,七模式(透明推理/可覆盖/状态通报/错误恢复/plan-execute/置信度/渐进授权)七模式仍为 Agent UX 基线;与 State of Design 生成式 UI(2026-01)并用,未被取代✅ 是
EBA/DORA 衔接EBA 报告(2025-11)衔接 NCA 监督;DORA 运营韧性生效中DORA 生效、EBA 衔接口径未变;映射到 durable execution/多供应商路由(day94)成立✅ 是

反直觉洞察①("主线没过时" 本身需要证据,不能默认):阶段末复查的本能是「上次查过了,应该还行」。但 FIS/Fiserv 这类有明确 GA 日期的产品,阶段跨度内随时可能从「development」跳到「GA」、或反过来跳票——任一变化都改变长文#4 的叙事时态(「我复刻的是一个尚未 GA 的产品」vs「已 GA 的产品」)。本次复查的价值不在「发现变了」,而在用当日检索把「没变」也变成有日期的证据。一篇引用「GA 2H 2026」的长文,若不在发布日复查,到读者手里时该日期可能已成历史——这正是顶层硬规则「禁止引用已过时口径」的执行点。

B. 作品②(AML Copilot v1.0)交付清单(证据可链接性核对)

逐项对照计划「作品②」定义,标注证据文件与状态(诚实门:🟢 有代码+证据 / 🟡 设计就位/运营动作未跑 / 🔴 缺口):

交付项状态证据文件备注
合成数据生成器(金标 ≥100)🟢src/aml/generator.ts + 66 案金标 + V11 80 案P1 建
证据汇集 → 类型学比对🟢src/aml/typology.ts(6 类 taxonomy)P1 建
SAR 草稿生成🟢src/aml/sarDraft.ts(5W1H 结构)P3 接 LLM
HITL 复核(Agent UX 实装)🟢src/components/aml/AmlSarPanel.tsxFuselab 七模式
审计轨迹🟡src/aml/observability/部分就位(DORA/Art.50 共需)
三类 evals + judge 校准🟢evalChecks.ts/evalBaseline.ts/judgeCalibration.ts规则基线 recall 1.0×3/FPR 5.6%;κ≥0.6 门
SAR eval suite(四维 rubric)🟢day85 rubric + evalChecks.ts完整性/忠实/类型学/监管语言
每案件单位成本($/案件)🟢day89 报告(检索/生成/judge 三段)W13 实测
Article 50 透明标注🟡sarDraft.ts 标注逻辑50(2) 机器可读标记推迟 2026-12-02 故未实装
风控网关(零信任/最小权限)🟢src/agent/gateway/P2 建 + 红队前后 ASR
合规即架构蓝图(C4 着色图)🟢day94/95/96 + C4 组件图EU×US×治理三线
完整 AI PRD(含定价模型)🟢docs/aipa/aml-copilot-ai-prd.md(day97)七节+定价,组装 W1/W13
长文#4(旗舰复刻实录)/#5(合规即架构)🟢docs/AIPA_LONGFORM_*长文#4(day90-91)/#5(day96-97)发布
模型变更治理门 / 偏见监测🔴未建蓝图标红(SR 11-7 第二道防线 / NIST RMF)

交付密度小结:作品②核心链路(生成器→证据→类型学→SAR→HITL→eval→成本→PRD→蓝图→长文)13/15 项 🟢,2 项 🟡,2 项 🔴。🟢 项均可链回真实文件,符合 KPI「可链接资产 + eval 数字 + 单位成本」。

反直觉洞察②(v1.0 不是"全绿",而是"哪里红得清楚"):作品集本能是把 v1.0 包装成完整闭环。但对 AISA/SA 面试,一个把「模型变更治理门」诚实标红、且能解释为什么这是 SR 11-7 第二道防线缺口的 v1.0,比一个声称完整的 v1.0 可信得多。v1.0 的「1.0」恰恰意味着「有明确的下一版要补什么」——两个 🔴 组件就是 v1.1 的 roadmap。这与 day96 的「红组件比绿组件值钱」同构:作品的诚实度 = 作者的架构判断力

C. P4 开工预查(AgentCore Policy/Evals 转 GA — 已 GA,提前于计划假设)

P4 主题:把作品①部件平台化为自建 Agent 平台(mini-AgentCore),AgentCore/Foundry/Agent Engine 仅作对标研究对象。计划悬而未决的关键问题:「AgentCore Policy/Evals 是否转 GA」——本日复查结论是两者均已 GA,且早于计划假设的「preview」口径

AgentCore 组件GA 日期关键能力对 P4 对标的影响
Policy2026-03-03 GACedar 策略语言(可自然语言生成 Cedar);运行在 agent 推理循环之外,把 agent 当「需在触达工具/数据前验证的自主行为体」;独立于 agent 如何构建/用哪个模型直接对标 P4 自建「策略引擎(事中拦截)」——验证我的 riskGate 设计与 Cedar/外置策略范式是否一致
Evaluations2026-03-31 GA内置评估器(correctness/faithfulness/helpfulness/harmfulness/stereotyping/工具选择);持续评估生产流量;支持自定义评估器直接对标 P4「平台计量/eval 服务」——其 faithfulness 评估器恰对应我 SAR rubric 的「事实忠实」维度

这对 P4 是利好信号:对标对象已是 GA 产品(非 preview),架构文档和定价页都稳定,8 维选型矩阵和 build-vs-buy TCO 的数据源可靠。需在 P4 开工日(D99)更新 SOTA 主线表,把 AgentCore Policy/Evals 从「preview」改为「GA」,并据此调整自建策略引擎的对标基线。

反直觉洞察③(对标对象 GA 反而抬高自建论证的门槛):直觉会觉得「对标对象成熟=我自建更没必要」。但 AISA 的自建论证逻辑恰恰相反——正因为 AgentCore Policy 已 GA 且用 Cedar、跑在推理循环之外,我自建一个 mini 策略引擎才能精准回答「托管平台的每个设计选择为什么这么做」。自建不是为了取代 AgentCore,是为了获得「我造过同等物,所以能讲清它每个组件存在的理由」的话语权(计划原话)。对标对象越成熟,自建的「解剖学习」价值越高,build-vs-buy 论证越有底气。

设计要点/决策表

要点决策理由
主线复查方式当日 WebSearch 逐案,给「没变」也配日期顶层硬规则;GA 日期会随时间变历史
交付状态标注三态 🟢/🟡/🔴,🔴 诚实保留红组件=v1.1 roadmap=架构判断力证明
v1.0 定位旗舰但非完整,缺口明确「1.0」=有清晰下一版;诚实度=可信度
P4 对标口径更新AgentCore Policy/Evals 改标 GA已查实 GA(03-03/03-31),早于计划 preview 假设
自建论证逻辑对标对象 GA → 自建解剖价值更高「造过同等物才能讲清存在理由」

对本项目的落地

  • 新建 docs/aipa/p3-phase-summary.md(或本笔记即承载):B 节交付清单作为 P3 的「物证索引」,每项可链回 src/aml/*src/agent/gateway/src/components/aml/*docs/aipa/aml-copilot-ai-prd.mddocs/AIPA_LONGFORM_*。这是面试时「5 分钟讲完作品②」的清单底稿。
  • 更新 P3 计划主线表的 SOTA 状态:在 docs/AIPA_120_PLAN.md 的 P3 主线行旁标注本日复查日期(2026-09-20)与结论(FIS/Fiserv/Omnibus/Fuselab/EBA 全部仍 SOTA);P4 主线表把 AgentCore Policy(2026-03-03 GA)、Evaluations(2026-03-31 GA)从 preview 升级为 GA——这是 D99 开工的关键输入。
  • 两个 🔴 缺口转为 P4/后续 backlog:「模型变更治理门」(SR 11-7 第二道防线)、「偏见/公平性监测」(NIST AI RMF GenAI Profile)记入作品②的 v1.1 roadmap;P4 自建平台的「策略引擎」可顺带承载模型变更治理门的事中拦截逻辑,形成 P3→P4 的组件复用切口。
  • 诚实限定语:本总结所有 🟡/🔴 均为 P3 截止(2026-09-20)真实状态快照;FIS/Fiserv「GA 2H 2026 / ~2026-08」是宣布方口径,非已发生事实,长文引用须保留「计划/development」措辞;AgentCore GA 日期为已查实事实(AWS 官方 what's-new)。
  • P4 开工切口确认:作品②的 riskGate(P2/W8)与 AgentCore Policy(Cedar/外置策略)的范式对照,是 P4 day99 起「自建策略引擎」的第一个研究对象;evalBaseline.ts/judgeCalibration.ts 与 AgentCore Evaluations(faithfulness 评估器)的对照,是「平台 eval 服务」的研究对象。两条切口均从 P3 已建件延伸,无需新建即可启动 P4 对标。

参考资料

  1. FIS — FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes:Financial Crimes AI Agent 压缩 AML 调查「hours→minutes」;BMO/Amalgamated 部署中、GA 计划 2H 2026;FDE 嵌入 co-design、client data 留 FIS 基础设施、每决策可追溯(2026-05-04;2026-09-20 复查仍 development)
  2. Fiserv / GlobeNewswire — Fiserv Launches agentOS: The Operating System for Agentic AI in Banking:GA "widely available by August 2026";四初始 agent 含 Agentic AML Triage Analysis;6 行试点、2 beta、9 三方 marketplace 伙伴;OpenAI+AWS 协作(2026-05-14;2026-09-20 复查)
  3. AWS — Amazon Bedrock AgentCore adds quality evaluations and policy controls:Policy GA 2026-03-03(Cedar、运行在 agent 推理循环之外、独立于模型);Evaluations GA 2026-03-31(内置评估器含 faithfulness/correctness/工具选择、持续评估生产流量、支持自定义)(2026-03)
  4. AWS what's-new — Policy in AgentCore generally available(13 区)/ AgentCore Evaluations generally available(9 区)(2026-03)
  5. EU AI Act — Art.50(1) 生效 2026-08-02;50(2)/Annex III 经 Digital Omnibus 临时协议(2026-05-07)推迟(day49 精读)
  6. 本仓库 src/aml/*src/agent/gateway/src/components/aml/*docs/aipa/aml-copilot-ai-prd.mddocs/AIPA_LONGFORM_4/5、day85/89/94/95/96/97(自产,仓库)(2026-06~09)

SOTA 检查 (2026-09-20)

  • P3 五条主线 2026-09-20 全部仍 SOTA:FIS(仍 development,GA 2H 2026)、Fiserv agentOS(GA ~2026-08,含 AML Triage agent)、EU AI Act(期限口径未变)、Fuselab 七模式、EBA/DORA 衔接——逐一当日 WebSearch 复查,无过时项。长文#4/#5 引用的主线案例可安全发布(保留计划/development 时态)。
  • 关键更新:AgentCore Policy/Evals 已 GA,早于计划 preview 假设:Policy 2026-03-03、Evaluations 2026-03-31 均 GA(AWS what's-new)。计划原把它们标 preview,本日修正为 GA——这是 P4(D99 起)build-vs-buy 对标的重要输入,对标对象成熟度提升使 8 维矩阵数据更可靠。
  • 金融×AI AML 赛道 2026 持续升温:FIS(Anthropic)、Fiserv(OpenAI+AWS)两大核心系统商均在 2026-05 入场,AML Triage 成 agentOS 四初始 agent 之一——印证 AIPA 选「AML 调查 Copilot」作旗舰作品的赛道判断正确,且竞品均未 GA(2026-09),自建复刻有时间窗。
  • 过时认知警示:把 AgentCore Policy/Evals 当 preview 已过时(均 03 月 GA);把 FIS/Fiserv 当「已上线」也错(截至 2026-09 仍 development/pilot,GA 在 2H 2026)——长文引用须区分「已宣布」「development/pilot」「GA」三态,不可混用。
  • 待跟踪(P4 开工 D99 复核):① Fiserv agentOS 是否如期 2026-08 GA(已过期,D99 当日复查实际状态);② FIS Financial Crimes Agent 2H 2026 GA 进展;③ EU AI Act Digital Omnibus 是否正式通过(影响 Art.50(2)/Annex III 期限);④ AgentCore 定价页(~12 计费组件)作 P4 build-vs-buy TCO 输入,当日重新检索锁定。