P3 阶段总结 — 旗舰交付清单、SOTA 重审与 P4 开工预查
P3 阶段总结 — 旗舰交付清单、SOTA 重审与 P4 开工预查
日期: 2026-09-20 阶段: Phase 3 - AML 调查 Copilot 标签: #phase-summary #sota-recheck #p4-prep
核心问题
P3(D64-98,W10-14,约五周净工时)只为证明一个命题:作品②(AML 调查 Copilot v1.0)能从前两阶段的「尺子 + 架构骨架」上长出一个真实接入 LLM、有合规蓝图、有 AI PRD、有单位成本数字的金融×AI 旗舰产品。 P1 建度量底座(尺子先于引擎)、P2 建参考架构(部件齐而引擎待接)、P3 接上引擎并加合规+商业封装——三阶段递进闭合。
本日 P3 阶段总结回答三件事:
- P3 全阶段 SOTA 重审:FIS/Fiserv 是否如期 GA?EU AI Act Omnibus 后续?Fuselab/EBA 口径是否仍有效?这些是 P3 的「主线案例」,阶段末必须逐一复查是否仍是 SOTA(顶层硬规则 + 计划 D98 明文要求)。
- 作品②(AML Copilot v1.0)交付清单:逐项对照计划,证据可链接性如何,哪些是 ✅ 已建、哪些 🟡 设计/骨架、哪些 🔴 缺口(诚实门)。
- P4 开工预查:AgentCore Policy/Evals 是否转 GA(计划悬而未决的一个问题)?这直接决定 P4「自建 Agent 平台 vs 对标托管」的研究对象状态。
关键内容
A. P3 全阶段 SOTA 重审(主线案例逐一复查,2026-09-20 检索)
P3 的五条主线案例,本日逐一 WebSearch 复查现状:
| 主线案例 | P3 开工时口径(2026-05~08) | 2026-09-20 复查结论 | 仍 SOTA? |
|---|---|---|---|
| FIS+Anthropic Financial Crimes AI Agent | 2026-05-04 宣布,BMO/Amalgamated 部署中,GA 2H 2026 | 仍在 development,GA 仍计划 2H 2026;调查「hours→minutes」,FDE 嵌入 co-design,client data 留 FIS 基础设施、每决策可追溯 | ✅ 是 |
| Fiserv agentOS | 2026-05-14 宣布(OpenAI+AWS),GA 2026-08 | GA 口径仍指向 ~2026-08("widely available by August 2026");四初始 agent 含 Agentic AML Triage Analysis;6 行试点、2 个 beta 在跑、9 个三方 marketplace 伙伴 | ✅ 是 |
| EU AI Act(Art.50 / Omnibus) | Art.50(1) 生效 2026-08-02;50(2) 机器可读标记经 Digital Omnibus 临时协议(2026-05-07)推迟至 2026-12-02;Annex III 高风险义务推迟至 2027-12-02 | 期限口径未变(仍待 Omnibus 正式通过确认);50(1)/HITL 编辑责任豁免逻辑(day49)仍成立 | ✅ 是(待正式通过复核) |
| Fuselab Agent UX 七模式 | 2025-08,七模式(透明推理/可覆盖/状态通报/错误恢复/plan-execute/置信度/渐进授权) | 七模式仍为 Agent UX 基线;与 State of Design 生成式 UI(2026-01)并用,未被取代 | ✅ 是 |
| EBA/DORA 衔接 | EBA 报告(2025-11)衔接 NCA 监督;DORA 运营韧性生效中 | DORA 生效、EBA 衔接口径未变;映射到 durable execution/多供应商路由(day94)成立 | ✅ 是 |
反直觉洞察①("主线没过时" 本身需要证据,不能默认):阶段末复查的本能是「上次查过了,应该还行」。但 FIS/Fiserv 这类有明确 GA 日期的产品,阶段跨度内随时可能从「development」跳到「GA」、或反过来跳票——任一变化都改变长文#4 的叙事时态(「我复刻的是一个尚未 GA 的产品」vs「已 GA 的产品」)。本次复查的价值不在「发现变了」,而在用当日检索把「没变」也变成有日期的证据。一篇引用「GA 2H 2026」的长文,若不在发布日复查,到读者手里时该日期可能已成历史——这正是顶层硬规则「禁止引用已过时口径」的执行点。
B. 作品②(AML Copilot v1.0)交付清单(证据可链接性核对)
逐项对照计划「作品②」定义,标注证据文件与状态(诚实门:🟢 有代码+证据 / 🟡 设计就位/运营动作未跑 / 🔴 缺口):
| 交付项 | 状态 | 证据文件 | 备注 |
|---|---|---|---|
| 合成数据生成器(金标 ≥100) | 🟢 | src/aml/generator.ts + 66 案金标 + V11 80 案 | P1 建 |
| 证据汇集 → 类型学比对 | 🟢 | src/aml/typology.ts(6 类 taxonomy) | P1 建 |
| SAR 草稿生成 | 🟢 | src/aml/sarDraft.ts(5W1H 结构) | P3 接 LLM |
| HITL 复核(Agent UX 实装) | 🟢 | src/components/aml/AmlSarPanel.tsx | Fuselab 七模式 |
| 审计轨迹 | 🟡 | src/aml/observability/ | 部分就位(DORA/Art.50 共需) |
| 三类 evals + judge 校准 | 🟢 | evalChecks.ts/evalBaseline.ts/judgeCalibration.ts | 规则基线 recall 1.0×3/FPR 5.6%;κ≥0.6 门 |
| SAR eval suite(四维 rubric) | 🟢 | day85 rubric + evalChecks.ts | 完整性/忠实/类型学/监管语言 |
| 每案件单位成本($/案件) | 🟢 | day89 报告(检索/生成/judge 三段) | W13 实测 |
| Article 50 透明标注 | 🟡 | sarDraft.ts 标注逻辑 | 50(2) 机器可读标记推迟 2026-12-02 故未实装 |
| 风控网关(零信任/最小权限) | 🟢 | src/agent/gateway/ | P2 建 + 红队前后 ASR |
| 合规即架构蓝图(C4 着色图) | 🟢 | day94/95/96 + C4 组件图 | EU×US×治理三线 |
| 完整 AI PRD(含定价模型) | 🟢 | docs/aipa/aml-copilot-ai-prd.md(day97) | 七节+定价,组装 W1/W13 |
| 长文#4(旗舰复刻实录)/#5(合规即架构) | 🟢 | docs/AIPA_LONGFORM_* | 长文#4(day90-91)/#5(day96-97)发布 |
| 模型变更治理门 / 偏见监测 | 🔴 | 未建 | 蓝图标红(SR 11-7 第二道防线 / NIST RMF) |
交付密度小结:作品②核心链路(生成器→证据→类型学→SAR→HITL→eval→成本→PRD→蓝图→长文)13/15 项 🟢,2 项 🟡,2 项 🔴。🟢 项均可链回真实文件,符合 KPI「可链接资产 + eval 数字 + 单位成本」。
反直觉洞察②(v1.0 不是"全绿",而是"哪里红得清楚"):作品集本能是把 v1.0 包装成完整闭环。但对 AISA/SA 面试,一个把「模型变更治理门」诚实标红、且能解释为什么这是 SR 11-7 第二道防线缺口的 v1.0,比一个声称完整的 v1.0 可信得多。v1.0 的「1.0」恰恰意味着「有明确的下一版要补什么」——两个 🔴 组件就是 v1.1 的 roadmap。这与 day96 的「红组件比绿组件值钱」同构:作品的诚实度 = 作者的架构判断力。
C. P4 开工预查(AgentCore Policy/Evals 转 GA — 已 GA,提前于计划假设)
P4 主题:把作品①部件平台化为自建 Agent 平台(mini-AgentCore),AgentCore/Foundry/Agent Engine 仅作对标研究对象。计划悬而未决的关键问题:「AgentCore Policy/Evals 是否转 GA」——本日复查结论是两者均已 GA,且早于计划假设的「preview」口径:
| AgentCore 组件 | GA 日期 | 关键能力 | 对 P4 对标的影响 |
|---|---|---|---|
| Policy | 2026-03-03 GA | Cedar 策略语言(可自然语言生成 Cedar);运行在 agent 推理循环之外,把 agent 当「需在触达工具/数据前验证的自主行为体」;独立于 agent 如何构建/用哪个模型 | 直接对标 P4 自建「策略引擎(事中拦截)」——验证我的 riskGate 设计与 Cedar/外置策略范式是否一致 |
| Evaluations | 2026-03-31 GA | 内置评估器(correctness/faithfulness/helpfulness/harmfulness/stereotyping/工具选择);持续评估生产流量;支持自定义评估器 | 直接对标 P4「平台计量/eval 服务」——其 faithfulness 评估器恰对应我 SAR rubric 的「事实忠实」维度 |
这对 P4 是利好信号:对标对象已是 GA 产品(非 preview),架构文档和定价页都稳定,8 维选型矩阵和 build-vs-buy TCO 的数据源可靠。需在 P4 开工日(D99)更新 SOTA 主线表,把 AgentCore Policy/Evals 从「preview」改为「GA」,并据此调整自建策略引擎的对标基线。
反直觉洞察③(对标对象 GA 反而抬高自建论证的门槛):直觉会觉得「对标对象成熟=我自建更没必要」。但 AISA 的自建论证逻辑恰恰相反——正因为 AgentCore Policy 已 GA 且用 Cedar、跑在推理循环之外,我自建一个 mini 策略引擎才能精准回答「托管平台的每个设计选择为什么这么做」。自建不是为了取代 AgentCore,是为了获得「我造过同等物,所以能讲清它每个组件存在的理由」的话语权(计划原话)。对标对象越成熟,自建的「解剖学习」价值越高,build-vs-buy 论证越有底气。
设计要点/决策表
| 要点 | 决策 | 理由 |
|---|---|---|
| 主线复查方式 | 当日 WebSearch 逐案,给「没变」也配日期 | 顶层硬规则;GA 日期会随时间变历史 |
| 交付状态标注 | 三态 🟢/🟡/🔴,🔴 诚实保留 | 红组件=v1.1 roadmap=架构判断力证明 |
| v1.0 定位 | 旗舰但非完整,缺口明确 | 「1.0」=有清晰下一版;诚实度=可信度 |
| P4 对标口径更新 | AgentCore Policy/Evals 改标 GA | 已查实 GA(03-03/03-31),早于计划 preview 假设 |
| 自建论证逻辑 | 对标对象 GA → 自建解剖价值更高 | 「造过同等物才能讲清存在理由」 |
对本项目的落地
- 新建
docs/aipa/p3-phase-summary.md(或本笔记即承载):B 节交付清单作为 P3 的「物证索引」,每项可链回src/aml/*、src/agent/gateway/、src/components/aml/*、docs/aipa/aml-copilot-ai-prd.md、docs/AIPA_LONGFORM_*。这是面试时「5 分钟讲完作品②」的清单底稿。 - 更新 P3 计划主线表的 SOTA 状态:在
docs/AIPA_120_PLAN.md的 P3 主线行旁标注本日复查日期(2026-09-20)与结论(FIS/Fiserv/Omnibus/Fuselab/EBA 全部仍 SOTA);P4 主线表把 AgentCore Policy(2026-03-03 GA)、Evaluations(2026-03-31 GA)从 preview 升级为 GA——这是 D99 开工的关键输入。 - 两个 🔴 缺口转为 P4/后续 backlog:「模型变更治理门」(SR 11-7 第二道防线)、「偏见/公平性监测」(NIST AI RMF GenAI Profile)记入作品②的 v1.1 roadmap;P4 自建平台的「策略引擎」可顺带承载模型变更治理门的事中拦截逻辑,形成 P3→P4 的组件复用切口。
- 诚实限定语:本总结所有 🟡/🔴 均为 P3 截止(2026-09-20)真实状态快照;FIS/Fiserv「GA 2H 2026 / ~2026-08」是宣布方口径,非已发生事实,长文引用须保留「计划/development」措辞;AgentCore GA 日期为已查实事实(AWS 官方 what's-new)。
- P4 开工切口确认:作品②的
riskGate(P2/W8)与 AgentCore Policy(Cedar/外置策略)的范式对照,是 P4 day99 起「自建策略引擎」的第一个研究对象;evalBaseline.ts/judgeCalibration.ts与 AgentCore Evaluations(faithfulness 评估器)的对照,是「平台 eval 服务」的研究对象。两条切口均从 P3 已建件延伸,无需新建即可启动 P4 对标。
参考资料
- FIS — FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes:Financial Crimes AI Agent 压缩 AML 调查「hours→minutes」;BMO/Amalgamated 部署中、GA 计划 2H 2026;FDE 嵌入 co-design、client data 留 FIS 基础设施、每决策可追溯(2026-05-04;2026-09-20 复查仍 development)
- Fiserv / GlobeNewswire — Fiserv Launches agentOS: The Operating System for Agentic AI in Banking:GA "widely available by August 2026";四初始 agent 含 Agentic AML Triage Analysis;6 行试点、2 beta、9 三方 marketplace 伙伴;OpenAI+AWS 协作(2026-05-14;2026-09-20 复查)
- AWS — Amazon Bedrock AgentCore adds quality evaluations and policy controls:Policy GA 2026-03-03(Cedar、运行在 agent 推理循环之外、独立于模型);Evaluations GA 2026-03-31(内置评估器含 faithfulness/correctness/工具选择、持续评估生产流量、支持自定义)(2026-03)
- AWS what's-new — Policy in AgentCore generally available(13 区)/ AgentCore Evaluations generally available(9 区)(2026-03)
- EU AI Act — Art.50(1) 生效 2026-08-02;50(2)/Annex III 经 Digital Omnibus 临时协议(2026-05-07)推迟(day49 精读)
- 本仓库
src/aml/*、src/agent/gateway/、src/components/aml/*、docs/aipa/aml-copilot-ai-prd.md、docs/AIPA_LONGFORM_4/5、day85/89/94/95/96/97(自产,仓库)(2026-06~09)
SOTA 检查 (2026-09-20)
- P3 五条主线 2026-09-20 全部仍 SOTA:FIS(仍 development,GA 2H 2026)、Fiserv agentOS(GA ~2026-08,含 AML Triage agent)、EU AI Act(期限口径未变)、Fuselab 七模式、EBA/DORA 衔接——逐一当日 WebSearch 复查,无过时项。长文#4/#5 引用的主线案例可安全发布(保留计划/development 时态)。
- 关键更新:AgentCore Policy/Evals 已 GA,早于计划 preview 假设:Policy 2026-03-03、Evaluations 2026-03-31 均 GA(AWS what's-new)。计划原把它们标 preview,本日修正为 GA——这是 P4(D99 起)build-vs-buy 对标的重要输入,对标对象成熟度提升使 8 维矩阵数据更可靠。
- 金融×AI AML 赛道 2026 持续升温:FIS(Anthropic)、Fiserv(OpenAI+AWS)两大核心系统商均在 2026-05 入场,AML Triage 成 agentOS 四初始 agent 之一——印证 AIPA 选「AML 调查 Copilot」作旗舰作品的赛道判断正确,且竞品均未 GA(2026-09),自建复刻有时间窗。
- 过时认知警示:把 AgentCore Policy/Evals 当 preview 已过时(均 03 月 GA);把 FIS/Fiserv 当「已上线」也错(截至 2026-09 仍 development/pilot,GA 在 2H 2026)——长文引用须区分「已宣布」「development/pilot」「GA」三态,不可混用。
- 待跟踪(P4 开工 D99 复核):① Fiserv agentOS 是否如期 2026-08 GA(已过期,D99 当日复查实际状态);② FIS Financial Crimes Agent 2H 2026 GA 进展;③ EU AI Act Digital Omnibus 是否正式通过(影响 Art.50(2)/Annex III 期限);④ AgentCore 定价页(~12 计费组件)作 P4 build-vs-buy TCO 输入,当日重新检索锁定。