AIPA Day 98

P3 阶段总结 — 旗舰交付清单、SOTA 重审与 P4 开工预查

2026-09-20

phase-summarysota-recheckp4-prep

日期: 2026-09-20 阶段: Phase 3 - AML 调查 Copilot 标签: #phase-summary #sota-recheck #p4-prep

核心问题

P3（D64-98，W10-14，约五周净工时）只为证明一个命题：作品②（AML 调查 Copilot v1.0）能从前两阶段的「尺子 + 架构骨架」上长出一个真实接入 LLM、有合规蓝图、有 AI PRD、有单位成本数字的金融×AI 旗舰产品。 P1 建度量底座（尺子先于引擎）、P2 建参考架构（部件齐而引擎待接）、P3 接上引擎并加合规+商业封装——三阶段递进闭合。

本日 P3 阶段总结回答三件事：

P3 全阶段 SOTA 重审：FIS/Fiserv 是否如期 GA？EU AI Act Omnibus 后续？Fuselab/EBA 口径是否仍有效？这些是 P3 的「主线案例」，阶段末必须逐一复查是否仍是 SOTA（顶层硬规则 + 计划 D98 明文要求）。
作品②（AML Copilot v1.0）交付清单：逐项对照计划，证据可链接性如何，哪些是 ✅ 已建、哪些 🟡 设计/骨架、哪些 🔴 缺口（诚实门）。
P4 开工预查：AgentCore Policy/Evals 是否转 GA（计划悬而未决的一个问题）？这直接决定 P4「自建 Agent 平台 vs 对标托管」的研究对象状态。

关键内容

A. P3 全阶段 SOTA 重审（主线案例逐一复查，2026-09-20 检索）

P3 的五条主线案例，本日逐一 WebSearch 复查现状：

主线案例	P3 开工时口径（2026-05~08）	2026-09-20 复查结论	仍 SOTA？
FIS+Anthropic Financial Crimes AI Agent	2026-05-04 宣布，BMO/Amalgamated 部署中，GA 2H 2026	仍在 development，GA 仍计划 2H 2026；调查「hours→minutes」，FDE 嵌入 co-design，client data 留 FIS 基础设施、每决策可追溯	✅ 是
Fiserv agentOS	2026-05-14 宣布（OpenAI+AWS），GA 2026-08	GA 口径仍指向 ~2026-08（"widely available by August 2026"）；四初始 agent 含 Agentic AML Triage Analysis；6 行试点、2 个 beta 在跑、9 个三方 marketplace 伙伴	✅ 是
EU AI Act（Art.50 / Omnibus）	Art.50(1) 生效 2026-08-02；50(2) 机器可读标记经 Digital Omnibus 临时协议（2026-05-07）推迟至 2026-12-02；Annex III 高风险义务推迟至 2027-12-02	期限口径未变（仍待 Omnibus 正式通过确认）；50(1)/HITL 编辑责任豁免逻辑（day49）仍成立	✅ 是（待正式通过复核）
Fuselab Agent UX 七模式	2025-08，七模式（透明推理/可覆盖/状态通报/错误恢复/plan-execute/置信度/渐进授权）	七模式仍为 Agent UX 基线；与 State of Design 生成式 UI（2026-01）并用，未被取代	✅ 是
EBA/DORA 衔接	EBA 报告（2025-11）衔接 NCA 监督；DORA 运营韧性生效中	DORA 生效、EBA 衔接口径未变；映射到 durable execution/多供应商路由（day94）成立	✅ 是

反直觉洞察①（"主线没过时" 本身需要证据，不能默认）：阶段末复查的本能是「上次查过了，应该还行」。但 FIS/Fiserv 这类有明确 GA 日期的产品，阶段跨度内随时可能从「development」跳到「GA」、或反过来跳票——任一变化都改变长文#4 的叙事时态（「我复刻的是一个尚未 GA 的产品」vs「已 GA 的产品」）。本次复查的价值不在「发现变了」，而在用当日检索把「没变」也变成有日期的证据。一篇引用「GA 2H 2026」的长文，若不在发布日复查，到读者手里时该日期可能已成历史——这正是顶层硬规则「禁止引用已过时口径」的执行点。

B. 作品②（AML Copilot v1.0）交付清单（证据可链接性核对）

逐项对照计划「作品②」定义，标注证据文件与状态（诚实门：🟢 有代码+证据 / 🟡 设计就位/运营动作未跑 / 🔴 缺口）：

交付项	状态	证据文件	备注
合成数据生成器（金标 ≥100）	🟢	`src/aml/generator.ts` + 66 案金标 + V11 80 案	P1 建
证据汇集 → 类型学比对	🟢	`src/aml/typology.ts`（6 类 taxonomy）	P1 建
SAR 草稿生成	🟢	`src/aml/sarDraft.ts`（5W1H 结构）	P3 接 LLM
HITL 复核（Agent UX 实装）	🟢	`src/components/aml/AmlSarPanel.tsx`	Fuselab 七模式
审计轨迹	🟡	`src/aml/observability/`	部分就位（DORA/Art.50 共需）
三类 evals + judge 校准	🟢	`evalChecks.ts`/`evalBaseline.ts`/`judgeCalibration.ts`	规则基线 recall 1.0×3/FPR 5.6%；κ≥0.6 门
SAR eval suite（四维 rubric）	🟢	day85 rubric + `evalChecks.ts`	完整性/忠实/类型学/监管语言
每案件单位成本（$/案件）	🟢	day89 报告（检索/生成/judge 三段）	W13 实测
Article 50 透明标注	🟡	`sarDraft.ts` 标注逻辑	50(2) 机器可读标记推迟 2026-12-02 故未实装
风控网关（零信任/最小权限）	🟢	`src/agent/gateway/`	P2 建 + 红队前后 ASR
合规即架构蓝图（C4 着色图）	🟢	day94/95/96 + C4 组件图	EU×US×治理三线
完整 AI PRD（含定价模型）	🟢	`docs/aipa/aml-copilot-ai-prd.md`（day97）	七节+定价，组装 W1/W13
长文#4（旗舰复刻实录）/#5（合规即架构）	🟢	`docs/AIPA_LONGFORM_*`	长文#4（day90-91）/#5（day96-97）发布
模型变更治理门 / 偏见监测	🔴	未建	蓝图标红（SR 11-7 第二道防线 / NIST RMF）

交付密度小结：作品②核心链路（生成器→证据→类型学→SAR→HITL→eval→成本→PRD→蓝图→长文）13/15 项 🟢，2 项 🟡，2 项 🔴。🟢 项均可链回真实文件，符合 KPI「可链接资产 + eval 数字 + 单位成本」。

反直觉洞察②（v1.0 不是"全绿"，而是"哪里红得清楚"）：作品集本能是把 v1.0 包装成完整闭环。但对 AISA/SA 面试，一个把「模型变更治理门」诚实标红、且能解释为什么这是 SR 11-7 第二道防线缺口的 v1.0，比一个声称完整的 v1.0 可信得多。v1.0 的「1.0」恰恰意味着「有明确的下一版要补什么」——两个 🔴 组件就是 v1.1 的 roadmap。这与 day96 的「红组件比绿组件值钱」同构：作品的诚实度 = 作者的架构判断力。

C. P4 开工预查（AgentCore Policy/Evals 转 GA — 已 GA，提前于计划假设）

P4 主题：把作品①部件平台化为自建 Agent 平台（mini-AgentCore），AgentCore/Foundry/Agent Engine 仅作对标研究对象。计划悬而未决的关键问题：「AgentCore Policy/Evals 是否转 GA」——本日复查结论是两者均已 GA，且早于计划假设的「preview」口径：

AgentCore 组件	GA 日期	关键能力	对 P4 对标的影响
Policy	2026-03-03 GA	Cedar 策略语言（可自然语言生成 Cedar）；运行在 agent 推理循环之外，把 agent 当「需在触达工具/数据前验证的自主行为体」；独立于 agent 如何构建/用哪个模型	直接对标 P4 自建「策略引擎（事中拦截）」——验证我的 riskGate 设计与 Cedar/外置策略范式是否一致
Evaluations	2026-03-31 GA	内置评估器（correctness/faithfulness/helpfulness/harmfulness/stereotyping/工具选择）；持续评估生产流量；支持自定义评估器	直接对标 P4「平台计量/eval 服务」——其 faithfulness 评估器恰对应我 SAR rubric 的「事实忠实」维度

这对 P4 是利好信号：对标对象已是 GA 产品（非 preview），架构文档和定价页都稳定，8 维选型矩阵和 build-vs-buy TCO 的数据源可靠。需在 P4 开工日（D99）更新 SOTA 主线表，把 AgentCore Policy/Evals 从「preview」改为「GA」，并据此调整自建策略引擎的对标基线。

反直觉洞察③（对标对象 GA 反而抬高自建论证的门槛）：直觉会觉得「对标对象成熟=我自建更没必要」。但 AISA 的自建论证逻辑恰恰相反——正因为 AgentCore Policy 已 GA 且用 Cedar、跑在推理循环之外，我自建一个 mini 策略引擎才能精准回答「托管平台的每个设计选择为什么这么做」。自建不是为了取代 AgentCore，是为了获得「我造过同等物，所以能讲清它每个组件存在的理由」的话语权（计划原话）。对标对象越成熟，自建的「解剖学习」价值越高，build-vs-buy 论证越有底气。

设计要点/决策表

要点	决策	理由
主线复查方式	当日 WebSearch 逐案，给「没变」也配日期	顶层硬规则；GA 日期会随时间变历史
交付状态标注	三态 🟢/🟡/🔴，🔴 诚实保留	红组件=v1.1 roadmap=架构判断力证明
v1.0 定位	旗舰但非完整，缺口明确	「1.0」=有清晰下一版；诚实度=可信度
P4 对标口径更新	AgentCore Policy/Evals 改标 GA	已查实 GA（03-03/03-31），早于计划 preview 假设
自建论证逻辑	对标对象 GA → 自建解剖价值更高	「造过同等物才能讲清存在理由」

对本项目的落地

新建 docs/aipa/p3-phase-summary.md（或本笔记即承载）：B 节交付清单作为 P3 的「物证索引」，每项可链回 src/aml/*、src/agent/gateway/、src/components/aml/*、docs/aipa/aml-copilot-ai-prd.md、docs/AIPA_LONGFORM_*。这是面试时「5 分钟讲完作品②」的清单底稿。
更新 P3 计划主线表的 SOTA 状态：在 docs/AIPA_120_PLAN.md 的 P3 主线行旁标注本日复查日期（2026-09-20）与结论（FIS/Fiserv/Omnibus/Fuselab/EBA 全部仍 SOTA）；P4 主线表把 AgentCore Policy（2026-03-03 GA）、Evaluations（2026-03-31 GA）从 preview 升级为 GA——这是 D99 开工的关键输入。
两个 🔴 缺口转为 P4/后续 backlog：「模型变更治理门」（SR 11-7 第二道防线）、「偏见/公平性监测」（NIST AI RMF GenAI Profile）记入作品②的 v1.1 roadmap；P4 自建平台的「策略引擎」可顺带承载模型变更治理门的事中拦截逻辑，形成 P3→P4 的组件复用切口。
诚实限定语：本总结所有 🟡/🔴 均为 P3 截止（2026-09-20）真实状态快照；FIS/Fiserv「GA 2H 2026 / ~2026-08」是宣布方口径，非已发生事实，长文引用须保留「计划/development」措辞；AgentCore GA 日期为已查实事实（AWS 官方 what's-new）。
P4 开工切口确认：作品②的 riskGate（P2/W8）与 AgentCore Policy（Cedar/外置策略）的范式对照，是 P4 day99 起「自建策略引擎」的第一个研究对象；evalBaseline.ts/judgeCalibration.ts 与 AgentCore Evaluations（faithfulness 评估器）的对照，是「平台 eval 服务」的研究对象。两条切口均从 P3 已建件延伸，无需新建即可启动 P4 对标。

参考资料

FIS — FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes：Financial Crimes AI Agent 压缩 AML 调查「hours→minutes」；BMO/Amalgamated 部署中、GA 计划 2H 2026；FDE 嵌入 co-design、client data 留 FIS 基础设施、每决策可追溯（2026-05-04；2026-09-20 复查仍 development）
Fiserv / GlobeNewswire — Fiserv Launches agentOS: The Operating System for Agentic AI in Banking：GA "widely available by August 2026"；四初始 agent 含 Agentic AML Triage Analysis；6 行试点、2 beta、9 三方 marketplace 伙伴；OpenAI+AWS 协作（2026-05-14；2026-09-20 复查）
AWS — Amazon Bedrock AgentCore adds quality evaluations and policy controls：Policy GA 2026-03-03（Cedar、运行在 agent 推理循环之外、独立于模型）；Evaluations GA 2026-03-31（内置评估器含 faithfulness/correctness/工具选择、持续评估生产流量、支持自定义）（2026-03）
AWS what's-new — Policy in AgentCore generally available（13 区）/ AgentCore Evaluations generally available（9 区）（2026-03）
EU AI Act — Art.50(1) 生效 2026-08-02；50(2)/Annex III 经 Digital Omnibus 临时协议（2026-05-07）推迟（day49 精读）
本仓库 src/aml/*、src/agent/gateway/、src/components/aml/*、docs/aipa/aml-copilot-ai-prd.md、docs/AIPA_LONGFORM_4/5、day85/89/94/95/96/97（自产，仓库）（2026-06~09）

SOTA 检查 (2026-09-20)

P3 五条主线 2026-09-20 全部仍 SOTA：FIS（仍 development，GA 2H 2026）、Fiserv agentOS（GA ~2026-08，含 AML Triage agent）、EU AI Act（期限口径未变）、Fuselab 七模式、EBA/DORA 衔接——逐一当日 WebSearch 复查，无过时项。长文#4/#5 引用的主线案例可安全发布（保留计划/development 时态）。
关键更新：AgentCore Policy/Evals 已 GA，早于计划 preview 假设：Policy 2026-03-03、Evaluations 2026-03-31 均 GA（AWS what's-new）。计划原把它们标 preview，本日修正为 GA——这是 P4（D99 起）build-vs-buy 对标的重要输入，对标对象成熟度提升使 8 维矩阵数据更可靠。
金融×AI AML 赛道 2026 持续升温：FIS（Anthropic）、Fiserv（OpenAI+AWS）两大核心系统商均在 2026-05 入场，AML Triage 成 agentOS 四初始 agent 之一——印证 AIPA 选「AML 调查 Copilot」作旗舰作品的赛道判断正确，且竞品均未 GA（2026-09），自建复刻有时间窗。
过时认知警示：把 AgentCore Policy/Evals 当 preview 已过时（均 03 月 GA）；把 FIS/Fiserv 当「已上线」也错（截至 2026-09 仍 development/pilot，GA 在 2H 2026）——长文引用须区分「已宣布」「development/pilot」「GA」三态，不可混用。
待跟踪（P4 开工 D99 复核）：① Fiserv agentOS 是否如期 2026-08 GA（已过期，D99 当日复查实际状态）；② FIS Financial Crimes Agent 2H 2026 GA 进展；③ EU AI Act Digital Omnibus 是否正式通过（影响 Art.50(2)/Annex III 期限）；④ AgentCore 定价页（~12 计费组件）作 P4 build-vs-buy TCO 输入，当日重新检索锁定。