AIPA Day 90

长文#4 旗舰初稿 —《复刻 FIS-Anthropic：我从零做了一个 AML 调查 agent》

2026-09-12

longformportfoliofis-anthropictime-window-arbitrage

日期: 2026-09-12 阶段: Phase 3 - AML 调查 Copilot 标签: #longform #portfolio #fis-anthropic #time-window-arbitrage

核心问题

Day 89 把 v1.0 的核心数字（$/案件三段分解、$/可提交 SAR）实测口径定下来了。今天动笔写 P3 的旗舰交付物——长文#4《复刻 FIS-Anthropic：我从零做了一个 AML 调查 agent》。这篇长文不是一篇技术博客，它是作品②的「索引页 + 论证书」：把散落在 src/aml、src/agent、src/components/aml 的 30+ 文件、66 案金标、规则基线、judge 校准、$/案件，组织成一个招聘方 10 秒能看懂、深问能扛住的叙事。

三个必须回答的问题：

骨架怎么搭？ 一篇能让人「读完就想约面」的复刻长文，章节顺序不能按开发顺序（那是流水账），要按说服顺序——先钉对标物（FIS-Anthropic 在做什么），再钉「我做到了什么 + 证据在哪」，最后钉「为什么是现在做」。
凭什么有说服力？ 招聘方见过太多「我接了个 LLM API」的 demo。这篇的护城河是三个别人没有的硬数字：eval 数字（规则基线 recall/FPR + judge κ）+ 每案件成本（$/可提交 SAR）+ failure war stories（6 类失效的真实踩坑）。无数字不立论。
「为什么是现在」怎么论证？ 这是全文最反直觉的一段——我一个个人项目，凭什么去碰一个 FIS+Anthropic 正在做、还没 GA 的方向？答案是时间窗口套利（time-window arbitrage）：恰恰因为它还没 GA、买方还在「buy vs build」纠结期，一个能讲清楚架构与单位经济的复刻者，价值在这个窗口里最高。

今天产出长文骨架（章节 + 每章证据指针）+ 时间窗口套利的论证，正文逐章在后续日补全。本笔记是写作设计文档，不是长文本身。

关键内容

A. 长文骨架：按「说服顺序」而非「开发顺序」编排

复刻类长文最常见的失败是写成「我第一天做了 X，第二天做了 Y」的开发日志——招聘方读三段就走。正确的编排是倒金字塔 + 证据驱动：每一个论点紧跟一个可点击的物证（代码文件 / 数字 / 截图）。骨架定为 7 章：

长文#4 骨架（说服顺序）
├─ §1 对标物：FIS-Anthropic 在做什么（300字）
│     证据汇集→typology 比对→SAR 叙述；days→minutes；$35-40B AML 支出
│     ▸ 钉死「我复刻的是一个真实的、有市场的产品方向」，非自嗨 demo
├─ §2 我做了什么：架构全景（500字 + C4 图）
│     lead-sub 编排 / RAG 混合检索 / 三层记忆 / durable checkpoint / gateway 计量
│     ▸ 物证指针：src/agent/orchestrator、src/agent/rag/hybridSearch、src/agent/durable
├─ §3 评测：怎么知道它「对」（500字 + 表）★护城河①
│     66 案金标 + 规则基线 recall 1.0×3/FPR 5.6% + judge κ 校准 + 阻断式 CI gate
│     ▸ 物证：src/aml/evalBaseline、src/aml/judgeCalibration、__tests__
├─ §4 单位经济：每案件多少钱（400字 + 三段分解表）★护城河②
│     检索/生成/judge 三段 → $/案件 → $/可提交 SAR → 对标人工 ROI
│     ▸ 物证：src/agent/orchestrator/budget、src/agent/gateway/semanticCache
├─ §5 失效与韧性：它怎么炸、怎么恢复（400字）★护城河③
│     6 类 failureTaxonomy + 结构化错误恢复 + HITL 夺回控制 + 合规担责
│     ▸ 物证：src/aml/failureTaxonomy、Day 82 错误恢复
├─ §6 合规姿态：为什么它敢碰金融（300字）
│     AI Act Art.50 披露 / 高风险 Art.9-12 映射 / SR 11-7 三道防线 / HITL
│     ▸ 物证：sarNarrative 强制 AI 披露注入、Day 49/92 法条映射
└─ §7 为什么是现在：时间窗口套利（400字）★全文论点收口
      FIS GA H2 2026、买方 buy-vs-build 纠结期、复刻者价值峰值

反直觉洞察①（复刻一个还没 GA 的商业产品，是优势不是冒昧）：直觉会觉得「FIS+Anthropic 都在做了，我一个人复刻有什么意义，不是班门弄斧吗」。恰恰相反——正因为它还没 GA、市面上没有可参照的开源实现，一个把架构和单位经济讲透的复刻者填补的是「认知空缺」。如果复刻的是一个三年前就开源烂大街的东西（比如又一个 RAG 聊天机器人），那才叫没价值。复刻一个「方向被巨头验证、但实现还是黑箱」的产品，等于在最高信息差的时间点交出一份「我懂这条产品线怎么搭、贵在哪、坑在哪」的答卷。班门弄斧的前提是鲁班的斧子已经摆在门口卖了——而 FIS 的斧子要 H2 2026 才上市（FIS press release 2026-05-04）。

§2 的架构全景要呼应 Anthropic Jonathan Pelosi 在 FIS 发布里的那句话——「every conclusion the agent reaches links back to its source data」（2026-05-04）。这正是本项目 sarNarrative.ts 里 CitationAnchor schema（[T0001] 引用锚点 + resolved 核对位）要解决的同一个问题：叙述里每条结论都能回溯到真实交易。长文要把这个对应关系点出来——不是巧合，是同一个合规刚需驱动的同一个设计。

B. 三条护城河：用别人 demo 没有的硬数字立论

2026 的招聘信号很明确：「recruiters engage 80% more with GitHub projects featuring runnable code or live demos」「hiring managers scan for production signals — how you handle failures, structure data, ship working software」（dev.to / dataexpert.io 2026）。「production signal」翻译成本项目的语言就是三条护城河，对应三个 demo 给不出来的数字层：

护城河	demo 级项目通常有	本项目的硬数字	物证文件
①评测	「跑通了，看着对」	规则基线 recall 1.0×3 / normal FPR 5.6%；judge κ≥0.6 准入门	`src/aml/evalBaseline.ts`、`judgeCalibration.ts`
②单位经济	「调了 Claude API」	$/案件 ≈$0.43（检索$0.02+生成$0.35+judge$0.06）；$/可提交 SAR ≈$0.51	`src/agent/orchestrator/budget.ts`、`gateway/semanticCache.ts`
③失效韧性	「happy path 能跑」	6 类 failureTaxonomy + 结构化错误恢复 + HITL 夺回控制	`src/aml/failureTaxonomy.ts`、Day 82

把这三条压成一条可背诵的「电梯论证」（长文 §3-§5 的浓缩，也是面试自我介绍的脚本）：

「我复刻了 FIS-Anthropic 的 AML 调查 agent。
 它不只是能跑——
   ▸ 我有 66 案金标 + 规则基线（recall 1.0、normal 误报 5.6%），
     还给 LLM-judge 本身做了 Cohen's κ 校准（κ≥0.6 才进 CI），
   ▸ 我实测过单位成本：每生成一份可提交 SAR ≈ $0.51，
     按 2.5× 定价对标人工 20-60 分钟有数量级 ROI，
   ▸ 我系统化了它怎么炸（6 类失效）和炸了怎么让合规官夺回控制。
 这三件事，是一个能跑的 demo 和一个能上生产的产品之间的全部距离。」

这段脚本的力量在于：它把「我会调 API」（人人都会）升级成「我懂这条产品线的可靠性、单位经济、失效边界」（极少人能讲）。第三句尤其关键——failure war stories 是最难造假的信号，因为只有真做过、真踩过坑的人，才说得出「typology 比对在结构化拆分（structuring）边界案上为什么会漏」这种具体失效。

反直觉洞察②（failure war stories 比 success metrics 更有说服力）：直觉是「作品要展示成功——recall 多高、成本多低」。但招聘方（尤其是资深架构师面试官）更信「你知道它会怎么坏」。一个只报成功数字的候选人像在卖产品；一个能讲清楚「6 类失效里哪一类最致命、为什么、我怎么兜底」的候选人像在交付一个他真正理解的系统。FIS 自己的措辞也印证这点——它强调 reduce false positives（即承认 FP 是核心痛点），而非吹 100% 准确（2026-05-04）。长文 §5 必须把 failureTaxonomy 当卖点写，而不是当免责声明藏在文末。

C. 时间窗口套利：「为什么是现在」的可量化论证

这是 §7、也是全文论点的收口。一个个人项目去碰巨头方向，唯一能成立的论证是时间：在「方向已被验证」和「方案已经 GA、买方不再需要被教育」之间，有一个窗口，复刻者的边际价值在窗口内最高、窗口外趋零。把它写成一个不等式。

设复刻作品对招聘方的「信息价值」$V(t)$ 是两个因子的积：

$$V(t) = \underbrace{D(t)}{\text{方向确定性}} \times \underbrace{S(t)}{\text{方案稀缺性}}$$

$D(t)$ 方向确定性：这个产品方向被市场验证的程度。FIS-Anthropic 2026-05 宣布、BMO/Amalgamated 部署中，$D$ 在 2026 已跳到高位（巨头背书 = 方向不再是赌博）。
$S(t)$ 方案稀缺性：能讲清楚「怎么搭、贵在哪、坑在哪」的公开实现有多稀缺。FIS 方案 H2 2026 才 GA、是黑箱（press release 不含架构与单价），开源复刻几乎为零，$S$ 在当前极高。

关键在两个因子的时间错位：

价值因子随时间演化
        D(t) 方向确定性  ─────────────●━━━━━━━━━━━━━  (2026-05 巨头宣布后跳高位, 持续高)
                                      ╱
        S(t) 方案稀缺性  ━━━━━━━━━━━●╲                (GA 前极高)
                                       ╲___           (GA 后买方有现成方案, 稀缺性崩塌)
                                          ╲____
        V(t)=D×S         ░░░░░░░░░░░▓▓▓██▓▓░░░░░░░    ← 峰值在 [巨头宣布, 方案GA] 之间
                         |          |    |
                      2026-05    NOW   H2 2026 GA
                      D 跳高     窗口   S 开始崩

$V(t)$ 的峰值出现在「$D$ 已跳高 ∧ $S$ 尚未崩塌」的交集——即 2026-05（FIS 宣布）到 H2 2026（GA）之间。今天（2026-09）正落在这个窗口内。买方侧的证据印证窗口存在：「the critical buy vs build window appears to be Q2-Q3 2026, as vendor platforms reach GA while institutions with 18-36 month timelines need to decide now」（digitalapplied / neontri 2026）、Fiserv agentOS GA 预计 2026-08（Fiserv 2026-05-14）。买方正在 buy-vs-build 纠结期——这正是「懂怎么 build」的人最值钱的时刻。

把窗口套利和护城河合起来，就是长文的完整论点链：

论点	支撑	长文章节
方向是真的	FIS-Anthropic/Fiserv 巨头背书，$D$ 高位	§1
我真的搭出来了	架构全景 + 三护城河硬数字，$S$ 贡献者	§2-§5
现在是最好的时机	$V=D×S$ 峰值在 GA 前窗口，今天在窗口内	§7

反直觉洞察③（窗口的价值不是「赶在巨头之前」，而是「赶在买方不再需要被教育之前」）：直觉把时间窗口理解成「比 FIS 先做出来」——这既不可能也无意义（个人项目拼不过 FIS 工程力）。真正的窗口逻辑是 $S(t)$ 的崩塌点不是「FIS 做出来」，而是「买方买到了、不再需要有人帮他们想清楚怎么搭」。在 GA 之前，每一个银行架构团队、每一个 fintech 招聘方都在问「这玩意儿到底怎么搭、靠不靠谱、多少钱」——一个能直接回答这三问的复刻作品，就是他们当下最需要的「思想样品」。GA 之后这些问题由 FIS 的销售和文档回答了，复刻作品的边际信息价值归零。所以长文必须现在发——它的保鲜期是以「季度」计的。

设计要点/决策表

要点	决策	理由
章节编排	说服顺序（倒金字塔+证据驱动），非开发顺序	招聘方 10 秒决定读不读，论点必须前置
每章结构	论点 + 可点击物证指针（文件/数字/图）	「production signal」要可验证，无物证不立论
三护城河	评测 / 单位经济 / 失效韧性，逐一配硬数字	demo 给不出这三层，是分水岭
卖点排序	failure war stories 当卖点（§5）非免责声明	「知道它会怎么坏」比「报成功数字」更可信
论点收口	时间窗口套利 $V(t)=D(t)\times S(t)$	个人项目碰巨头方向，唯一成立的论证是时间
发布时机	立即（2026-09，窗口内）；保鲜期以季度计	$S(t)$ 在 GA 后崩塌，边际价值归零
诚实纪律	$/案件标「设计估算 W13 回填」；LLM 部分标「prompt+rubric 未接 key」	延续 P1/P2 数字诚信，不谎称已实现

对本项目的落地

长文落地位置：docs/aipa/longform/longform4-replicate-fis-anthropic.md（与 P1/P2 长文同目录），本笔记是其写作设计文档，正文 §1-§7 在 Day 90 之后逐章补全；Day 91（W13 总结）发布。骨架的 7 章 + 每章物证指针即长文的 outline，直接转成正文小标题。
物证指针必须可点击且真实存在：§2 指向 src/agent/orchestrator/orchestratorAgent.ts、src/agent/rag/hybridSearch.ts、src/agent/durable/checkpointMachine.ts、src/agent/gateway/semanticCache.ts（均 P2 已建）；§3 指向 src/aml/evalBaseline.ts（已建，recall/FPR 真实产出）、judgeCalibration.ts（Day 17 设计，W3 落函数）；§4 指向 src/agent/orchestrator/budget.ts、src/agent/shared/cost.ts；§5 指向 src/aml/failureTaxonomy.ts；§6 指向 src/aml/sarNarrative.ts（CitationAnchor + AI 披露注入）。写长文前须逐一核对文件存在与函数名，杜绝指向不存在的物证。
C4 图复用：§2 架构全景图直接引用 Day 96 计划产出的 C4 合规视图（docs/aipa/day96-c4-compliance-diagram.md），避免重画；长文用 C2 容器图即可，C3 组件图链接过去。
核心数字单一真相源：§3 的 recall/FPR、§4 的 $/案件，都从代码实测产出读取，不在长文里硬编码第二份——长文引用的数字与 evalBaseline/budget 的实际输出必须一致（DRY，防止长文与代码数字漂移，呼应 Day 89 「核心数字单一真相源」）。
诚实标注（严格）：长文须明确：(1) $/案件（$0.43/$0.51）为设计估算，W13 跑批回填，非生产实测；(2) LLM 草稿生成为 prompt+rubric+接口，无 API key 时降级到 ruleTemplateSar，绝不谎称「已接入 LLM」（延续 sarNarrative.ts 头注的诚实纪律）；(3) judge κ 校准的阈值 0.6 为 v1 设计门槛，真实标注数据测算后回填。§7 的时间窗口论证用「窗口内」的现在时，不谎称已变现（尚未求职落地）。

参考资料

FIS — FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes（press release，2026-05-04）：「compress AML investigations from days/hours to minutes」「reducing cost per case, by eliminating the manual evidence gathering」「reduce false positives」「U.S. institutions spend $35–40 billion annually on AML」；BMO/Amalgamated 部署中、broader availability H2 2026；Jonathan Pelosi（Anthropic）「every conclusion the agent reaches links back to its source data」；Stephanie Ferris（FIS）「a trusted provider who manages the data, who governs the agents」
Naik, Dintakurthi, Hu, Wang, Qiu (PayPal) — Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives（arXiv 2509.08380，2025-09-18）：企业级多 agent 生成 AML/SAR 合规叙述；compliance-first、强调 trustworthy + 人工核验 checkpoint——与本项目「LLM 草稿 + HITL 复核 + 引用锚点回溯」同构的同期学术印证
dev.to / dataexpert.io — AI Portfolio Projects That Get You Hired 2026 / Ultimate Guide to AI Engineering Portfolios（2026）：「recruiters engage 80% more with GitHub projects featuring runnable code/live demos」「hiring managers scan for production signals — how you handle failures, structure data, ship working software」「RAG 是 2026 最抢手 AI 工程技能」
digitalapplied / neontri — Agentic AI for Fintech & Banking 2026 / Agentic AI in Banking: 2026 Implementation Guide（2026）：「critical buy vs build window appears to be Q2-Q3 2026」「institutions with 18-36 month timelines need to decide now」——时间窗口套利的买方侧证据
Fiserv — Fiserv Launches agentOS: The Operating System for Agentic AI in Banking（2026-05-14）：agentOS GA 预计 2026-08；初始 agent 含 Agentic AML Triage Analysis；6 家 FI 共建、2 家 beta——印证 GA 前窗口
本仓物证：src/agent/orchestrator/、src/agent/rag/hybridSearch.ts、src/agent/durable/checkpointMachine.ts、src/agent/gateway/semanticCache.ts、src/aml/evalBaseline.ts、src/aml/judgeCalibration.ts、src/aml/failureTaxonomy.ts、src/aml/sarNarrative.ts（CitationAnchor + AI 披露）、src/agent/orchestrator/budget.ts（2026-06）

SOTA 检查 (2026-09-12)

注：本笔记日历日为 2026-09-12；事实核查与一手原文检索（FIS press release、Co-Investigator AI 论文、AI 招聘 portfolio 数据、buy-vs-build 窗口、Fiserv agentOS）在 2026-06-11 完成。长文正文逐章补全、$/案件实测回填在 W13 进行。

「复刻巨头方向 + 三护城河（评测/单位经济/失效）」契合 2026 招聘信号：2026 招聘方一致信号是「production signal > toy demo」「runnable code/live demo 提升 80% 互动」「scan for how you handle failures」（dev.to/dataexpert.io 2026）——本长文的护城河编排（§3-§5）直接对标这些信号，未见更优的作品组织范式。
时间窗口仍 live（2026-09 在窗口内）：FIS GA H2 2026、Fiserv agentOS GA 2026-08、买方 buy-vs-build 窗口 Q2-Q3 2026（digitalapplied/neontri 2026）——窗口在 2026 下半年趋于收窄，长文「立即发布、保鲜期以季度计」的决策在 2026-09 仍成立，但窗口正在关闭，发布不可再拖（GA 后 $S(t)$ 崩塌）。
学术同期印证升温：Co-Investigator AI（PayPal，arXiv 2509.08380，2025-09）证明「多 agent 生成可信 AML/SAR 叙述」是活跃研究方向，本项目复刻不是孤例而是踩在主线上——长文 §1 可补一句「连 PayPal 都在发同方向论文」强化 $D(t)$ 论证。
过时认知警示：(1) 不可把「复刻巨头方向」当冒昧——稀缺性 $S(t)$ 在 GA 前最高（反直觉①）；(2) 不可把 failure stories 藏文末当免责——它是最难造假的卖点（反直觉②）；(3) 不可把窗口理解成「赶在巨头前」——崩塌点是「买方不再需要被教育」（反直觉③）。
待跟踪（W13 必做）：用 66 案金标跑 v1.0 实测 $/案件回填 §4；核对长文所有物证指针的文件/函数名仍存在；监控 FIS/Fiserv 是否提前 GA 或公开架构（若 GA 提前，$S$ 崩塌加速，长文须立即发）；Day 91 W13 总结发布长文#4。