返回 AIPA 笔记
AIPA Day 90

长文#4 旗舰初稿 —《复刻 FIS-Anthropic:我从零做了一个 AML 调查 agent》

长文#4 旗舰初稿 —《复刻 FIS-Anthropic:我从零做了一个 AML 调查 agent》

2026-09-12
longformportfoliofis-anthropictime-window-arbitrage

日期: 2026-09-12 阶段: Phase 3 - AML 调查 Copilot 标签: #longform #portfolio #fis-anthropic #time-window-arbitrage

核心问题

Day 89 把 v1.0 的核心数字($/案件三段分解、$/可提交 SAR)实测口径定下来了。今天动笔写 P3 的旗舰交付物——长文#4《复刻 FIS-Anthropic:我从零做了一个 AML 调查 agent》。这篇长文不是一篇技术博客,它是作品②的「索引页 + 论证书」:把散落在 src/aml、src/agent、src/components/aml 的 30+ 文件、66 案金标、规则基线、judge 校准、$/案件,组织成一个招聘方 10 秒能看懂、深问能扛住的叙事。

三个必须回答的问题:

  1. 骨架怎么搭? 一篇能让人「读完就想约面」的复刻长文,章节顺序不能按开发顺序(那是流水账),要按说服顺序——先钉对标物(FIS-Anthropic 在做什么),再钉「我做到了什么 + 证据在哪」,最后钉「为什么是现在做」。
  2. 凭什么有说服力? 招聘方见过太多「我接了个 LLM API」的 demo。这篇的护城河是三个别人没有的硬数字:eval 数字(规则基线 recall/FPR + judge κ)+ 每案件成本($/可提交 SAR)+ failure war stories(6 类失效的真实踩坑)。无数字不立论。
  3. 「为什么是现在」怎么论证? 这是全文最反直觉的一段——我一个个人项目,凭什么去碰一个 FIS+Anthropic 正在做、还没 GA 的方向?答案是时间窗口套利(time-window arbitrage):恰恰因为它还没 GA、买方还在「buy vs build」纠结期,一个能讲清楚架构与单位经济的复刻者,价值在这个窗口里最高。

今天产出长文骨架(章节 + 每章证据指针)+ 时间窗口套利的论证,正文逐章在后续日补全。本笔记是写作设计文档,不是长文本身。

关键内容

A. 长文骨架:按「说服顺序」而非「开发顺序」编排

复刻类长文最常见的失败是写成「我第一天做了 X,第二天做了 Y」的开发日志——招聘方读三段就走。正确的编排是倒金字塔 + 证据驱动:每一个论点紧跟一个可点击的物证(代码文件 / 数字 / 截图)。骨架定为 7 章:

长文#4 骨架(说服顺序)
├─ §1 对标物:FIS-Anthropic 在做什么(300字)
│     证据汇集→typology 比对→SAR 叙述;days→minutes;$35-40B AML 支出
│     ▸ 钉死「我复刻的是一个真实的、有市场的产品方向」,非自嗨 demo
├─ §2 我做了什么:架构全景(500字 + C4 图)
│     lead-sub 编排 / RAG 混合检索 / 三层记忆 / durable checkpoint / gateway 计量
│     ▸ 物证指针:src/agent/orchestrator、src/agent/rag/hybridSearch、src/agent/durable
├─ §3 评测:怎么知道它「对」(500字 + 表)★护城河①
│     66 案金标 + 规则基线 recall 1.0×3/FPR 5.6% + judge κ 校准 + 阻断式 CI gate
│     ▸ 物证:src/aml/evalBaseline、src/aml/judgeCalibration、__tests__
├─ §4 单位经济:每案件多少钱(400字 + 三段分解表)★护城河②
│     检索/生成/judge 三段 → $/案件 → $/可提交 SAR → 对标人工 ROI
│     ▸ 物证:src/agent/orchestrator/budget、src/agent/gateway/semanticCache
├─ §5 失效与韧性:它怎么炸、怎么恢复(400字)★护城河③
│     6 类 failureTaxonomy + 结构化错误恢复 + HITL 夺回控制 + 合规担责
│     ▸ 物证:src/aml/failureTaxonomy、Day 82 错误恢复
├─ §6 合规姿态:为什么它敢碰金融(300字)
│     AI Act Art.50 披露 / 高风险 Art.9-12 映射 / SR 11-7 三道防线 / HITL
│     ▸ 物证:sarNarrative 强制 AI 披露注入、Day 49/92 法条映射
└─ §7 为什么是现在:时间窗口套利(400字)★全文论点收口
      FIS GA H2 2026、买方 buy-vs-build 纠结期、复刻者价值峰值

反直觉洞察①(复刻一个还没 GA 的商业产品,是优势不是冒昧):直觉会觉得「FIS+Anthropic 都在做了,我一个人复刻有什么意义,不是班门弄斧吗」。恰恰相反——正因为它还没 GA、市面上没有可参照的开源实现,一个把架构和单位经济讲透的复刻者填补的是「认知空缺」。如果复刻的是一个三年前就开源烂大街的东西(比如又一个 RAG 聊天机器人),那才叫没价值。复刻一个「方向被巨头验证、但实现还是黑箱」的产品,等于在最高信息差的时间点交出一份「我懂这条产品线怎么搭、贵在哪、坑在哪」的答卷。班门弄斧的前提是鲁班的斧子已经摆在门口卖了——而 FIS 的斧子要 H2 2026 才上市(FIS press release 2026-05-04)。

§2 的架构全景要呼应 Anthropic Jonathan Pelosi 在 FIS 发布里的那句话——「every conclusion the agent reaches links back to its source data」(2026-05-04)。这正是本项目 sarNarrative.tsCitationAnchor schema([T0001] 引用锚点 + resolved 核对位)要解决的同一个问题:叙述里每条结论都能回溯到真实交易。长文要把这个对应关系点出来——不是巧合,是同一个合规刚需驱动的同一个设计。

B. 三条护城河:用别人 demo 没有的硬数字立论

2026 的招聘信号很明确:「recruiters engage 80% more with GitHub projects featuring runnable code or live demos」「hiring managers scan for production signals — how you handle failures, structure data, ship working software」(dev.to / dataexpert.io 2026)。「production signal」翻译成本项目的语言就是三条护城河,对应三个 demo 给不出来的数字层:

护城河demo 级项目通常有本项目的硬数字物证文件
①评测「跑通了,看着对」规则基线 recall 1.0×3 / normal FPR 5.6%;judge κ≥0.6 准入门src/aml/evalBaseline.tsjudgeCalibration.ts
②单位经济「调了 Claude API」$/案件 ≈$0.43(检索$0.02+生成$0.35+judge$0.06);$/可提交 SAR ≈$0.51src/agent/orchestrator/budget.tsgateway/semanticCache.ts
③失效韧性「happy path 能跑」6 类 failureTaxonomy + 结构化错误恢复 + HITL 夺回控制src/aml/failureTaxonomy.ts、Day 82

把这三条压成一条可背诵的「电梯论证」(长文 §3-§5 的浓缩,也是面试自我介绍的脚本):

「我复刻了 FIS-Anthropic 的 AML 调查 agent。
 它不只是能跑——
   ▸ 我有 66 案金标 + 规则基线(recall 1.0、normal 误报 5.6%),
     还给 LLM-judge 本身做了 Cohen's κ 校准(κ≥0.6 才进 CI),
   ▸ 我实测过单位成本:每生成一份可提交 SAR ≈ $0.51,
     按 2.5× 定价对标人工 20-60 分钟有数量级 ROI,
   ▸ 我系统化了它怎么炸(6 类失效)和炸了怎么让合规官夺回控制。
 这三件事,是一个能跑的 demo 和一个能上生产的产品之间的全部距离。」

这段脚本的力量在于:它把「我会调 API」(人人都会)升级成「我懂这条产品线的可靠性、单位经济、失效边界」(极少人能讲)。第三句尤其关键——failure war stories 是最难造假的信号,因为只有真做过、真踩过坑的人,才说得出「typology 比对在结构化拆分(structuring)边界案上为什么会漏」这种具体失效。

反直觉洞察②(failure war stories 比 success metrics 更有说服力):直觉是「作品要展示成功——recall 多高、成本多低」。但招聘方(尤其是资深架构师面试官)更信「你知道它会怎么坏」。一个只报成功数字的候选人像在卖产品;一个能讲清楚「6 类失效里哪一类最致命、为什么、我怎么兜底」的候选人像在交付一个他真正理解的系统。FIS 自己的措辞也印证这点——它强调 reduce false positives(即承认 FP 是核心痛点),而非吹 100% 准确(2026-05-04)。长文 §5 必须把 failureTaxonomy 当卖点写,而不是当免责声明藏在文末。

C. 时间窗口套利:「为什么是现在」的可量化论证

这是 §7、也是全文论点的收口。一个个人项目去碰巨头方向,唯一能成立的论证是时间:在「方向已被验证」和「方案已经 GA、买方不再需要被教育」之间,有一个窗口,复刻者的边际价值在窗口内最高、窗口外趋零。把它写成一个不等式。

设复刻作品对招聘方的「信息价值」$V(t)$ 是两个因子的积:

$$V(t) = \underbrace{D(t)}{\text{方向确定性}} \times \underbrace{S(t)}{\text{方案稀缺性}}$$

  • $D(t)$ 方向确定性:这个产品方向被市场验证的程度。FIS-Anthropic 2026-05 宣布、BMO/Amalgamated 部署中,$D$ 在 2026 已跳到高位(巨头背书 = 方向不再是赌博)。
  • $S(t)$ 方案稀缺性:能讲清楚「怎么搭、贵在哪、坑在哪」的公开实现有多稀缺。FIS 方案 H2 2026 才 GA、是黑箱(press release 不含架构与单价),开源复刻几乎为零,$S$ 在当前极高

关键在两个因子的时间错位

价值因子随时间演化
        D(t) 方向确定性  ─────────────●━━━━━━━━━━━━━  (2026-05 巨头宣布后跳高位, 持续高)
                                      ╱
        S(t) 方案稀缺性  ━━━━━━━━━━━●╲                (GA 前极高)
                                       ╲___           (GA 后买方有现成方案, 稀缺性崩塌)
                                          ╲____
        V(t)=D×S         ░░░░░░░░░░░▓▓▓██▓▓░░░░░░░    ← 峰值在 [巨头宣布, 方案GA] 之间
                         |          |    |
                      2026-05    NOW   H2 2026 GA
                      D 跳高     窗口   S 开始崩

$V(t)$ 的峰值出现在「$D$ 已跳高 ∧ $S$ 尚未崩塌」的交集——即 2026-05(FIS 宣布)到 H2 2026(GA)之间。今天(2026-09)正落在这个窗口内。买方侧的证据印证窗口存在:「the critical buy vs build window appears to be Q2-Q3 2026, as vendor platforms reach GA while institutions with 18-36 month timelines need to decide now」(digitalapplied / neontri 2026)、Fiserv agentOS GA 预计 2026-08(Fiserv 2026-05-14)。买方正在 buy-vs-build 纠结期——这正是「懂怎么 build」的人最值钱的时刻

把窗口套利和护城河合起来,就是长文的完整论点链:

论点支撑长文章节
方向是真的FIS-Anthropic/Fiserv 巨头背书,$D$ 高位§1
我真的搭出来了架构全景 + 三护城河硬数字,$S$ 贡献者§2-§5
现在是最好的时机$V=D×S$ 峰值在 GA 前窗口,今天在窗口内§7

反直觉洞察③(窗口的价值不是「赶在巨头之前」,而是「赶在买方不再需要被教育之前」):直觉把时间窗口理解成「比 FIS 先做出来」——这既不可能也无意义(个人项目拼不过 FIS 工程力)。真正的窗口逻辑是 $S(t)$ 的崩塌点不是「FIS 做出来」,而是「买方买到了、不再需要有人帮他们想清楚怎么搭」。在 GA 之前,每一个银行架构团队、每一个 fintech 招聘方都在问「这玩意儿到底怎么搭、靠不靠谱、多少钱」——一个能直接回答这三问的复刻作品,就是他们当下最需要的「思想样品」。GA 之后这些问题由 FIS 的销售和文档回答了,复刻作品的边际信息价值归零。所以长文必须现在发——它的保鲜期是以「季度」计的。

设计要点/决策表

要点决策理由
章节编排说服顺序(倒金字塔+证据驱动),非开发顺序招聘方 10 秒决定读不读,论点必须前置
每章结构论点 + 可点击物证指针(文件/数字/图)「production signal」要可验证,无物证不立论
三护城河评测 / 单位经济 / 失效韧性,逐一配硬数字demo 给不出这三层,是分水岭
卖点排序failure war stories 当卖点(§5)非免责声明「知道它会怎么坏」比「报成功数字」更可信
论点收口时间窗口套利 $V(t)=D(t)\times S(t)$个人项目碰巨头方向,唯一成立的论证是时间
发布时机立即(2026-09,窗口内);保鲜期以季度计$S(t)$ 在 GA 后崩塌,边际价值归零
诚实纪律$/案件 标「设计估算 W13 回填」;LLM 部分标「prompt+rubric 未接 key」延续 P1/P2 数字诚信,不谎称已实现

对本项目的落地

  • 长文落地位置docs/aipa/longform/longform4-replicate-fis-anthropic.md(与 P1/P2 长文同目录),本笔记是其写作设计文档,正文 §1-§7 在 Day 90 之后逐章补全;Day 91(W13 总结)发布。骨架的 7 章 + 每章物证指针即长文的 outline,直接转成正文小标题。
  • 物证指针必须可点击且真实存在:§2 指向 src/agent/orchestrator/orchestratorAgent.tssrc/agent/rag/hybridSearch.tssrc/agent/durable/checkpointMachine.tssrc/agent/gateway/semanticCache.ts(均 P2 已建);§3 指向 src/aml/evalBaseline.ts(已建,recall/FPR 真实产出)、judgeCalibration.ts(Day 17 设计,W3 落函数);§4 指向 src/agent/orchestrator/budget.tssrc/agent/shared/cost.ts;§5 指向 src/aml/failureTaxonomy.ts;§6 指向 src/aml/sarNarrative.tsCitationAnchor + AI 披露注入)。写长文前须逐一核对文件存在与函数名,杜绝指向不存在的物证。
  • C4 图复用:§2 架构全景图直接引用 Day 96 计划产出的 C4 合规视图(docs/aipa/day96-c4-compliance-diagram.md),避免重画;长文用 C2 容器图即可,C3 组件图链接过去。
  • 核心数字单一真相源:§3 的 recall/FPR、§4 的 $/案件,都从代码实测产出读取,不在长文里硬编码第二份——长文引用的数字与 evalBaseline/budget 的实际输出必须一致(DRY,防止长文与代码数字漂移,呼应 Day 89 「核心数字单一真相源」)。
  • 诚实标注(严格):长文须明确:(1) $/案件($0.43/$0.51)为设计估算,W13 跑批回填,非生产实测;(2) LLM 草稿生成为 prompt+rubric+接口,无 API key 时降级到 ruleTemplateSar,绝不谎称「已接入 LLM」(延续 sarNarrative.ts 头注的诚实纪律);(3) judge κ 校准的阈值 0.6 为 v1 设计门槛,真实标注数据测算后回填。§7 的时间窗口论证用「窗口内」的现在时,不谎称已变现(尚未求职落地)。

参考资料

  1. FIS — FIS Brings Agentic AI to Banking with Anthropic, Starting with Financial Crimes(press release,2026-05-04):「compress AML investigations from days/hours to minutes」「reducing cost per case, by eliminating the manual evidence gathering」「reduce false positives」「U.S. institutions spend $35–40 billion annually on AML」;BMO/Amalgamated 部署中、broader availability H2 2026;Jonathan Pelosi(Anthropic)「every conclusion the agent reaches links back to its source data」;Stephanie Ferris(FIS)「a trusted provider who manages the data, who governs the agents」
  2. Naik, Dintakurthi, Hu, Wang, Qiu (PayPal) — Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives(arXiv 2509.08380,2025-09-18):企业级多 agent 生成 AML/SAR 合规叙述;compliance-first、强调 trustworthy + 人工核验 checkpoint——与本项目「LLM 草稿 + HITL 复核 + 引用锚点回溯」同构的同期学术印证
  3. dev.to / dataexpert.io — AI Portfolio Projects That Get You Hired 2026 / Ultimate Guide to AI Engineering Portfolios(2026):「recruiters engage 80% more with GitHub projects featuring runnable code/live demos」「hiring managers scan for production signals — how you handle failures, structure data, ship working software」「RAG 是 2026 最抢手 AI 工程技能」
  4. digitalapplied / neontri — Agentic AI for Fintech & Banking 2026 / Agentic AI in Banking: 2026 Implementation Guide(2026):「critical buy vs build window appears to be Q2-Q3 2026」「institutions with 18-36 month timelines need to decide now」——时间窗口套利的买方侧证据
  5. Fiserv — Fiserv Launches agentOS: The Operating System for Agentic AI in Banking(2026-05-14):agentOS GA 预计 2026-08;初始 agent 含 Agentic AML Triage Analysis;6 家 FI 共建、2 家 beta——印证 GA 前窗口
  6. 本仓物证:src/agent/orchestrator/src/agent/rag/hybridSearch.tssrc/agent/durable/checkpointMachine.tssrc/agent/gateway/semanticCache.tssrc/aml/evalBaseline.tssrc/aml/judgeCalibration.tssrc/aml/failureTaxonomy.tssrc/aml/sarNarrative.tsCitationAnchor + AI 披露)、src/agent/orchestrator/budget.ts(2026-06)

SOTA 检查 (2026-09-12)

注:本笔记日历日为 2026-09-12;事实核查与一手原文检索(FIS press release、Co-Investigator AI 论文、AI 招聘 portfolio 数据、buy-vs-build 窗口、Fiserv agentOS)在 2026-06-11 完成。长文正文逐章补全、$/案件实测回填在 W13 进行。

  • 「复刻巨头方向 + 三护城河(评测/单位经济/失效)」契合 2026 招聘信号:2026 招聘方一致信号是「production signal > toy demo」「runnable code/live demo 提升 80% 互动」「scan for how you handle failures」(dev.to/dataexpert.io 2026)——本长文的护城河编排(§3-§5)直接对标这些信号,未见更优的作品组织范式。
  • 时间窗口仍 live(2026-09 在窗口内):FIS GA H2 2026、Fiserv agentOS GA 2026-08、买方 buy-vs-build 窗口 Q2-Q3 2026(digitalapplied/neontri 2026)——窗口在 2026 下半年趋于收窄,长文「立即发布、保鲜期以季度计」的决策在 2026-09 仍成立,但窗口正在关闭,发布不可再拖(GA 后 $S(t)$ 崩塌)。
  • 学术同期印证升温:Co-Investigator AI(PayPal,arXiv 2509.08380,2025-09)证明「多 agent 生成可信 AML/SAR 叙述」是活跃研究方向,本项目复刻不是孤例而是踩在主线上——长文 §1 可补一句「连 PayPal 都在发同方向论文」强化 $D(t)$ 论证。
  • 过时认知警示:(1) 不可把「复刻巨头方向」当冒昧——稀缺性 $S(t)$ 在 GA 前最高(反直觉①);(2) 不可把 failure stories 藏文末当免责——它是最难造假的卖点(反直觉②);(3) 不可把窗口理解成「赶在巨头前」——崩塌点是「买方不再需要被教育」(反直觉③)。
  • 待跟踪(W13 必做):用 66 案金标跑 v1.0 实测 $/案件 回填 §4;核对长文所有物证指针的文件/函数名仍存在;监控 FIS/Fiserv 是否提前 GA 或公开架构(若 GA 提前,$S$ 崩塌加速,长文须立即发);Day 91 W13 总结发布长文#4。