AIPA Day 112

长文#6 定稿 + W16 周总结 — build/buy 的线，不在你和厂商之间，在你自己技术栈的每一层

2026-10-04

longform6-finaldecision-treeweek16-summary

日期: 2026-10-04 阶段: Phase 4 - 自建 Agent 平台×求职冲刺标签: #longform6-final #decision-tree #week16-summary

核心问题

Day 111 起草了长文#6 上半（逐层对应 + 防御纵深）。今天收尾下半，把整篇定稿，并做 W16 周总结。下半要回答最难的一问：

「给定一个具体客户，怎么逐层决定哪层 build、哪层 buy？把 HIPAA / 数据驻留代进去，决策树长什么样？」

关键认知翻转（Day 111 埋的伏笔）：build-vs-buy 在 2026 不是「你 vs 厂商」的二选一，而是 interexy（2026）的那句——「the build vs buy line is no longer drawn between you and a vendor; it runs through your own stack, and you get to choose which side each layer falls on」。所以决策树不是一棵「全建 or 全买」的树，而是对每一层各跑一遍。今天产出：8 维选型矩阵 + 同构 TCO + 逐层决策树（HIPAA/数据驻留代入），收尾长文，封 P4。

关键内容

A. 8 维选型矩阵 + TCO + 逐层决策树

第一步：8 维选型矩阵。把 Day 110/111 散落的判据收成一张可操作的矩阵——三家托管（AgentCore / Foundry / Gemini Enterprise）+ 自建，沿 8 维打分。维度取自 2026 第三方选型框架（ampcome 2026-04「五非协商项」+ AISA 选型顺序）：

维度	AgentCore（AWS）	Foundry（MS）	Gemini Enterprise（Google）	自建（self-host）
身份授权	token 保险库最灵活（OAuth 3LO/2LO）	Entra Agent ID（每 agent 一身份）	Google IAM 原生	自建=安全负债（不建议）
记忆	GA（managed/self-managed 双策略）	Foundry Memory 仍 preview	Memory Bank GA（2025-12）	自建向量库（运维重）
工具网关	Gateway（REST/Lambda→MCP+语义搜索）	MAF + MCP	ADK + A2A v1.2	toolRegistry 最小形
评估	Evaluations preview（13 评估器）	Evaluations GA（2026-03，agent eval 仍 preview）	（Vertex eval）	自建 judge（P1 已建）
定价	~12 计费组件，纯消耗	Hosted Agents scale-to-zero 小时计费	$0.0864/vCPU·h + $0.25/千事件	GPU 租金+运维
合规	HIPAA eligible（2026-02-10）+VPC/PrivateLink	Sovereign Private Cloud / Foundry Local	GDC air-gapped GA（2025-08，全离线）	自建全控（数据不出栈）
框架耦合	框架无关（Strands/LangGraph/CrewAI/ADK 都托管）	M365/Copilot 深耦合	Gemini 深耦合	完全自主
起步速度	天级	天级	天级	周-月级

AISA 选型顺序（铁律）：现有云与身份栈 → 数据所在地 → 合规 → M365 耦合 → 定价与 eval 成熟度。注意 eval 成熟度排在最后但对 AML 最关键：Foundry Evaluations 已 GA（2026-03）、AgentCore Evaluations 仍 preview、Snowflake 走 GPA（Goal-Plan-Action，arXiv 2510.08847，95% 错误检出 1.8× baseline）——对一个必须向监管交代「每个 SAR 决策可辩护」的产品，eval 是否 GA 直接决定能不能上线。

第二步：同构 TCO（接 Day 110 B 节）。买与自建写成可比的两条线，强制摊入隐性成本：

$$\text{决策} = \arg\min\big[\ \text{TCO}{\text{buy}}(\text{token}{\text{另算}}+\text{观测}{\text{无上限}}+\text{12组件}),\ \ \text{TCO}{\text{build}}(\text{GPU}+\underbrace{\text{运维}{25\text{-}30%}}{\text{隐性大头}})\ \big]\ \ \text{s.t.}\ \ \text{合规约束}$$

约束项 s.t. 合规约束 是关键——它让最小化在某些客户身上直接失效：当数据驻留/HIPAA/air-gapped 成硬约束时，托管选项被约束剔除出可行域，argmin 退化为「自建/VPC 私有化」，与 token 量级无关。

第三步：逐层决策树（本日核心交付，HIPAA/数据驻留代入）。不是一棵树，是对每一层各跑一遍：

对技术栈每一层 L ∈ {模型推理, 工具网关, 策略授权, 身份, 记忆, 评估, 观测}:
  │
  ├─ Q1: 这一层处理 PHI/SAR/PII 且要求数据驻留/air-gapped?
  │     是 → 该层必须 build 或 VPC 私有化（合规剔除托管，与成本无关）
  │     否 → 进 Q2
  │
  ├─ Q2: 这一层是安全敏感的授权/凭证层（身份/策略）?
  │     是 → buy（自建=安全负债；Identity 尤其不碰）
  │     否 → 进 Q3
  │
  ├─ Q3: 这一层是产品差异化核心（成本旋钮/业务规则/eval 口径）?
  │     是 → build（缓存策略/judge 口径/业务策略要握在手里）
  │     否 → 进 Q4
  │
  └─ Q4: 该层流量过 break-even (chat≥1.2B/code≥600M token/月) 且有专职工程师?
        是 → build（3-7× 省，前提工程师在位）
        否 → buy（默认，把工程师留给差异化）

把 AML Copilot 代入这棵树，得到一个混合配置（这正是 interexy「线穿过你自己的栈」的落地）：

层	AML Copilot 决策	走哪条
模型推理	数据驻留要求 → build/VPC（SAR 含 PII 不出行）	Q1 是
身份	buy（token 保险库自建=安全负债）	Q2 是
策略授权	buy（Policy 实时无遗漏拦截，自建漏拦=合规事故）	Q2 是
工具网关	buy（协议转换+授权太重）	Q3 否→Q4 否
评估 judge	build（faithfulness/coverage/submittable 口径是产品核心，P1 已建）	Q3 是
成本计量	build（$/案件是产品核心数字，P2/Day89 已建）	Q3 是
记忆	buy 或 hybrid（看证据包数据是否驻留）	Q1/Q4

反直觉洞察①（build-vs-buy 不是一道二选题，是七道逐层题）：直觉是「我要么自建平台、要么买平台」。但 2026 的真相是 build/buy 的线穿过你自己的技术栈——同一个 AML Copilot，模型推理层因数据驻留要 build、身份层因安全要 buy、eval 层因产品差异化要 build、网关层因太重要 buy。把它当一道二选题，必然要么过度自建（在身份层埋安全负债）、要么过度购买（把 eval 口径这种产品核心外包掉、丧失差异化）。 架构判断力 = 对每一层单独跑决策树的能力，不是对整个平台投一票。

B. 下半骨架收尾：从决策树到 liability allocation

长文#6 下半（4-6 节）骨架：

├─ 4. TCO：买 vs 自建同构公式 + 隐性成本           ← Day 110 B 节
│     token 另算 / 观测无上限 / 运维 25-30%（常吃掉省下的 API 费）
├─ 5. 8 维选型矩阵 + 逐层决策树                    ← 本日 A 节
│     HIPAA/数据驻留代入 → AML Copilot 混合配置
├─ 6. 终极视角：build-vs-buy 是"责任归属"问题       ← 本日（收尾升华）
│     interexy：金融场景 build-vs-buy 本质是 liability allocation
│     "who pays when an agent hallucinates a regulatory deadline"
└─ 结语：自建不是为省钱，是为获得"逐层判断该买该建"的能力

第 6 节是全文升华。interexy（2026）把金融场景的 build-vs-buy 钉成责任归属问题：「the way you answer it determines who pays when an agent hallucinates a regulatory deadline」——你买托管，等于把「agent 出错谁担责」部分转移给厂商（BAA/DPA/SLA）；你自建，等于自己全担。对 AML Copilot 这种受 SR 11-7 模型风险 + 2026 修订（SR 26-2 / OCC Bulletin 2026-13，2026-04 美联储/OCC/FDIC 发布）约束的产品，「每个 agent 决策能否在监管面前辩护」这道 auditability 关，决定了哪些层你绝不敢外包——eval 口径、审计轨迹这种「要向 MLRO/监管交代」的层，必须自建自担、留全量证据（呼应 P3 Day 74/75 不可变审计轨迹）。

反直觉洞察②（买托管不是甩锅，是部分转移责任——但核心责任转不掉）：直觉是「买托管就把锅甩给厂商了」。但金融场景下，BAA/SLA 只转移了「基础设施层」的责任（机房宕机、数据泄露厂商赔），「agent 做出了一个站不住脚的 SAR 判断」这个业务责任，永远在你（持牌机构）身上——监管罚的是银行，不是 AgentCore。所以哪怕全栈买托管，eval/审计/模型风险这几层的判断责任和举证责任也转不掉，必须自建能力去履行。这就是为什么 AML Copilot 的 eval judge 和审计轨迹层"必须 build"——不是为省钱，是因为这层的责任法律上转不掉。 一个候选人能说清「哪些层的责任可随托管转移、哪些层的责任法律上锁死在我这」，是 AISA 与「只会调 API 的人」的终极分水岭。

C. W16 周总结：P4 收官，作品③与求职叙事合龙

W16（Day 110-112）是 P4 的合龙周，也是整个 AIPA-120 的收官段。三天产出与状态：

Day	产出	状态	对求职叙事的贡献
110	v1 端到端冒烟 + build-vs-buy TCO	平台 v1 合龙、TCO 公式立	「我自建了平台且算清了它该不该自建」
111	长文#6 初稿（逐层对应+防御纵深）	上半成稿、组件对应表定	「逐层拆解托管平台卖什么」= design taste
112	长文#6 定稿 + 8 维矩阵+决策树 + 周总结	长文封稿、P4 收官	「build/buy 逐层判断 + 责任归属」= 架构判断力

P4 三条收束的求职叙事（对接 AISA 三层投递）：

作品③（自建 agent 平台 v1）+ 长文#6：对接「真·全球远程 LangChain 类」JD——shipped 系统 + eval 数字 + 单位成本，外加「逐层 build/buy 判断力」。
作品②（AML Copilot，P1-P3）：对接「金融 GenAI Architect」JD（Citi VP 类）——金融域 + 合规映射（EU AI Act/DORA/SR 11-7）+ $/案件单位经济。
eval 框架能力（P1 judge 校准 + P4 选型矩阵 eval 维度）：对接 Anthropic/LangChain SA JD 显式职责——「eval 框架设计」。

反直觉洞察③（P4 收官交付的不是"一个平台"，是"一套判断框架"）：直觉是 P4 的成果 = 作品③那个能跑的平台。但回看三个月，真正可迁移、可在面试复用的，是那套判断框架：单位成本三段分解（Day 89）、judge 校准 κ 闭环（Day 17）、逐层 build/buy 决策树（本日）、责任归属视角（本日）。平台会过时（托管平台半年改一次组件），但"如何逐层判断该买该建、如何算单位成本、如何校准 eval、哪些责任转不掉"这套框架不过时。 作品③是框架的载体，框架才是作品——这是 AIPA-120 全程「输出倒逼输入」的最终回报。

设计要点/决策表

要点	决策	理由
选型矩阵维度	8 维（身份/记忆/网关/评估/定价/合规/框架耦合/速度）	收敛 2026 第三方选型框架
选型顺序	云与身份栈→数据驻留→合规→M365 耦合→定价/eval 成熟度	AISA 铁律，eval 成熟度对 AML 最关键
决策粒度	逐层跑决策树，非整平台一票	build/buy 线穿过自己技术栈
合规约束	数据驻留/HIPAA → 剔除托管，与成本无关	argmin s.t. 合规约束退化为 build/VPC
不可转移责任	eval/审计/模型风险层必须 build	liability 法律上锁死在持牌机构
长文升华	build-vs-buy = 责任归属问题	interexy 金融框架，对接 SR 11-7/SR 26-2
P4 收官交付	「一套判断框架」而非「一个平台」	平台会过时，框架不过时

对本项目的落地

docs/aipa/longform6-build-vs-buy.md 定稿（补 4-6 节 + 结语）：接 Day 111 上半，补 TCO（Day 110 B）+ 8 维矩阵 + 逐层决策树 + 责任归属升华。全文头注标「2026-06 定价/GA 口径，投递当周复核三家组件 GA 状态」。这是作品③的叙事主文档。
逐层决策树落成 src/agent/README 的「build/buy ADR」：把 A 节决策树 + AML Copilot 混合配置表写进 README，作为「这个自建平台在生产里哪些层我会换成托管」的显式架构决策记录。指向真实层文件（推理层、policyGate.ts、toolRegistry.ts、P1 judge、budget.ts、memory/）。
8 维矩阵进求职作品集索引：在 docs/MASTER_PORTFOLIO.md 或 P4 收官页登记长文#6 + 8 维矩阵，作为对接 AISA 三层投递（LangChain 类/金融 GenAI/lab FDE）的「平台选型 + build/buy 判断」物料。
W16 周总结写进 P4 phase summary：登记 Day 110-112 产出与 P4 收官状态，把 C 节「三条求职叙事 + 不过时的判断框架」作为 AIPA-120 全程收尾。
诚实标注：A 节矩阵所有 GA/preview/定价（Foundry Memory preview、AgentCore Evals preview、Gemini Memory Bank GA、$0.0864/vCPU·h）均为 2026-06 口径，投递当周必复核（preview→GA 变动快）；AML Copilot 混合配置是设计决策非生产部署（本项目无真实托管集成），README 须标限定语，延续全程诚信纪律。

参考资料

interexy — Build vs Buy: AI Agent Platform for Financial Services – A Strategic Decision Framework（2026，正文经 WebSearch 摘要核实，原页 WebFetch 返回 403）：金融场景 build-vs-buy 本质是 liability allocation——「determines who pays when an agent hallucinates a regulatory deadline」；「build vs buy line runs through your own stack, choose which side each layer falls on」；auditability 须能 90 天内向监管辩护每个决策；SR 26-2 / OCC Bulletin 2026-13（2026-04 Fed/OCC/FDIC 修订模型风险指引）/ SR 11-7
ampcome — CIO's Guide to Enterprise AI Agent Platform Selection（2026-04-22）：五非协商项（系统集成/治理审计/多 agent 编排/上线速度/合规姿态）；「compliance posture is a procurement gate」；build/buy/assemble 三分；数据驻留「data processed in Europe stays in Europe」+ on-prem/私有云
Snowflake / arXiv 2510.08847 — What Is Your Agent's GPA? Goal-Plan-Action Alignment（2026）：GPA 五指标（Goal Fulfillment/Logical Consistency/Execution Efficiency/Plan Quality/Plan Adherence）；95% 错误检出（1.8× baseline）、86% 定位（vs 49%）；开源于 TruLens
Microsoft Foundry Blog — What's new in Microsoft Foundry (Mar 2026) / Build 2026 open trust stack（2026-03/2026-06）：Foundry Evaluations GA（2026-03），agent eval 仍 preview；Hosted Agents GA（scale-to-zero 容器小时计费）；MAF 1.0 开放 evals + control standard
agentmarketcap / linesncircles — Enterprise Agent Platforms 2026 比较（2026-04）：Foundry Memory preview、Gemini Memory Bank GA（2025-12）；模型 token 主导成本 10-100×，三家 compute 差异 <2-3%；Fortune 500 多栈并存（Foundry IT 流程 / Agentforce 客服 / AgentCore 工程师自建）
本仓物证：src/agent/（全套自建装置）、src/aml/（judge/审计/eval baseline，P1/P3）、docs/MASTER_PORTFOLIO.md、docs/aipa/day89-unit-cost.md、day17-judge-calibration.md、day110-platform-v1-tco.md、day111-longform6-draft.md（2026-06）

SOTA 检查 (2026-06-11)

注：本笔记日历日为 2026-10-04；事实核查与一手原文检索（ampcome、Snowflake GPA、Foundry Blog；interexy 经 WebSearch 摘要核实，原页 403）在 2026-06-11 完成。8 维矩阵的 GA/preview/定价为 2026-06 口径，投递当周须逐项复核。

「build/buy 线穿过自己技术栈、逐层判断」是 2026-06 主流框架：interexy、ampcome（build/buy/assemble 三分）口径一致——hybrid 是主流（KPMG 称 57% 组织偏好混合，环比升）。本日逐层决策树与此对齐，非整平台一票。
eval 成熟度是 2026-06 三家最大分化点：Foundry Evaluations GA（2026-03）领先，AgentCore Evaluations 仍 preview，Snowflake 走 GPA（research-backed，arXiv 2510.08847）——对受监管 AML 产品，eval 是否 GA 直接决定能否上线，矩阵把它列为对 AML 最关键维度。投递当周须复核 AgentCore Evals 是否转 GA。
合规作为「procurement gate」在 2026 收紧：ampcome「compliance posture is a procurement gate」、数据驻留剔除托管——对 AML/SAR（含 PII，受 SR 11-7/SR 26-2）这是硬约束非财务选择，强化反直觉①（合规层必 build/VPC）。
责任归属视角是 live 的金融架构认知：interexy 把 build-vs-buy 钉成 liability allocation——BAA/SLA 转移基础设施责任，但 SAR 判断的业务/举证责任锁死在持牌机构（反直觉②）。SR 26-2/OCC 2026-13 是 2026-04 新规，投递当周须确认最新生效状态。
过时认知警示：(1) 不可把 build/buy 当二选题——是逐层七道题（反直觉①）；(2) 不可把买托管当甩锅——核心 eval/审计/模型风险责任转不掉（反直觉②）；(3) 矩阵 GA/preview/品牌名变动快（Google 已更名 Gemini Enterprise Agent Platform），投递材料须标 2026-06 口径 + 当周复核。
待跟踪（投递当周必做）：复核 AgentCore Evaluations/Policy/Payments GA 状态与计价、Foundry agent eval 是否转 GA、Gemini Enterprise 最新组件名；用本项目 v1 实测 token 量代入决策树验证 AML Copilot 混合配置；确认 SR 26-2/OCC Bulletin 2026-13 生效细则，把「不可转移责任层」清单写进长文#6 与 README 的 ADR。