返回 AIPA 笔记
AIPA Day 112

长文#6 定稿 + W16 周总结 — build/buy 的线,不在你和厂商之间,在你自己技术栈的每一层

长文#6 定稿 + W16 周总结 — build/buy 的线,不在你和厂商之间,在你自己技术栈的每一层

2026-10-04
longform6-finaldecision-treeweek16-summary

日期: 2026-10-04 阶段: Phase 4 - 自建 Agent 平台×求职冲刺 标签: #longform6-final #decision-tree #week16-summary

核心问题

Day 111 起草了长文#6 上半(逐层对应 + 防御纵深)。今天收尾下半,把整篇定稿,并做 W16 周总结。下半要回答最难的一问:

「给定一个具体客户,怎么逐层决定哪层 build、哪层 buy?把 HIPAA / 数据驻留代进去,决策树长什么样?」

关键认知翻转(Day 111 埋的伏笔):build-vs-buy 在 2026 不是「你 vs 厂商」的二选一,而是 interexy(2026)的那句——「the build vs buy line is no longer drawn between you and a vendor; it runs through your own stack, and you get to choose which side each layer falls on」。所以决策树不是一棵「全建 or 全买」的树,而是对每一层各跑一遍。今天产出:8 维选型矩阵 + 同构 TCO + 逐层决策树(HIPAA/数据驻留代入),收尾长文,封 P4。

关键内容

A. 8 维选型矩阵 + TCO + 逐层决策树

第一步:8 维选型矩阵。把 Day 110/111 散落的判据收成一张可操作的矩阵——三家托管(AgentCore / Foundry / Gemini Enterprise)+ 自建,沿 8 维打分。维度取自 2026 第三方选型框架(ampcome 2026-04「五非协商项」+ AISA 选型顺序):

维度AgentCore(AWS)Foundry(MS)Gemini Enterprise(Google)自建(self-host)
身份授权token 保险库最灵活(OAuth 3LO/2LO)Entra Agent ID(每 agent 一身份)Google IAM 原生自建=安全负债(不建议)
记忆GA(managed/self-managed 双策略)Foundry Memory 仍 previewMemory Bank GA(2025-12)自建向量库(运维重)
工具网关Gateway(REST/Lambda→MCP+语义搜索)MAF + MCPADK + A2A v1.2toolRegistry 最小形
评估Evaluations preview(13 评估器)Evaluations GA(2026-03,agent eval 仍 preview)(Vertex eval)自建 judge(P1 已建)
定价~12 计费组件,纯消耗Hosted Agents scale-to-zero 小时计费$0.0864/vCPU·h + $0.25/千事件GPU 租金+运维
合规HIPAA eligible(2026-02-10)+VPC/PrivateLinkSovereign Private Cloud / Foundry LocalGDC air-gapped GA(2025-08,全离线)自建全控(数据不出栈)
框架耦合框架无关(Strands/LangGraph/CrewAI/ADK 都托管)M365/Copilot 深耦合Gemini 深耦合完全自主
起步速度天级天级天级周-月级

AISA 选型顺序(铁律):现有云与身份栈 → 数据所在地 → 合规 → M365 耦合 → 定价与 eval 成熟度。注意 eval 成熟度排在最后但对 AML 最关键:Foundry Evaluations 已 GA(2026-03)、AgentCore Evaluations 仍 preview、Snowflake 走 GPA(Goal-Plan-Action,arXiv 2510.08847,95% 错误检出 1.8× baseline)——对一个必须向监管交代「每个 SAR 决策可辩护」的产品,eval 是否 GA 直接决定能不能上线。

第二步:同构 TCO(接 Day 110 B 节)。买与自建写成可比的两条线,强制摊入隐性成本:

$$\text{决策} = \arg\min\big[\ \text{TCO}{\text{buy}}(\text{token}{\text{另算}}+\text{观测}{\text{无上限}}+\text{12组件}),\ \ \text{TCO}{\text{build}}(\text{GPU}+\underbrace{\text{运维}{25\text{-}30%}}{\text{隐性大头}})\ \big]\ \ \text{s.t.}\ \ \text{合规约束}$$

约束项 s.t. 合规约束 是关键——它让最小化在某些客户身上直接失效:当数据驻留/HIPAA/air-gapped 成硬约束时,托管选项被约束剔除出可行域argmin 退化为「自建/VPC 私有化」,与 token 量级无关。

第三步:逐层决策树(本日核心交付,HIPAA/数据驻留代入)。不是一棵树,是对每一层各跑一遍:

对技术栈每一层 L ∈ {模型推理, 工具网关, 策略授权, 身份, 记忆, 评估, 观测}:
  │
  ├─ Q1: 这一层处理 PHI/SAR/PII 且要求数据驻留/air-gapped?
  │     是 → 该层必须 build 或 VPC 私有化(合规剔除托管,与成本无关)
  │     否 → 进 Q2
  │
  ├─ Q2: 这一层是安全敏感的授权/凭证层(身份/策略)?
  │     是 → buy(自建=安全负债;Identity 尤其不碰)
  │     否 → 进 Q3
  │
  ├─ Q3: 这一层是产品差异化核心(成本旋钮/业务规则/eval 口径)?
  │     是 → build(缓存策略/judge 口径/业务策略要握在手里)
  │     否 → 进 Q4
  │
  └─ Q4: 该层流量过 break-even (chat≥1.2B/code≥600M token/月) 且有专职工程师?
        是 → build(3-7× 省,前提工程师在位)
        否 → buy(默认,把工程师留给差异化)

把 AML Copilot 代入这棵树,得到一个混合配置(这正是 interexy「线穿过你自己的栈」的落地):

AML Copilot 决策走哪条
模型推理数据驻留要求 → build/VPC(SAR 含 PII 不出行)Q1 是
身份buy(token 保险库自建=安全负债)Q2 是
策略授权buy(Policy 实时无遗漏拦截,自建漏拦=合规事故)Q2 是
工具网关buy(协议转换+授权太重)Q3 否→Q4 否
评估 judgebuild(faithfulness/coverage/submittable 口径是产品核心,P1 已建)Q3 是
成本计量build($/案件 是产品核心数字,P2/Day89 已建)Q3 是
记忆buy 或 hybrid(看证据包数据是否驻留)Q1/Q4

反直觉洞察①(build-vs-buy 不是一道二选题,是七道逐层题):直觉是「我要么自建平台、要么买平台」。但 2026 的真相是 build/buy 的线穿过你自己的技术栈——同一个 AML Copilot,模型推理层因数据驻留要 build、身份层因安全要 buy、eval 层因产品差异化要 build、网关层因太重要 buy。把它当一道二选题,必然要么过度自建(在身份层埋安全负债)、要么过度购买(把 eval 口径这种产品核心外包掉、丧失差异化)。 架构判断力 = 对每一层单独跑决策树的能力,不是对整个平台投一票。

B. 下半骨架收尾:从决策树到 liability allocation

长文#6 下半(4-6 节)骨架:

├─ 4. TCO:买 vs 自建同构公式 + 隐性成本           ← Day 110 B 节
│     token 另算 / 观测无上限 / 运维 25-30%(常吃掉省下的 API 费)
├─ 5. 8 维选型矩阵 + 逐层决策树                    ← 本日 A 节
│     HIPAA/数据驻留代入 → AML Copilot 混合配置
├─ 6. 终极视角:build-vs-buy 是"责任归属"问题       ← 本日(收尾升华)
│     interexy:金融场景 build-vs-buy 本质是 liability allocation
│     "who pays when an agent hallucinates a regulatory deadline"
└─ 结语:自建不是为省钱,是为获得"逐层判断该买该建"的能力

第 6 节是全文升华。interexy(2026)把金融场景的 build-vs-buy 钉成责任归属问题:「the way you answer it determines who pays when an agent hallucinates a regulatory deadline」——你买托管,等于把「agent 出错谁担责」部分转移给厂商(BAA/DPA/SLA);你自建,等于自己全担。对 AML Copilot 这种受 SR 11-7 模型风险 + 2026 修订(SR 26-2 / OCC Bulletin 2026-13,2026-04 美联储/OCC/FDIC 发布)约束的产品,「每个 agent 决策能否在监管面前辩护」这道 auditability 关,决定了哪些层你绝不敢外包——eval 口径、审计轨迹这种「要向 MLRO/监管交代」的层,必须自建自担、留全量证据(呼应 P3 Day 74/75 不可变审计轨迹)。

反直觉洞察②(买托管不是甩锅,是部分转移责任——但核心责任转不掉):直觉是「买托管就把锅甩给厂商了」。但金融场景下,BAA/SLA 只转移了「基础设施层」的责任(机房宕机、数据泄露厂商赔),「agent 做出了一个站不住脚的 SAR 判断」这个业务责任,永远在你(持牌机构)身上——监管罚的是银行,不是 AgentCore。所以哪怕全栈买托管,eval/审计/模型风险这几层的判断责任和举证责任也转不掉,必须自建能力去履行。这就是为什么 AML Copilot 的 eval judge 和审计轨迹层"必须 build"——不是为省钱,是因为这层的责任法律上转不掉。 一个候选人能说清「哪些层的责任可随托管转移、哪些层的责任法律上锁死在我这」,是 AISA 与「只会调 API 的人」的终极分水岭。

C. W16 周总结:P4 收官,作品③与求职叙事合龙

W16(Day 110-112)是 P4 的合龙周,也是整个 AIPA-120 的收官段。三天产出与状态:

Day产出状态对求职叙事的贡献
110v1 端到端冒烟 + build-vs-buy TCO平台 v1 合龙、TCO 公式立「我自建了平台且算清了它该不该自建」
111长文#6 初稿(逐层对应+防御纵深)上半成稿、组件对应表定「逐层拆解托管平台卖什么」= design taste
112长文#6 定稿 + 8 维矩阵+决策树 + 周总结长文封稿、P4 收官「build/buy 逐层判断 + 责任归属」= 架构判断力

P4 三条收束的求职叙事(对接 AISA 三层投递):

  1. 作品③(自建 agent 平台 v1)+ 长文#6:对接「真·全球远程 LangChain 类」JD——shipped 系统 + eval 数字 + 单位成本,外加「逐层 build/buy 判断力」。
  2. 作品②(AML Copilot,P1-P3):对接「金融 GenAI Architect」JD(Citi VP 类)——金融域 + 合规映射(EU AI Act/DORA/SR 11-7)+ $/案件单位经济。
  3. eval 框架能力(P1 judge 校准 + P4 选型矩阵 eval 维度):对接 Anthropic/LangChain SA JD 显式职责——「eval 框架设计」。

反直觉洞察③(P4 收官交付的不是"一个平台",是"一套判断框架"):直觉是 P4 的成果 = 作品③那个能跑的平台。但回看三个月,真正可迁移、可在面试复用的,是那套判断框架:单位成本三段分解(Day 89)、judge 校准 κ 闭环(Day 17)、逐层 build/buy 决策树(本日)、责任归属视角(本日)。平台会过时(托管平台半年改一次组件),但"如何逐层判断该买该建、如何算单位成本、如何校准 eval、哪些责任转不掉"这套框架不过时。 作品③是框架的载体,框架才是作品——这是 AIPA-120 全程「输出倒逼输入」的最终回报。

设计要点/决策表

要点决策理由
选型矩阵维度8 维(身份/记忆/网关/评估/定价/合规/框架耦合/速度)收敛 2026 第三方选型框架
选型顺序云与身份栈→数据驻留→合规→M365 耦合→定价/eval 成熟度AISA 铁律,eval 成熟度对 AML 最关键
决策粒度逐层跑决策树,非整平台一票build/buy 线穿过自己技术栈
合规约束数据驻留/HIPAA → 剔除托管,与成本无关argmin s.t. 合规约束退化为 build/VPC
不可转移责任eval/审计/模型风险层必须 buildliability 法律上锁死在持牌机构
长文升华build-vs-buy = 责任归属问题interexy 金融框架,对接 SR 11-7/SR 26-2
P4 收官交付「一套判断框架」而非「一个平台」平台会过时,框架不过时

对本项目的落地

  • docs/aipa/longform6-build-vs-buy.md 定稿(补 4-6 节 + 结语):接 Day 111 上半,补 TCO(Day 110 B)+ 8 维矩阵 + 逐层决策树 + 责任归属升华。全文头注标「2026-06 定价/GA 口径,投递当周复核三家组件 GA 状态」。这是作品③的叙事主文档。
  • 逐层决策树落成 src/agent/README 的「build/buy ADR」:把 A 节决策树 + AML Copilot 混合配置表写进 README,作为「这个自建平台在生产里哪些层我会换成托管」的显式架构决策记录。指向真实层文件(推理层、policyGate.tstoolRegistry.ts、P1 judge、budget.tsmemory/)。
  • 8 维矩阵进求职作品集索引:在 docs/MASTER_PORTFOLIO.md 或 P4 收官页登记长文#6 + 8 维矩阵,作为对接 AISA 三层投递(LangChain 类/金融 GenAI/lab FDE)的「平台选型 + build/buy 判断」物料。
  • W16 周总结写进 P4 phase summary:登记 Day 110-112 产出与 P4 收官状态,把 C 节「三条求职叙事 + 不过时的判断框架」作为 AIPA-120 全程收尾。
  • 诚实标注:A 节矩阵所有 GA/preview/定价(Foundry Memory preview、AgentCore Evals preview、Gemini Memory Bank GA、$0.0864/vCPU·h)均为 2026-06 口径,投递当周必复核(preview→GA 变动快);AML Copilot 混合配置是设计决策非生产部署(本项目无真实托管集成),README 须标限定语,延续全程诚信纪律。

参考资料

  1. interexy — Build vs Buy: AI Agent Platform for Financial Services – A Strategic Decision Framework(2026,正文经 WebSearch 摘要核实,原页 WebFetch 返回 403):金融场景 build-vs-buy 本质是 liability allocation——「determines who pays when an agent hallucinates a regulatory deadline」;「build vs buy line runs through your own stack, choose which side each layer falls on」;auditability 须能 90 天内向监管辩护每个决策;SR 26-2 / OCC Bulletin 2026-13(2026-04 Fed/OCC/FDIC 修订模型风险指引)/ SR 11-7
  2. ampcome — CIO's Guide to Enterprise AI Agent Platform Selection(2026-04-22):五非协商项(系统集成/治理审计/多 agent 编排/上线速度/合规姿态);「compliance posture is a procurement gate」;build/buy/assemble 三分;数据驻留「data processed in Europe stays in Europe」+ on-prem/私有云
  3. Snowflake / arXiv 2510.08847 — What Is Your Agent's GPA? Goal-Plan-Action Alignment(2026):GPA 五指标(Goal Fulfillment/Logical Consistency/Execution Efficiency/Plan Quality/Plan Adherence);95% 错误检出(1.8× baseline)、86% 定位(vs 49%);开源于 TruLens
  4. Microsoft Foundry Blog — What's new in Microsoft Foundry (Mar 2026) / Build 2026 open trust stack(2026-03/2026-06):Foundry Evaluations GA(2026-03),agent eval 仍 preview;Hosted Agents GA(scale-to-zero 容器小时计费);MAF 1.0 开放 evals + control standard
  5. agentmarketcap / linesncircles — Enterprise Agent Platforms 2026 比较(2026-04):Foundry Memory preview、Gemini Memory Bank GA(2025-12);模型 token 主导成本 10-100×,三家 compute 差异 <2-3%;Fortune 500 多栈并存(Foundry IT 流程 / Agentforce 客服 / AgentCore 工程师自建)
  6. 本仓物证:src/agent/(全套自建装置)、src/aml/(judge/审计/eval baseline,P1/P3)、docs/MASTER_PORTFOLIO.mddocs/aipa/day89-unit-cost.mdday17-judge-calibration.mdday110-platform-v1-tco.mdday111-longform6-draft.md(2026-06)

SOTA 检查 (2026-06-11)

注:本笔记日历日为 2026-10-04;事实核查与一手原文检索(ampcome、Snowflake GPA、Foundry Blog;interexy 经 WebSearch 摘要核实,原页 403)在 2026-06-11 完成。8 维矩阵的 GA/preview/定价为 2026-06 口径,投递当周须逐项复核

  • 「build/buy 线穿过自己技术栈、逐层判断」是 2026-06 主流框架:interexy、ampcome(build/buy/assemble 三分)口径一致——hybrid 是主流(KPMG 称 57% 组织偏好混合,环比升)。本日逐层决策树与此对齐,非整平台一票。
  • eval 成熟度是 2026-06 三家最大分化点:Foundry Evaluations GA(2026-03)领先,AgentCore Evaluations 仍 preview,Snowflake 走 GPA(research-backed,arXiv 2510.08847)——对受监管 AML 产品,eval 是否 GA 直接决定能否上线,矩阵把它列为对 AML 最关键维度。投递当周须复核 AgentCore Evals 是否转 GA。
  • 合规作为「procurement gate」在 2026 收紧:ampcome「compliance posture is a procurement gate」、数据驻留剔除托管——对 AML/SAR(含 PII,受 SR 11-7/SR 26-2)这是硬约束非财务选择,强化反直觉①(合规层必 build/VPC)。
  • 责任归属视角是 live 的金融架构认知:interexy 把 build-vs-buy 钉成 liability allocation——BAA/SLA 转移基础设施责任,但 SAR 判断的业务/举证责任锁死在持牌机构(反直觉②)。SR 26-2/OCC 2026-13 是 2026-04 新规,投递当周须确认最新生效状态。
  • 过时认知警示:(1) 不可把 build/buy 当二选题——是逐层七道题(反直觉①);(2) 不可把买托管当甩锅——核心 eval/审计/模型风险责任转不掉(反直觉②);(3) 矩阵 GA/preview/品牌名变动快(Google 已更名 Gemini Enterprise Agent Platform),投递材料须标 2026-06 口径 + 当周复核。
  • 待跟踪(投递当周必做):复核 AgentCore Evaluations/Policy/Payments GA 状态与计价、Foundry agent eval 是否转 GA、Gemini Enterprise 最新组件名;用本项目 v1 实测 token 量代入决策树验证 AML Copilot 混合配置;确认 SR 26-2/OCC Bulletin 2026-13 生效细则,把「不可转移责任层」清单写进长文#6 与 README 的 ADR。