长文#6 定稿 + W16 周总结 — build/buy 的线,不在你和厂商之间,在你自己技术栈的每一层
长文#6 定稿 + W16 周总结 — build/buy 的线,不在你和厂商之间,在你自己技术栈的每一层
日期: 2026-10-04 阶段: Phase 4 - 自建 Agent 平台×求职冲刺 标签: #longform6-final #decision-tree #week16-summary
核心问题
Day 111 起草了长文#6 上半(逐层对应 + 防御纵深)。今天收尾下半,把整篇定稿,并做 W16 周总结。下半要回答最难的一问:
「给定一个具体客户,怎么逐层决定哪层 build、哪层 buy?把 HIPAA / 数据驻留代进去,决策树长什么样?」
关键认知翻转(Day 111 埋的伏笔):build-vs-buy 在 2026 不是「你 vs 厂商」的二选一,而是 interexy(2026)的那句——「the build vs buy line is no longer drawn between you and a vendor; it runs through your own stack, and you get to choose which side each layer falls on」。所以决策树不是一棵「全建 or 全买」的树,而是对每一层各跑一遍。今天产出:8 维选型矩阵 + 同构 TCO + 逐层决策树(HIPAA/数据驻留代入),收尾长文,封 P4。
关键内容
A. 8 维选型矩阵 + TCO + 逐层决策树
第一步:8 维选型矩阵。把 Day 110/111 散落的判据收成一张可操作的矩阵——三家托管(AgentCore / Foundry / Gemini Enterprise)+ 自建,沿 8 维打分。维度取自 2026 第三方选型框架(ampcome 2026-04「五非协商项」+ AISA 选型顺序):
| 维度 | AgentCore(AWS) | Foundry(MS) | Gemini Enterprise(Google) | 自建(self-host) |
|---|---|---|---|---|
| 身份授权 | token 保险库最灵活(OAuth 3LO/2LO) | Entra Agent ID(每 agent 一身份) | Google IAM 原生 | 自建=安全负债(不建议) |
| 记忆 | GA(managed/self-managed 双策略) | Foundry Memory 仍 preview | Memory Bank GA(2025-12) | 自建向量库(运维重) |
| 工具网关 | Gateway(REST/Lambda→MCP+语义搜索) | MAF + MCP | ADK + A2A v1.2 | toolRegistry 最小形 |
| 评估 | Evaluations preview(13 评估器) | Evaluations GA(2026-03,agent eval 仍 preview) | (Vertex eval) | 自建 judge(P1 已建) |
| 定价 | ~12 计费组件,纯消耗 | Hosted Agents scale-to-zero 小时计费 | $0.0864/vCPU·h + $0.25/千事件 | GPU 租金+运维 |
| 合规 | HIPAA eligible(2026-02-10)+VPC/PrivateLink | Sovereign Private Cloud / Foundry Local | GDC air-gapped GA(2025-08,全离线) | 自建全控(数据不出栈) |
| 框架耦合 | 框架无关(Strands/LangGraph/CrewAI/ADK 都托管) | M365/Copilot 深耦合 | Gemini 深耦合 | 完全自主 |
| 起步速度 | 天级 | 天级 | 天级 | 周-月级 |
AISA 选型顺序(铁律):现有云与身份栈 → 数据所在地 → 合规 → M365 耦合 → 定价与 eval 成熟度。注意 eval 成熟度排在最后但对 AML 最关键:Foundry Evaluations 已 GA(2026-03)、AgentCore Evaluations 仍 preview、Snowflake 走 GPA(Goal-Plan-Action,arXiv 2510.08847,95% 错误检出 1.8× baseline)——对一个必须向监管交代「每个 SAR 决策可辩护」的产品,eval 是否 GA 直接决定能不能上线。
第二步:同构 TCO(接 Day 110 B 节)。买与自建写成可比的两条线,强制摊入隐性成本:
$$\text{决策} = \arg\min\big[\ \text{TCO}{\text{buy}}(\text{token}{\text{另算}}+\text{观测}{\text{无上限}}+\text{12组件}),\ \ \text{TCO}{\text{build}}(\text{GPU}+\underbrace{\text{运维}{25\text{-}30%}}{\text{隐性大头}})\ \big]\ \ \text{s.t.}\ \ \text{合规约束}$$
约束项 s.t. 合规约束 是关键——它让最小化在某些客户身上直接失效:当数据驻留/HIPAA/air-gapped 成硬约束时,托管选项被约束剔除出可行域,argmin 退化为「自建/VPC 私有化」,与 token 量级无关。
第三步:逐层决策树(本日核心交付,HIPAA/数据驻留代入)。不是一棵树,是对每一层各跑一遍:
对技术栈每一层 L ∈ {模型推理, 工具网关, 策略授权, 身份, 记忆, 评估, 观测}:
│
├─ Q1: 这一层处理 PHI/SAR/PII 且要求数据驻留/air-gapped?
│ 是 → 该层必须 build 或 VPC 私有化(合规剔除托管,与成本无关)
│ 否 → 进 Q2
│
├─ Q2: 这一层是安全敏感的授权/凭证层(身份/策略)?
│ 是 → buy(自建=安全负债;Identity 尤其不碰)
│ 否 → 进 Q3
│
├─ Q3: 这一层是产品差异化核心(成本旋钮/业务规则/eval 口径)?
│ 是 → build(缓存策略/judge 口径/业务策略要握在手里)
│ 否 → 进 Q4
│
└─ Q4: 该层流量过 break-even (chat≥1.2B/code≥600M token/月) 且有专职工程师?
是 → build(3-7× 省,前提工程师在位)
否 → buy(默认,把工程师留给差异化)
把 AML Copilot 代入这棵树,得到一个混合配置(这正是 interexy「线穿过你自己的栈」的落地):
| 层 | AML Copilot 决策 | 走哪条 |
|---|---|---|
| 模型推理 | 数据驻留要求 → build/VPC(SAR 含 PII 不出行) | Q1 是 |
| 身份 | buy(token 保险库自建=安全负债) | Q2 是 |
| 策略授权 | buy(Policy 实时无遗漏拦截,自建漏拦=合规事故) | Q2 是 |
| 工具网关 | buy(协议转换+授权太重) | Q3 否→Q4 否 |
| 评估 judge | build(faithfulness/coverage/submittable 口径是产品核心,P1 已建) | Q3 是 |
| 成本计量 | build($/案件 是产品核心数字,P2/Day89 已建) | Q3 是 |
| 记忆 | buy 或 hybrid(看证据包数据是否驻留) | Q1/Q4 |
反直觉洞察①(build-vs-buy 不是一道二选题,是七道逐层题):直觉是「我要么自建平台、要么买平台」。但 2026 的真相是 build/buy 的线穿过你自己的技术栈——同一个 AML Copilot,模型推理层因数据驻留要 build、身份层因安全要 buy、eval 层因产品差异化要 build、网关层因太重要 buy。把它当一道二选题,必然要么过度自建(在身份层埋安全负债)、要么过度购买(把 eval 口径这种产品核心外包掉、丧失差异化)。 架构判断力 = 对每一层单独跑决策树的能力,不是对整个平台投一票。
B. 下半骨架收尾:从决策树到 liability allocation
长文#6 下半(4-6 节)骨架:
├─ 4. TCO:买 vs 自建同构公式 + 隐性成本 ← Day 110 B 节
│ token 另算 / 观测无上限 / 运维 25-30%(常吃掉省下的 API 费)
├─ 5. 8 维选型矩阵 + 逐层决策树 ← 本日 A 节
│ HIPAA/数据驻留代入 → AML Copilot 混合配置
├─ 6. 终极视角:build-vs-buy 是"责任归属"问题 ← 本日(收尾升华)
│ interexy:金融场景 build-vs-buy 本质是 liability allocation
│ "who pays when an agent hallucinates a regulatory deadline"
└─ 结语:自建不是为省钱,是为获得"逐层判断该买该建"的能力
第 6 节是全文升华。interexy(2026)把金融场景的 build-vs-buy 钉成责任归属问题:「the way you answer it determines who pays when an agent hallucinates a regulatory deadline」——你买托管,等于把「agent 出错谁担责」部分转移给厂商(BAA/DPA/SLA);你自建,等于自己全担。对 AML Copilot 这种受 SR 11-7 模型风险 + 2026 修订(SR 26-2 / OCC Bulletin 2026-13,2026-04 美联储/OCC/FDIC 发布)约束的产品,「每个 agent 决策能否在监管面前辩护」这道 auditability 关,决定了哪些层你绝不敢外包——eval 口径、审计轨迹这种「要向 MLRO/监管交代」的层,必须自建自担、留全量证据(呼应 P3 Day 74/75 不可变审计轨迹)。
反直觉洞察②(买托管不是甩锅,是部分转移责任——但核心责任转不掉):直觉是「买托管就把锅甩给厂商了」。但金融场景下,BAA/SLA 只转移了「基础设施层」的责任(机房宕机、数据泄露厂商赔),「agent 做出了一个站不住脚的 SAR 判断」这个业务责任,永远在你(持牌机构)身上——监管罚的是银行,不是 AgentCore。所以哪怕全栈买托管,eval/审计/模型风险这几层的判断责任和举证责任也转不掉,必须自建能力去履行。这就是为什么 AML Copilot 的 eval judge 和审计轨迹层"必须 build"——不是为省钱,是因为这层的责任法律上转不掉。 一个候选人能说清「哪些层的责任可随托管转移、哪些层的责任法律上锁死在我这」,是 AISA 与「只会调 API 的人」的终极分水岭。
C. W16 周总结:P4 收官,作品③与求职叙事合龙
W16(Day 110-112)是 P4 的合龙周,也是整个 AIPA-120 的收官段。三天产出与状态:
| Day | 产出 | 状态 | 对求职叙事的贡献 |
|---|---|---|---|
| 110 | v1 端到端冒烟 + build-vs-buy TCO | 平台 v1 合龙、TCO 公式立 | 「我自建了平台且算清了它该不该自建」 |
| 111 | 长文#6 初稿(逐层对应+防御纵深) | 上半成稿、组件对应表定 | 「逐层拆解托管平台卖什么」= design taste |
| 112 | 长文#6 定稿 + 8 维矩阵+决策树 + 周总结 | 长文封稿、P4 收官 | 「build/buy 逐层判断 + 责任归属」= 架构判断力 |
P4 三条收束的求职叙事(对接 AISA 三层投递):
- 作品③(自建 agent 平台 v1)+ 长文#6:对接「真·全球远程 LangChain 类」JD——shipped 系统 + eval 数字 + 单位成本,外加「逐层 build/buy 判断力」。
- 作品②(AML Copilot,P1-P3):对接「金融 GenAI Architect」JD(Citi VP 类)——金融域 + 合规映射(EU AI Act/DORA/SR 11-7)+ $/案件单位经济。
- eval 框架能力(P1 judge 校准 + P4 选型矩阵 eval 维度):对接 Anthropic/LangChain SA JD 显式职责——「eval 框架设计」。
反直觉洞察③(P4 收官交付的不是"一个平台",是"一套判断框架"):直觉是 P4 的成果 = 作品③那个能跑的平台。但回看三个月,真正可迁移、可在面试复用的,是那套判断框架:单位成本三段分解(Day 89)、judge 校准 κ 闭环(Day 17)、逐层 build/buy 决策树(本日)、责任归属视角(本日)。平台会过时(托管平台半年改一次组件),但"如何逐层判断该买该建、如何算单位成本、如何校准 eval、哪些责任转不掉"这套框架不过时。 作品③是框架的载体,框架才是作品——这是 AIPA-120 全程「输出倒逼输入」的最终回报。
设计要点/决策表
| 要点 | 决策 | 理由 |
|---|---|---|
| 选型矩阵维度 | 8 维(身份/记忆/网关/评估/定价/合规/框架耦合/速度) | 收敛 2026 第三方选型框架 |
| 选型顺序 | 云与身份栈→数据驻留→合规→M365 耦合→定价/eval 成熟度 | AISA 铁律,eval 成熟度对 AML 最关键 |
| 决策粒度 | 逐层跑决策树,非整平台一票 | build/buy 线穿过自己技术栈 |
| 合规约束 | 数据驻留/HIPAA → 剔除托管,与成本无关 | argmin s.t. 合规约束退化为 build/VPC |
| 不可转移责任 | eval/审计/模型风险层必须 build | liability 法律上锁死在持牌机构 |
| 长文升华 | build-vs-buy = 责任归属问题 | interexy 金融框架,对接 SR 11-7/SR 26-2 |
| P4 收官交付 | 「一套判断框架」而非「一个平台」 | 平台会过时,框架不过时 |
对本项目的落地
docs/aipa/longform6-build-vs-buy.md定稿(补 4-6 节 + 结语):接 Day 111 上半,补 TCO(Day 110 B)+ 8 维矩阵 + 逐层决策树 + 责任归属升华。全文头注标「2026-06 定价/GA 口径,投递当周复核三家组件 GA 状态」。这是作品③的叙事主文档。- 逐层决策树落成
src/agent/README的「build/buy ADR」:把 A 节决策树 + AML Copilot 混合配置表写进 README,作为「这个自建平台在生产里哪些层我会换成托管」的显式架构决策记录。指向真实层文件(推理层、policyGate.ts、toolRegistry.ts、P1 judge、budget.ts、memory/)。 - 8 维矩阵进求职作品集索引:在
docs/MASTER_PORTFOLIO.md或 P4 收官页登记长文#6 + 8 维矩阵,作为对接 AISA 三层投递(LangChain 类/金融 GenAI/lab FDE)的「平台选型 + build/buy 判断」物料。 - W16 周总结写进 P4 phase summary:登记 Day 110-112 产出与 P4 收官状态,把 C 节「三条求职叙事 + 不过时的判断框架」作为 AIPA-120 全程收尾。
- 诚实标注:A 节矩阵所有 GA/preview/定价(Foundry Memory preview、AgentCore Evals preview、Gemini Memory Bank GA、$0.0864/vCPU·h)均为 2026-06 口径,投递当周必复核(preview→GA 变动快);AML Copilot 混合配置是设计决策非生产部署(本项目无真实托管集成),README 须标限定语,延续全程诚信纪律。
参考资料
- interexy — Build vs Buy: AI Agent Platform for Financial Services – A Strategic Decision Framework(2026,正文经 WebSearch 摘要核实,原页 WebFetch 返回 403):金融场景 build-vs-buy 本质是 liability allocation——「determines who pays when an agent hallucinates a regulatory deadline」;「build vs buy line runs through your own stack, choose which side each layer falls on」;auditability 须能 90 天内向监管辩护每个决策;SR 26-2 / OCC Bulletin 2026-13(2026-04 Fed/OCC/FDIC 修订模型风险指引)/ SR 11-7
- ampcome — CIO's Guide to Enterprise AI Agent Platform Selection(2026-04-22):五非协商项(系统集成/治理审计/多 agent 编排/上线速度/合规姿态);「compliance posture is a procurement gate」;build/buy/assemble 三分;数据驻留「data processed in Europe stays in Europe」+ on-prem/私有云
- Snowflake / arXiv 2510.08847 — What Is Your Agent's GPA? Goal-Plan-Action Alignment(2026):GPA 五指标(Goal Fulfillment/Logical Consistency/Execution Efficiency/Plan Quality/Plan Adherence);95% 错误检出(1.8× baseline)、86% 定位(vs 49%);开源于 TruLens
- Microsoft Foundry Blog — What's new in Microsoft Foundry (Mar 2026) / Build 2026 open trust stack(2026-03/2026-06):Foundry Evaluations GA(2026-03),agent eval 仍 preview;Hosted Agents GA(scale-to-zero 容器小时计费);MAF 1.0 开放 evals + control standard
- agentmarketcap / linesncircles — Enterprise Agent Platforms 2026 比较(2026-04):Foundry Memory preview、Gemini Memory Bank GA(2025-12);模型 token 主导成本 10-100×,三家 compute 差异 <2-3%;Fortune 500 多栈并存(Foundry IT 流程 / Agentforce 客服 / AgentCore 工程师自建)
- 本仓物证:
src/agent/(全套自建装置)、src/aml/(judge/审计/eval baseline,P1/P3)、docs/MASTER_PORTFOLIO.md、docs/aipa/day89-unit-cost.md、day17-judge-calibration.md、day110-platform-v1-tco.md、day111-longform6-draft.md(2026-06)
SOTA 检查 (2026-06-11)
注:本笔记日历日为 2026-10-04;事实核查与一手原文检索(ampcome、Snowflake GPA、Foundry Blog;interexy 经 WebSearch 摘要核实,原页 403)在 2026-06-11 完成。8 维矩阵的 GA/preview/定价为 2026-06 口径,投递当周须逐项复核。
- 「build/buy 线穿过自己技术栈、逐层判断」是 2026-06 主流框架:interexy、ampcome(build/buy/assemble 三分)口径一致——hybrid 是主流(KPMG 称 57% 组织偏好混合,环比升)。本日逐层决策树与此对齐,非整平台一票。
- eval 成熟度是 2026-06 三家最大分化点:Foundry Evaluations GA(2026-03)领先,AgentCore Evaluations 仍 preview,Snowflake 走 GPA(research-backed,arXiv 2510.08847)——对受监管 AML 产品,eval 是否 GA 直接决定能否上线,矩阵把它列为对 AML 最关键维度。投递当周须复核 AgentCore Evals 是否转 GA。
- 合规作为「procurement gate」在 2026 收紧:ampcome「compliance posture is a procurement gate」、数据驻留剔除托管——对 AML/SAR(含 PII,受 SR 11-7/SR 26-2)这是硬约束非财务选择,强化反直觉①(合规层必 build/VPC)。
- 责任归属视角是 live 的金融架构认知:interexy 把 build-vs-buy 钉成 liability allocation——BAA/SLA 转移基础设施责任,但 SAR 判断的业务/举证责任锁死在持牌机构(反直觉②)。SR 26-2/OCC 2026-13 是 2026-04 新规,投递当周须确认最新生效状态。
- 过时认知警示:(1) 不可把 build/buy 当二选题——是逐层七道题(反直觉①);(2) 不可把买托管当甩锅——核心 eval/审计/模型风险责任转不掉(反直觉②);(3) 矩阵 GA/preview/品牌名变动快(Google 已更名 Gemini Enterprise Agent Platform),投递材料须标 2026-06 口径 + 当周复核。
- 待跟踪(投递当周必做):复核 AgentCore Evaluations/Policy/Payments GA 状态与计价、Foundry agent eval 是否转 GA、Gemini Enterprise 最新组件名;用本项目 v1 实测 token 量代入决策树验证 AML Copilot 混合配置;确认 SR 26-2/OCC Bulletin 2026-13 生效细则,把「不可转移责任层」清单写进长文#6 与 README 的 ADR。