方法论

AIPA 长文#6：自建一个 mini agent 平台，然后拿它对标 AgentCore/Foundry/Agent Engine：一次 build-vs-buy 解剖

日期：2026-10-04

2026-10-04

186 行AIPA_LONGFORM_6_BUILD_VS_BUY.md

自建一个 mini agent 平台，然后拿它对标 AgentCore/Foundry/Agent Engine：一次 build-vs-buy 解剖

日期：2026-10-04

AIPA 长文#6。先动手自建一个最小可用的 agent 平台（工具网关 / 策略引擎 / 会话运行时 / 计量四组件），再把它逐组件对标三大托管平台——AWS Bedrock AgentCore（2025-10 GA）、Microsoft Foundry Agent Service（2026-03 GA）、Google Vertex AI Agent Engine（2025-12 更新）。最后用 8 维选型矩阵 + TCO 模型 + 决策树，回答 AISA（AI Solution Architect）必须能回答的那个问题：到底该 build 还是该 buy。

引言：为什么 AISA 必须能亲手做 build-vs-buy 论证

一个 AI 解决方案架构师（AISA）在企业里被问得最多、也最难答好的问题，从来不是"用哪个模型"，而是"agent 这一层的基础设施，我们自己造还是买托管的？"。这个问题之所以难，有三个结构性原因：

它不是技术问题，是经济与风险问题。自建的成本不在"写不写得出来"——一个工具网关加策略检查，一周能跑通 demo；成本在长期的运维人力、安全补丁、合规举证、可观测性基建。买托管的成本也不在标价——标价（vCPU-hour、每千次调用）往往只占总账单的一小块，token、观测、出口流量、长期记忆存储这些"隐性项"才是大头。只有把两边的**完全拥有成本（TCO）**摊开，论证才站得住。
三大平台 2025 下半年到 2026 上半年集中 GA，把"买"这条路彻底铺平了。一年前这个问题没法认真讨论，因为托管 agent 平台还都在 preview。但 AgentCore 在 2025-10 GA、Vertex Agent Engine 的 Sessions/Memory Bank 在 2025-12 转 GA、Foundry Agent Service 在 2026-03 GA——现在三家都有了生产级 SLA、私有网络、合规认证。"买"从一个赌注变成了一个可审计的采购决策。这意味着 AISA 再用"托管不成熟"来搪塞自建，已经站不住脚了。
不同客户的答案截然相反，且取决于非功能约束。一家做美国医疗的客户（HIPAA + 数据驻留）和一家做欧洲消费应用的初创，对同一个 agent 平台的 build-vs-buy 结论可能完全相反。AISA 的价值正在于：能把 HIPAA、GDPR 数据驻留、供应商锁定、退出成本这些约束，代入到一个可复现的决策树里，而不是凭品牌偏好拍脑袋。

要做出可信的论证，光看文档不够——你得自己造一遍。本文先动手搭一个最小 agent 平台（四个组件，能跑），用它建立对"这层基础设施到底包含什么"的肌肉记忆；然后把每个自建组件，对标三大托管平台的对应模块，看托管帮你省了什么、又锁了你什么；最后落到选型矩阵、TCO、决策树。下文所有引用均带发布月份（YYYY-MM），文末有 SOTA 检查。

一、自建四组件 vs 托管对应模块

一个能跑的 agent 平台，剥到最小，是四个组件。它们恰好与 AgentCore 的四个核心服务一一对应——这不是巧合，而是这一层基础设施的"自然关节"。

1.1 组件一：工具网关（Tool Gateway）

自建做什么：agent 不直接调外部 API，而是经过一个网关。网关负责：把异构后端（REST、数据库、内部微服务、MCP server）统一成一份工具清单（schema 化）；做工具发现（agent 问"我有哪些工具"）；统一鉴权（注入下游凭证）；统一限流和审计落盘。最小实现就是一个 Express/FastAPI 服务，维护一张 tools 注册表，对每个 invoke_tool(name, args) 做参数校验、调用、记日志。

[Agent] --invoke_tool--> [Tool Gateway]
                              |-- schema 校验
                              |-- 注入下游凭证 (per-user OAuth)
                              |-- 限流 / 审计落盘
                              `-- 路由到 REST / DB / MCP server

托管对应：AgentCore Gateway。它把 Lambda、OpenAPI、Smithy 模型、MCP server 自动转成 agent 可调用的工具，内置语义化工具发现（Search API，避免把几百个工具一次塞进 context）、凭证注入、Lambda interceptor（在调用前后插自定义逻辑）。计价：调用类 API（ListTools/InvokeTool）$0.005/千次，Search API $0.025/千次，工具索引 $0.02/每 100 工具/月（来源：AWS AgentCore Pricing，2025-10）。Foundry 这一层叫"tools/connectors + MCP"，Vertex 叫"Agent Builder tool governance"（2026 增强了工具治理，来源：Google Cloud Blog，2026）。

省了什么 / 锁了什么：托管帮你省掉"把 N 种后端协议统一成工具 schema"这件最琐碎、最容易出 bug 的脏活，以及语义化工具发现（自建要接向量检索）。锁的是：你的工具注册表格式、interceptor 写法都是平台私有的，迁移要重写。

1.2 组件二：策略引擎（Policy Engine）

自建做什么：在 agent 决定调用工具与真正执行之间，插一个确定性的授权层——独立于 LLM 的推理。它回答："这个 principal（用户/agent 身份），在这个 context（金额、数据分级、时段）下，能不能对这个 resource 执行这个 action？"。最小实现可以用 OPA（Open Policy Agent）写 Rego 规则，或直接用 Cedar 引擎（开源）。关键是禁止把授权交给 prompt——"请不要转账超过 1 万"写在 prompt 里不是控制，写成 forbid(action==transfer) when amount > 10000 才是。

托管对应：AgentCore Policy，用 Cedar 策略语言，把自然语言业务规则编译成 permit/forbid 规则，在 Gateway 调用工具时做身份感知的细粒度访问控制（FGAC）。2026-03 GA（来源：AWS ML Blog，2026-03）。计价：$0.000025/次授权请求 + $0.13/千输入 token（自然语言→Cedar 编译用，来源：AWS AgentCore Pricing，2025-10）。Foundry 走 Entra RBAC + 每 agent 一个 Entra ID 的 agent identity（来源：Microsoft Foundry Blog，2026-03）。Vertex 走 IAM + Tool Governance。

省了什么 / 锁了什么：托管省掉策略引擎的运维和与身份系统的集成（AgentCore Policy 自动和 Identity 打通，Foundry 自动发 Entra ID）。但策略语言深度绑定平台：Cedar 规则迁不到 Foundry，Entra RBAC 也迁不到 AWS。这是供应商锁定最深的一层，因为它和企业的身份治理体系长在了一起。

1.3 组件三：会话运行时（Session Runtime）

自建做什么：托管 agent 进程的执行环境——长会话状态、记忆、隔离、弹性伸缩。难点全在非功能性：每个会话要安全隔离（一个用户的会话不能读到另一个的）；agent 调外部 API 时会长时间 I/O 等待，运行时得支持长任务而不空烧 CPU；短期记忆（本轮上下文）和长期记忆（跨会话的用户偏好/事实）要分层存储。最小实现是给每个会话起一个隔离容器 + Redis 存短期态 + 向量库存长期记忆，但生产级的会话隔离和弹性伸缩，是自建里最难啃的骨头。

托管对应：AgentCore Runtime——每会话 microVM 隔离、最长 8 小时任务、按秒计费且 I/O 等待不计 CPU 费；Memory 分短期/长期。计价：Runtime $0.0895/vCPU-hour + $0.00945/GB-hour；短期记忆 $0.25/千事件，长期存储 $0.75/千记录/月（内置策略）或 $0.25（自管），检索 $0.50/千次（来源：AWS AgentCore Pricing，2025-10）。Vertex Agent Engine 的 Sessions/Memory Bank 2025-12 转 GA，runtime $0.0864/vCPU-hour，会话/记忆事件 $0.25/千，含 50 vCPU-hour + 100 GB-hour/月免费额度（来源：Google Cloud / Ivan Nardini，2025-12）。Foundry hosted agents 跑在客户专属容器里，内置伸缩/隔离/可观测，2026-04 起在 20 区域公开预览（来源：Microsoft Foundry Blog，2026-04）。

省了什么 / 锁了什么：这是托管价值最大的一层——生产级会话隔离、弹性、I/O-aware 计费、分层记忆，自建至少要一个团队维护半年。锁的是运行时 API 形态和记忆数据模型，但相对策略引擎，这层锁定较浅（agent 逻辑大多可移植）。

1.4 组件四：计量（Metering / Observability）

自建做什么：记录每次 agent 运行消耗了多少（token、工具调用、时长），既为成本归因（按团队/客户分摊），也为可观测（trace、评估、异常告警）。最小实现是结构化日志 + OpenTelemetry trace + 一张成本归因表。容易被低估，但没有计量，build-vs-buy 的 TCO 就算不出来——你连自己花了多少都不知道。

托管对应：AgentCore Observability（基于 CloudWatch，含 trace）、Foundry 的 full tracing + evaluation、Vertex 的内置可观测。三家都把 token 用量、工具调用、时延做成开箱即用的 dashboard。

省了什么 / 锁了什么：托管省掉自建 trace 管线。但要注意——观测本身也是要花钱的，且很多是按量无上限（CloudWatch 日志摄取、Foundry evaluation 调用）。这正是下文 TCO 里的隐性成本之一。

二、8 维选型矩阵

把自建与三大托管平台放在 8 个维度上对照。版本/时点：AgentCore（2025-10 GA）、Foundry Agent Service（2026-03 GA，hosted agents 2026-04 预览）、Vertex Agent Engine（2025-12 Sessions/Memory GA）。

表 1：8 维选型矩阵（量化表 ①）

维度	自建 mini 平台	AgentCore (2025-10)	Foundry Agent Service (2026-03)	Vertex Agent Engine (2025-12)
运行时计价	自付 K8s/EC2 全额（含 I/O 空烧）	$0.0895/vCPU-h + $0.00945/GB-h，I/O 等待不计费	hosted agents 专属容器，runtime 本身不另收（按底层算力）	$0.0864/vCPU-h，50 vCPU-h+100GB-h/月免费
工具网关	自建注册表+发现	Gateway：调用 $0.005/千、Search $0.025/千、索引 $0.02/百工具/月	tools/connectors + MCP，无独立网关费	Agent Builder + Tool Governance（2026 增强）
策略引擎	OPA/Cedar 自部署	Policy（Cedar）GA 2026-03，$0.000025/次+$0.13/千 token	Entra RBAC + per-agent Entra ID	IAM + Tool Governance
会话/记忆	自建隔离+Redis+向量库	microVM 隔离、≤8h 任务、短期 $0.25/千、长期 $0.25–0.75/千/月	专属容器隔离、内置伸缩	Sessions/Memory GA，事件 $0.25/千
身份集成	自接 IdP	Identity（含免费层，经 Runtime/Gateway 免费）	原生 Entra ID（最强企业身份）	Google IAM
可观测/评估	自建 OTel+dashboard	Observability（CloudWatch，按量）	full tracing + 企业级 evaluation	内置可观测
私有网络/合规	自己搭，自己举证	VPC/PrivateLink/CloudFormation/标签（GA 起全支持）	私有网络 + Entra RBAC（2026-03 GA 带私网）	VPC-SC
框架开放度	任意（你自己定）	任意框架/模型（Strands/LangGraph/CrewAI 皆可）	Microsoft Agent Framework/LangGraph 等外部框架 hosted	ADK + 任意框架

读表三条结论：(1) 三家计价口径不同——AWS 把每个组件单独标价、最"透明"也最易超预期；Foundry"runtime 不另收、按 token+工具收"，账单更集中在模型侧；Vertex 给了实打实的免费层，适合起步。(2) 身份/策略层是锁定最深处：Foundry 的 Entra、AWS 的 Cedar+Identity 都和各自云的 IAM 长在一起。(3) 框架开放度三家都已打开——"买托管就被框架绑死"这个 2024 年的顾虑，2026 年已基本不成立。

三、Build-vs-Buy TCO：把隐性成本摊开

标价是冰山一角。真正决定 TCO 的是隐性成本。下面用一个具体场景算一笔：中等规模金融 AI 投顾 agent，10 万次会话/月，每次会话约 8K input + 2K output token，10 次工具调用，平均运行 30s（2 vCPU、4GB）。

3.1 三类隐性成本

Token 另算：三大平台的平台费都不含模型 token。Foundry 明确"Agent Service 本身不额外收费，但 token 和工具单独计费"（来源：Azure Pricing，2026）；Vertex/AWS 同理。token 往往是总账单最大头——这意味着无论 build 还是 buy，模型成本是共同的底盘，不应计入 build-vs-buy 的差额（除非托管强制绑定更贵的模型）。
观测费无上限：CloudWatch 日志摄取、Foundry evaluation 调用、trace 存储，都是按量、无封顶。一个 chatty 的 agent 把每步 reasoning 都落盘，观测费可能逼近运行时费。
运维人力：自建这一侧最大的隐性成本。生产级会话隔离、安全补丁、合规举证（SOC2/HIPAA 证据链）、7×24 on-call——按一个 2-3 人平台小组、北美全载成本，年 60-90 万美元量级。这笔钱在标价表里完全看不见，却常常是 build-vs-buy 的决定性变量。

3.2 月度成本估算（量化表 ②）

下表只算平台层差额（token 两边相同，不计入对比），单位美元/月，数量级估算：

成本项	自建（自管 K8s）	买托管（AgentCore 口径）
运行时算力	10万次×30s×2vCPU = 1667 vCPU-h；按 EC2 含 I/O 空烧 ≈ $250	1667 vCPU-h×$0.0895 + 内存，I/O 不计 ≈ $170
工具网关	含在自建算力里（≈$0）	100万次调用×$0.005/千 ≈ $5
策略引擎	OPA 自部署，含在算力里（≈$0）	100万次×$0.000025 + 编译 token ≈ $25–50
短期+长期记忆	自建 Redis+向量库 ≈ $80	事件+存储+检索 ≈ $150–300
可观测	自建 OTel 栈 ≈ $60	CloudWatch 按量 ≈ $100–250（无上限）
小计（平台层）	≈ $450/月	≈ $450–780/月
运维人力（摊月）	2.5 人 × $70 万/年 ÷ 12 ≈ $145,000/月	≈ $0–10,000/月（少量集成 DevOps）
平台层 TCO 合计	≈ $145,500/月	≈ $460–790/月

这张表的全部张力，集中在最后两行。纯看资源费，自建甚至可能更便宜（$450 vs 最高 $780）——这正是很多团队"我们自己造更省"的错觉来源。但一旦把运维人力摊进来，自建的平台层 TCO 比买托管高出两个数量级。换言之：build-vs-buy 在中等规模下几乎总是 buy 占优，除非你有非成本的硬约束（合规/数据驻留/规模到了反转点）逼你自建。 反转点出现在两种情况：(a) 规模极大（千万级会话/月），托管按量费线性增长而自建人力固定，曲线交叉；(b) 监管或安全要求托管根本满足不了。

四、决策树：什么客户该 build、什么客户该 buy

把上面的经济结论，和非功能约束缝起来，得到一棵可代入的决策树。

START：要上 agent 平台层基础设施
│
├─ Q1. 有不可让步的数据驻留/主权要求，
│      且目标云在该地域无合规区域？
│        是 → 倾向 BUILD（或私有化部署托管）。
│              例：数据必须留在某无 AWS region 的司法管辖区。
│        否 → 继续 Q2
│
├─ Q2. HIPAA / PCI-DSS / 强监管，
│      托管平台是否已覆盖所需合规认证？
│        AgentCore：在 HIPAA-eligible 账户内、GA 起支持 VPC/PrivateLink，
│                    可纳入 BAA 范围（需核对当期 HIPAA-eligible 服务清单，2025-10）
│        Foundry：Entra RBAC + 私有网络 + 企业 evaluation（2026-03 GA）
│        Vertex：VPC-SC + Google Cloud HIPAA 覆盖
│        覆盖 → 继续 Q3（BUY 仍在桌上）
│        不覆盖 / 举证成本过高 → BUILD
│
├─ Q3. 月会话量级？
│        < 数百万 → BUY（运维人力摊销碾压资源费差额，见表2）
│        数百万–千万 → 做交叉点测算（资源费 vs 人力固定成本）
│        > 千万且单位经济敏感 → 考虑 BUILD 或混合
│
├─ Q4. 供应商锁定/退出成本可接受吗？
│        最深锁定在策略+身份层（Cedar / Entra）。
│        若要求"一年内能换云" → 自建策略/网关（抽象层），
│                                会话运行时仍可 BUY → 混合
│        若长期单云承诺 → 全 BUY
│
└─ Q5. 团队是否已有 2-3 人的平台工程能力且愿长期投入？
         否 → BUY（别低估生产级隔离/补丁/on-call）
         是 + 且前面有约束逼着自建 → BUILD

三个代入示例：

美国医疗保险理赔 agent（HIPAA + 数据驻留美国）：Q2 命中——三家在 HIPAA-eligible 配置下都可纳入 BAA，无需为合规而自建；Q3 通常 < 百万；结论 BUY（优先选企业身份最强的 Foundry 或已用 AWS 的 AgentCore），但要把 HIPAA-eligible 服务清单逐项核对、PHI 不落普通日志。
欧盟数据主权 + 必须可换云的政府类项目：Q1/Q4 命中——退出成本和主权要求把策略+身份层逼向自建，但会话运行时可买托管，结论 混合（HYBRID）：自建工具网关 + 策略抽象层（OPA），运行时用区域内托管。
消费级 AI 助手初创，10 万会话/月，无强监管：Q3 命中、Q5 否，结论 BUY，且优先 Vertex（有免费层、起步成本最低），把人力全投在产品上。

五、结语：AISA 的价值是把约束变成可复现的论证

本文的主线不是"托管更好"或"自建更好"——而是：在 2026 年,三大平台都已 GA 的前提下,build-vs-buy 已经从一个技术赌注，变成一个可以用 TCO + 约束代入算出来的工程决策。

复盘三个核心结论：

四组件是这层基础设施的自然关节。工具网关、策略引擎、会话运行时、计量——自建会遇到它们，托管也按它们切分服务。亲手造一遍最小版本，是 AISA 看懂托管平台"省了什么、锁了什么"的前提。
隐性成本（尤其运维人力）才是 TCO 的支配项。纯资源费下自建甚至可能更便宜，但运维人力摊销让中等规模下 buy 几乎总是占优。会算这笔账，是 AISA 区别于"凭品牌偏好选型"的标志。
答案由非功能约束决定，不由偏好决定。HIPAA、数据驻留、退出成本、规模拐点——把这些代入决策树，不同客户得到截然相反却都正确的结论。混合（自建锁定最深的策略层 + 买运行时）往往是被低估的最优解。

对我自己的 AIPA 工具链而言，下一步是：把本文的四组件抽象（尤其策略引擎）做成一层可移植的 adapter，让"换云"的退出成本可控，从而在任何客户场景里都能把 build/buy/hybrid 三条路都摆上桌、用数字论证。

SOTA 检查（2026-06-11 更新）

AgentCore：2025-10-13 GA，是当前 AWS 侧 agent 平台 SOTA。Policy（Cedar 授权）2026-03 GA，是其最新增量。计价 12 组件拆分（Runtime/Gateway/Memory/Identity/Policy/Browser/Code Interpreter/Observability 等），2025-11-01 起对 Runtime/Gateway 等加收 EC2 标准网络出口费。仍是 SOTA，无已知替代。（来源：AWS What's New，2025-10；AWS ML Blog，2026-03；AWS AgentCore Pricing 页，2025-10）
Foundry Agent Service：2026-03 GA（带私有网络/Voice Live/企业级 evaluation）；hosted agents 2026-04 起 20 区域公开预览，预计 2026-06 底走向 GA。是 Azure 侧 SOTA，企业身份（Entra ID per-agent）为其最强差异点。（来源：Microsoft Foundry Blog，2026-03 / 2026-04；Build 2026 公告）
Vertex AI Agent Engine：Sessions + Memory Bank 2025-12 转 GA，同期 7 新区域 + 降价（runtime $0.0864/vCPU-h），免费层 50 vCPU-h+100GB-h/月；Sessions/Memory/Code Execution 免费期至 2026-01-28，之后 $0.25/千事件。是 GCP 侧 SOTA。（来源：Google Cloud Vertex AI 定价，2025-12；Ivan Nardini/X，2025-12；Google Cloud Blog 工具治理，2026）
是否仍是 SOTA：截至 2026-06-11，三家均为各自云的当前 SOTA agent 平台，无更新替代品出现；开源侧（LangGraph Platform、自建 + OPA/Cedar）作为 build 路径的工具仍活跃。本文 TCO 数量级与决策逻辑在 2026 上半年有效；价格为各平台当期公示值，采购前需复核当期定价页与 HIPAA-eligible 服务清单。
下次复检触发：任一平台重大版本/定价变动，或第四家（如 Cloudflare/Anthropic 侧）推出生产级 agent 平台时。