返回 Papers
方法论

AIPA 长文#6:自建一个 mini agent 平台,然后拿它对标 AgentCore/Foundry/Agent Engine:一次 build-vs-buy 解剖

日期:2026-10-04

2026-10-04
186AIPA_LONGFORM_6_BUILD_VS_BUY.md

自建一个 mini agent 平台,然后拿它对标 AgentCore/Foundry/Agent Engine:一次 build-vs-buy 解剖

日期:2026-10-04

AIPA 长文#6。先动手自建一个最小可用的 agent 平台(工具网关 / 策略引擎 / 会话运行时 / 计量四组件),再把它逐组件对标三大托管平台——AWS Bedrock AgentCore(2025-10 GA)、Microsoft Foundry Agent Service(2026-03 GA)、Google Vertex AI Agent Engine(2025-12 更新)。最后用 8 维选型矩阵 + TCO 模型 + 决策树,回答 AISA(AI Solution Architect)必须能回答的那个问题:到底该 build 还是该 buy。


引言:为什么 AISA 必须能亲手做 build-vs-buy 论证

一个 AI 解决方案架构师(AISA)在企业里被问得最多、也最难答好的问题,从来不是"用哪个模型",而是"agent 这一层的基础设施,我们自己造还是买托管的?"。这个问题之所以难,有三个结构性原因:

  1. 它不是技术问题,是经济与风险问题。自建的成本不在"写不写得出来"——一个工具网关加策略检查,一周能跑通 demo;成本在长期的运维人力、安全补丁、合规举证、可观测性基建。买托管的成本也不在标价——标价(vCPU-hour、每千次调用)往往只占总账单的一小块,token、观测、出口流量、长期记忆存储这些"隐性项"才是大头。只有把两边的**完全拥有成本(TCO)**摊开,论证才站得住。

  2. 三大平台 2025 下半年到 2026 上半年集中 GA,把"买"这条路彻底铺平了。一年前这个问题没法认真讨论,因为托管 agent 平台还都在 preview。但 AgentCore 在 2025-10 GA、Vertex Agent Engine 的 Sessions/Memory Bank 在 2025-12 转 GA、Foundry Agent Service 在 2026-03 GA——现在三家都有了生产级 SLA、私有网络、合规认证。"买"从一个赌注变成了一个可审计的采购决策。这意味着 AISA 再用"托管不成熟"来搪塞自建,已经站不住脚了。

  3. 不同客户的答案截然相反,且取决于非功能约束。一家做美国医疗的客户(HIPAA + 数据驻留)和一家做欧洲消费应用的初创,对同一个 agent 平台的 build-vs-buy 结论可能完全相反。AISA 的价值正在于:能把 HIPAA、GDPR 数据驻留、供应商锁定、退出成本这些约束,代入到一个可复现的决策树里,而不是凭品牌偏好拍脑袋。

要做出可信的论证,光看文档不够——你得自己造一遍。本文先动手搭一个最小 agent 平台(四个组件,能跑),用它建立对"这层基础设施到底包含什么"的肌肉记忆;然后把每个自建组件,对标三大托管平台的对应模块,看托管帮你省了什么、又锁了你什么;最后落到选型矩阵、TCO、决策树。下文所有引用均带发布月份(YYYY-MM),文末有 SOTA 检查。


一、自建四组件 vs 托管对应模块

一个能跑的 agent 平台,剥到最小,是四个组件。它们恰好与 AgentCore 的四个核心服务一一对应——这不是巧合,而是这一层基础设施的"自然关节"。

1.1 组件一:工具网关(Tool Gateway)

自建做什么:agent 不直接调外部 API,而是经过一个网关。网关负责:把异构后端(REST、数据库、内部微服务、MCP server)统一成一份工具清单(schema 化);做工具发现(agent 问"我有哪些工具");统一鉴权(注入下游凭证);统一限流和审计落盘。最小实现就是一个 Express/FastAPI 服务,维护一张 tools 注册表,对每个 invoke_tool(name, args) 做参数校验、调用、记日志。

[Agent] --invoke_tool--> [Tool Gateway]
                              |-- schema 校验
                              |-- 注入下游凭证 (per-user OAuth)
                              |-- 限流 / 审计落盘
                              `-- 路由到 REST / DB / MCP server

托管对应AgentCore Gateway。它把 Lambda、OpenAPI、Smithy 模型、MCP server 自动转成 agent 可调用的工具,内置语义化工具发现(Search API,避免把几百个工具一次塞进 context)、凭证注入、Lambda interceptor(在调用前后插自定义逻辑)。计价:调用类 API(ListTools/InvokeTool)$0.005/千次,Search API $0.025/千次,工具索引 $0.02/每 100 工具/月(来源:AWS AgentCore Pricing,2025-10)。Foundry 这一层叫"tools/connectors + MCP",Vertex 叫"Agent Builder tool governance"(2026 增强了工具治理,来源:Google Cloud Blog,2026)。

省了什么 / 锁了什么:托管帮你省掉"把 N 种后端协议统一成工具 schema"这件最琐碎、最容易出 bug 的脏活,以及语义化工具发现(自建要接向量检索)。锁的是:你的工具注册表格式、interceptor 写法都是平台私有的,迁移要重写。

1.2 组件二:策略引擎(Policy Engine)

自建做什么:在 agent 决定调用工具与真正执行之间,插一个确定性的授权层——独立于 LLM 的推理。它回答:"这个 principal(用户/agent 身份),在这个 context(金额、数据分级、时段)下,能不能对这个 resource 执行这个 action?"。最小实现可以用 OPA(Open Policy Agent)写 Rego 规则,或直接用 Cedar 引擎(开源)。关键是禁止把授权交给 prompt——"请不要转账超过 1 万"写在 prompt 里不是控制,写成 forbid(action==transfer) when amount > 10000 才是。

托管对应AgentCore Policy,用 Cedar 策略语言,把自然语言业务规则编译成 permit/forbid 规则,在 Gateway 调用工具时做身份感知的细粒度访问控制(FGAC)。2026-03 GA(来源:AWS ML Blog,2026-03)。计价:$0.000025/次授权请求 + $0.13/千输入 token(自然语言→Cedar 编译用,来源:AWS AgentCore Pricing,2025-10)。Foundry 走 Entra RBAC + 每 agent 一个 Entra ID 的 agent identity(来源:Microsoft Foundry Blog,2026-03)。Vertex 走 IAM + Tool Governance。

省了什么 / 锁了什么:托管省掉策略引擎的运维和与身份系统的集成(AgentCore Policy 自动和 Identity 打通,Foundry 自动发 Entra ID)。但策略语言深度绑定平台:Cedar 规则迁不到 Foundry,Entra RBAC 也迁不到 AWS。这是供应商锁定最深的一层,因为它和企业的身份治理体系长在了一起。

1.3 组件三:会话运行时(Session Runtime)

自建做什么:托管 agent 进程的执行环境——长会话状态、记忆、隔离、弹性伸缩。难点全在非功能性:每个会话要安全隔离(一个用户的会话不能读到另一个的);agent 调外部 API 时会长时间 I/O 等待,运行时得支持长任务而不空烧 CPU;短期记忆(本轮上下文)和长期记忆(跨会话的用户偏好/事实)要分层存储。最小实现是给每个会话起一个隔离容器 + Redis 存短期态 + 向量库存长期记忆,但生产级的会话隔离和弹性伸缩,是自建里最难啃的骨头

托管对应AgentCore Runtime——每会话 microVM 隔离、最长 8 小时任务、按秒计费且 I/O 等待不计 CPU 费;Memory 分短期/长期。计价:Runtime $0.0895/vCPU-hour + $0.00945/GB-hour;短期记忆 $0.25/千事件,长期存储 $0.75/千记录/月(内置策略)或 $0.25(自管),检索 $0.50/千次(来源:AWS AgentCore Pricing,2025-10)。Vertex Agent Engine 的 Sessions/Memory Bank 2025-12 转 GA,runtime $0.0864/vCPU-hour,会话/记忆事件 $0.25/千,含 50 vCPU-hour + 100 GB-hour/月免费额度(来源:Google Cloud / Ivan Nardini,2025-12)。Foundry hosted agents 跑在客户专属容器里,内置伸缩/隔离/可观测,2026-04 起在 20 区域公开预览(来源:Microsoft Foundry Blog,2026-04)。

省了什么 / 锁了什么:这是托管价值最大的一层——生产级会话隔离、弹性、I/O-aware 计费、分层记忆,自建至少要一个团队维护半年。锁的是运行时 API 形态和记忆数据模型,但相对策略引擎,这层锁定较浅(agent 逻辑大多可移植)。

1.4 组件四:计量(Metering / Observability)

自建做什么:记录每次 agent 运行消耗了多少(token、工具调用、时长),既为成本归因(按团队/客户分摊),也为可观测(trace、评估、异常告警)。最小实现是结构化日志 + OpenTelemetry trace + 一张成本归因表。容易被低估,但没有计量,build-vs-buy 的 TCO 就算不出来——你连自己花了多少都不知道。

托管对应:AgentCore Observability(基于 CloudWatch,含 trace)、Foundry 的 full tracing + evaluation、Vertex 的内置可观测。三家都把 token 用量、工具调用、时延做成开箱即用的 dashboard。

省了什么 / 锁了什么:托管省掉自建 trace 管线。但要注意——观测本身也是要花钱的,且很多是按量无上限(CloudWatch 日志摄取、Foundry evaluation 调用)。这正是下文 TCO 里的隐性成本之一。


二、8 维选型矩阵

把自建与三大托管平台放在 8 个维度上对照。版本/时点:AgentCore(2025-10 GA)、Foundry Agent Service(2026-03 GA,hosted agents 2026-04 预览)、Vertex Agent Engine(2025-12 Sessions/Memory GA)。

表 1:8 维选型矩阵(量化表 ①)

维度自建 mini 平台AgentCore (2025-10)Foundry Agent Service (2026-03)Vertex Agent Engine (2025-12)
运行时计价自付 K8s/EC2 全额(含 I/O 空烧)$0.0895/vCPU-h + $0.00945/GB-h,I/O 等待不计费hosted agents 专属容器,runtime 本身不另收(按底层算力)$0.0864/vCPU-h,50 vCPU-h+100GB-h/月免费
工具网关自建注册表+发现Gateway:调用 $0.005/千、Search $0.025/千、索引 $0.02/百工具/月tools/connectors + MCP,无独立网关费Agent Builder + Tool Governance(2026 增强)
策略引擎OPA/Cedar 自部署Policy(Cedar)GA 2026-03,$0.000025/次+$0.13/千 tokenEntra RBAC + per-agent Entra IDIAM + Tool Governance
会话/记忆自建隔离+Redis+向量库microVM 隔离、≤8h 任务、短期 $0.25/千、长期 $0.25–0.75/千/月专属容器隔离、内置伸缩Sessions/Memory GA,事件 $0.25/千
身份集成自接 IdPIdentity(含免费层,经 Runtime/Gateway 免费)原生 Entra ID(最强企业身份)Google IAM
可观测/评估自建 OTel+dashboardObservability(CloudWatch,按量)full tracing + 企业级 evaluation内置可观测
私有网络/合规自己搭,自己举证VPC/PrivateLink/CloudFormation/标签(GA 起全支持)私有网络 + Entra RBAC(2026-03 GA 带私网)VPC-SC
框架开放度任意(你自己定)任意框架/模型(Strands/LangGraph/CrewAI 皆可)Microsoft Agent Framework/LangGraph 等外部框架 hostedADK + 任意框架

读表三条结论:(1) 三家计价口径不同——AWS 把每个组件单独标价、最"透明"也最易超预期;Foundry"runtime 不另收、按 token+工具收",账单更集中在模型侧;Vertex 给了实打实的免费层,适合起步。(2) 身份/策略层是锁定最深处:Foundry 的 Entra、AWS 的 Cedar+Identity 都和各自云的 IAM 长在一起。(3) 框架开放度三家都已打开——"买托管就被框架绑死"这个 2024 年的顾虑,2026 年已基本不成立。


三、Build-vs-Buy TCO:把隐性成本摊开

标价是冰山一角。真正决定 TCO 的是隐性成本。下面用一个具体场景算一笔:中等规模金融 AI 投顾 agent,10 万次会话/月,每次会话约 8K input + 2K output token,10 次工具调用,平均运行 30s(2 vCPU、4GB)

3.1 三类隐性成本

  • Token 另算:三大平台的平台费都不含模型 token。Foundry 明确"Agent Service 本身不额外收费,但 token 和工具单独计费"(来源:Azure Pricing,2026);Vertex/AWS 同理。token 往往是总账单最大头——这意味着无论 build 还是 buy,模型成本是共同的底盘,不应计入 build-vs-buy 的差额(除非托管强制绑定更贵的模型)。
  • 观测费无上限:CloudWatch 日志摄取、Foundry evaluation 调用、trace 存储,都是按量、无封顶。一个 chatty 的 agent 把每步 reasoning 都落盘,观测费可能逼近运行时费。
  • 运维人力:自建这一侧最大的隐性成本。生产级会话隔离、安全补丁、合规举证(SOC2/HIPAA 证据链)、7×24 on-call——按一个 2-3 人平台小组、北美全载成本,年 60-90 万美元量级。这笔钱在标价表里完全看不见,却常常是 build-vs-buy 的决定性变量。

3.2 月度成本估算(量化表 ②)

下表只算平台层差额(token 两边相同,不计入对比),单位美元/月,数量级估算:

成本项自建(自管 K8s)买托管(AgentCore 口径)
运行时算力10万次×30s×2vCPU = 1667 vCPU-h;按 EC2 含 I/O 空烧 ≈ $2501667 vCPU-h×$0.0895 + 内存,I/O 不计 ≈ $170
工具网关含在自建算力里(≈$0)100万次调用×$0.005/千 ≈ $5
策略引擎OPA 自部署,含在算力里(≈$0)100万次×$0.000025 + 编译 token ≈ $25–50
短期+长期记忆自建 Redis+向量库 ≈ $80事件+存储+检索 ≈ $150–300
可观测自建 OTel 栈 ≈ $60CloudWatch 按量 ≈ $100–250(无上限)
小计(平台层)≈ $450/月≈ $450–780/月
运维人力(摊月)2.5 人 × $70 万/年 ÷ 12 ≈ $145,000/月≈ $0–10,000/月(少量集成 DevOps)
平台层 TCO 合计≈ $145,500/月≈ $460–790/月

这张表的全部张力,集中在最后两行。纯看资源费,自建甚至可能更便宜($450 vs 最高 $780)——这正是很多团队"我们自己造更省"的错觉来源。但一旦把运维人力摊进来,自建的平台层 TCO 比买托管高出两个数量级。换言之:build-vs-buy 在中等规模下几乎总是 buy 占优,除非你有非成本的硬约束(合规/数据驻留/规模到了反转点)逼你自建。 反转点出现在两种情况:(a) 规模极大(千万级会话/月),托管按量费线性增长而自建人力固定,曲线交叉;(b) 监管或安全要求托管根本满足不了。


四、决策树:什么客户该 build、什么客户该 buy

把上面的经济结论,和非功能约束缝起来,得到一棵可代入的决策树。

START:要上 agent 平台层基础设施
│
├─ Q1. 有不可让步的数据驻留/主权要求,
│      且目标云在该地域无合规区域?
│        是 → 倾向 BUILD(或私有化部署托管)。
│              例:数据必须留在某无 AWS region 的司法管辖区。
│        否 → 继续 Q2
│
├─ Q2. HIPAA / PCI-DSS / 强监管,
│      托管平台是否已覆盖所需合规认证?
│        AgentCore:在 HIPAA-eligible 账户内、GA 起支持 VPC/PrivateLink,
│                    可纳入 BAA 范围(需核对当期 HIPAA-eligible 服务清单,2025-10)
│        Foundry:Entra RBAC + 私有网络 + 企业 evaluation(2026-03 GA)
│        Vertex:VPC-SC + Google Cloud HIPAA 覆盖
│        覆盖 → 继续 Q3(BUY 仍在桌上)
│        不覆盖 / 举证成本过高 → BUILD
│
├─ Q3. 月会话量级?
│        < 数百万 → BUY(运维人力摊销碾压资源费差额,见表2)
│        数百万–千万 → 做交叉点测算(资源费 vs 人力固定成本)
│        > 千万且单位经济敏感 → 考虑 BUILD 或混合
│
├─ Q4. 供应商锁定/退出成本可接受吗?
│        最深锁定在策略+身份层(Cedar / Entra)。
│        若要求"一年内能换云" → 自建策略/网关(抽象层),
│                                会话运行时仍可 BUY → 混合
│        若长期单云承诺 → 全 BUY
│
└─ Q5. 团队是否已有 2-3 人的平台工程能力且愿长期投入?
         否 → BUY(别低估生产级隔离/补丁/on-call)
         是 + 且前面有约束逼着自建 → BUILD

三个代入示例

  • 美国医疗保险理赔 agent(HIPAA + 数据驻留美国):Q2 命中——三家在 HIPAA-eligible 配置下都可纳入 BAA,无需为合规而自建;Q3 通常 < 百万;结论 BUY(优先选企业身份最强的 Foundry 或已用 AWS 的 AgentCore),但要把 HIPAA-eligible 服务清单逐项核对、PHI 不落普通日志。
  • 欧盟数据主权 + 必须可换云的政府类项目:Q1/Q4 命中——退出成本和主权要求把策略+身份层逼向自建,但会话运行时可买托管,结论 混合(HYBRID):自建工具网关 + 策略抽象层(OPA),运行时用区域内托管。
  • 消费级 AI 助手初创,10 万会话/月,无强监管:Q3 命中、Q5 否,结论 BUY,且优先 Vertex(有免费层、起步成本最低),把人力全投在产品上。

五、结语:AISA 的价值是把约束变成可复现的论证

本文的主线不是"托管更好"或"自建更好"——而是:在 2026 年,三大平台都已 GA 的前提下,build-vs-buy 已经从一个技术赌注,变成一个可以用 TCO + 约束代入算出来的工程决策。

复盘三个核心结论:

  1. 四组件是这层基础设施的自然关节。工具网关、策略引擎、会话运行时、计量——自建会遇到它们,托管也按它们切分服务。亲手造一遍最小版本,是 AISA 看懂托管平台"省了什么、锁了什么"的前提。
  2. 隐性成本(尤其运维人力)才是 TCO 的支配项。纯资源费下自建甚至可能更便宜,但运维人力摊销让中等规模下 buy 几乎总是占优。会算这笔账,是 AISA 区别于"凭品牌偏好选型"的标志。
  3. 答案由非功能约束决定,不由偏好决定。HIPAA、数据驻留、退出成本、规模拐点——把这些代入决策树,不同客户得到截然相反却都正确的结论。混合(自建锁定最深的策略层 + 买运行时)往往是被低估的最优解。

对我自己的 AIPA 工具链而言,下一步是:把本文的四组件抽象(尤其策略引擎)做成一层可移植的 adapter,让"换云"的退出成本可控,从而在任何客户场景里都能把 build/buy/hybrid 三条路都摆上桌、用数字论证。


SOTA 检查(2026-06-11 更新)

  • AgentCore:2025-10-13 GA,是当前 AWS 侧 agent 平台 SOTA。Policy(Cedar 授权)2026-03 GA,是其最新增量。计价 12 组件拆分(Runtime/Gateway/Memory/Identity/Policy/Browser/Code Interpreter/Observability 等),2025-11-01 起对 Runtime/Gateway 等加收 EC2 标准网络出口费。仍是 SOTA,无已知替代。(来源:AWS What's New,2025-10;AWS ML Blog,2026-03;AWS AgentCore Pricing 页,2025-10)
  • Foundry Agent Service:2026-03 GA(带私有网络/Voice Live/企业级 evaluation);hosted agents 2026-04 起 20 区域公开预览,预计 2026-06 底走向 GA。是 Azure 侧 SOTA,企业身份(Entra ID per-agent)为其最强差异点。(来源:Microsoft Foundry Blog,2026-03 / 2026-04;Build 2026 公告)
  • Vertex AI Agent Engine:Sessions + Memory Bank 2025-12 转 GA,同期 7 新区域 + 降价(runtime $0.0864/vCPU-h),免费层 50 vCPU-h+100GB-h/月;Sessions/Memory/Code Execution 免费期至 2026-01-28,之后 $0.25/千事件。是 GCP 侧 SOTA。(来源:Google Cloud Vertex AI 定价,2025-12;Ivan Nardini/X,2025-12;Google Cloud Blog 工具治理,2026)
  • 是否仍是 SOTA:截至 2026-06-11,三家均为各自云的当前 SOTA agent 平台,无更新替代品出现;开源侧(LangGraph Platform、自建 + OPA/Cedar)作为 build 路径的工具仍活跃。本文 TCO 数量级与决策逻辑在 2026 上半年有效;价格为各平台当期公示值,采购前需复核当期定价页与 HIPAA-eligible 服务清单。
  • 下次复检触发:任一平台重大版本/定价变动,或第四家(如 Cloudflare/Anthropic 侧)推出生产级 agent 平台时。