AIPA 长文#6:自建一个 mini agent 平台,然后拿它对标 AgentCore/Foundry/Agent Engine:一次 build-vs-buy 解剖
日期:2026-10-04
自建一个 mini agent 平台,然后拿它对标 AgentCore/Foundry/Agent Engine:一次 build-vs-buy 解剖
日期:2026-10-04
AIPA 长文#6。先动手自建一个最小可用的 agent 平台(工具网关 / 策略引擎 / 会话运行时 / 计量四组件),再把它逐组件对标三大托管平台——AWS Bedrock AgentCore(2025-10 GA)、Microsoft Foundry Agent Service(2026-03 GA)、Google Vertex AI Agent Engine(2025-12 更新)。最后用 8 维选型矩阵 + TCO 模型 + 决策树,回答 AISA(AI Solution Architect)必须能回答的那个问题:到底该 build 还是该 buy。
引言:为什么 AISA 必须能亲手做 build-vs-buy 论证
一个 AI 解决方案架构师(AISA)在企业里被问得最多、也最难答好的问题,从来不是"用哪个模型",而是"agent 这一层的基础设施,我们自己造还是买托管的?"。这个问题之所以难,有三个结构性原因:
-
它不是技术问题,是经济与风险问题。自建的成本不在"写不写得出来"——一个工具网关加策略检查,一周能跑通 demo;成本在长期的运维人力、安全补丁、合规举证、可观测性基建。买托管的成本也不在标价——标价(vCPU-hour、每千次调用)往往只占总账单的一小块,token、观测、出口流量、长期记忆存储这些"隐性项"才是大头。只有把两边的**完全拥有成本(TCO)**摊开,论证才站得住。
-
三大平台 2025 下半年到 2026 上半年集中 GA,把"买"这条路彻底铺平了。一年前这个问题没法认真讨论,因为托管 agent 平台还都在 preview。但 AgentCore 在 2025-10 GA、Vertex Agent Engine 的 Sessions/Memory Bank 在 2025-12 转 GA、Foundry Agent Service 在 2026-03 GA——现在三家都有了生产级 SLA、私有网络、合规认证。"买"从一个赌注变成了一个可审计的采购决策。这意味着 AISA 再用"托管不成熟"来搪塞自建,已经站不住脚了。
-
不同客户的答案截然相反,且取决于非功能约束。一家做美国医疗的客户(HIPAA + 数据驻留)和一家做欧洲消费应用的初创,对同一个 agent 平台的 build-vs-buy 结论可能完全相反。AISA 的价值正在于:能把 HIPAA、GDPR 数据驻留、供应商锁定、退出成本这些约束,代入到一个可复现的决策树里,而不是凭品牌偏好拍脑袋。
要做出可信的论证,光看文档不够——你得自己造一遍。本文先动手搭一个最小 agent 平台(四个组件,能跑),用它建立对"这层基础设施到底包含什么"的肌肉记忆;然后把每个自建组件,对标三大托管平台的对应模块,看托管帮你省了什么、又锁了你什么;最后落到选型矩阵、TCO、决策树。下文所有引用均带发布月份(YYYY-MM),文末有 SOTA 检查。
一、自建四组件 vs 托管对应模块
一个能跑的 agent 平台,剥到最小,是四个组件。它们恰好与 AgentCore 的四个核心服务一一对应——这不是巧合,而是这一层基础设施的"自然关节"。
1.1 组件一:工具网关(Tool Gateway)
自建做什么:agent 不直接调外部 API,而是经过一个网关。网关负责:把异构后端(REST、数据库、内部微服务、MCP server)统一成一份工具清单(schema 化);做工具发现(agent 问"我有哪些工具");统一鉴权(注入下游凭证);统一限流和审计落盘。最小实现就是一个 Express/FastAPI 服务,维护一张 tools 注册表,对每个 invoke_tool(name, args) 做参数校验、调用、记日志。
[Agent] --invoke_tool--> [Tool Gateway]
|-- schema 校验
|-- 注入下游凭证 (per-user OAuth)
|-- 限流 / 审计落盘
`-- 路由到 REST / DB / MCP server
托管对应:AgentCore Gateway。它把 Lambda、OpenAPI、Smithy 模型、MCP server 自动转成 agent 可调用的工具,内置语义化工具发现(Search API,避免把几百个工具一次塞进 context)、凭证注入、Lambda interceptor(在调用前后插自定义逻辑)。计价:调用类 API(ListTools/InvokeTool)$0.005/千次,Search API $0.025/千次,工具索引 $0.02/每 100 工具/月(来源:AWS AgentCore Pricing,2025-10)。Foundry 这一层叫"tools/connectors + MCP",Vertex 叫"Agent Builder tool governance"(2026 增强了工具治理,来源:Google Cloud Blog,2026)。
省了什么 / 锁了什么:托管帮你省掉"把 N 种后端协议统一成工具 schema"这件最琐碎、最容易出 bug 的脏活,以及语义化工具发现(自建要接向量检索)。锁的是:你的工具注册表格式、interceptor 写法都是平台私有的,迁移要重写。
1.2 组件二:策略引擎(Policy Engine)
自建做什么:在 agent 决定调用工具与真正执行之间,插一个确定性的授权层——独立于 LLM 的推理。它回答:"这个 principal(用户/agent 身份),在这个 context(金额、数据分级、时段)下,能不能对这个 resource 执行这个 action?"。最小实现可以用 OPA(Open Policy Agent)写 Rego 规则,或直接用 Cedar 引擎(开源)。关键是禁止把授权交给 prompt——"请不要转账超过 1 万"写在 prompt 里不是控制,写成 forbid(action==transfer) when amount > 10000 才是。
托管对应:AgentCore Policy,用 Cedar 策略语言,把自然语言业务规则编译成 permit/forbid 规则,在 Gateway 调用工具时做身份感知的细粒度访问控制(FGAC)。2026-03 GA(来源:AWS ML Blog,2026-03)。计价:$0.000025/次授权请求 + $0.13/千输入 token(自然语言→Cedar 编译用,来源:AWS AgentCore Pricing,2025-10)。Foundry 走 Entra RBAC + 每 agent 一个 Entra ID 的 agent identity(来源:Microsoft Foundry Blog,2026-03)。Vertex 走 IAM + Tool Governance。
省了什么 / 锁了什么:托管省掉策略引擎的运维和与身份系统的集成(AgentCore Policy 自动和 Identity 打通,Foundry 自动发 Entra ID)。但策略语言深度绑定平台:Cedar 规则迁不到 Foundry,Entra RBAC 也迁不到 AWS。这是供应商锁定最深的一层,因为它和企业的身份治理体系长在了一起。
1.3 组件三:会话运行时(Session Runtime)
自建做什么:托管 agent 进程的执行环境——长会话状态、记忆、隔离、弹性伸缩。难点全在非功能性:每个会话要安全隔离(一个用户的会话不能读到另一个的);agent 调外部 API 时会长时间 I/O 等待,运行时得支持长任务而不空烧 CPU;短期记忆(本轮上下文)和长期记忆(跨会话的用户偏好/事实)要分层存储。最小实现是给每个会话起一个隔离容器 + Redis 存短期态 + 向量库存长期记忆,但生产级的会话隔离和弹性伸缩,是自建里最难啃的骨头。
托管对应:AgentCore Runtime——每会话 microVM 隔离、最长 8 小时任务、按秒计费且 I/O 等待不计 CPU 费;Memory 分短期/长期。计价:Runtime $0.0895/vCPU-hour + $0.00945/GB-hour;短期记忆 $0.25/千事件,长期存储 $0.75/千记录/月(内置策略)或 $0.25(自管),检索 $0.50/千次(来源:AWS AgentCore Pricing,2025-10)。Vertex Agent Engine 的 Sessions/Memory Bank 2025-12 转 GA,runtime $0.0864/vCPU-hour,会话/记忆事件 $0.25/千,含 50 vCPU-hour + 100 GB-hour/月免费额度(来源:Google Cloud / Ivan Nardini,2025-12)。Foundry hosted agents 跑在客户专属容器里,内置伸缩/隔离/可观测,2026-04 起在 20 区域公开预览(来源:Microsoft Foundry Blog,2026-04)。
省了什么 / 锁了什么:这是托管价值最大的一层——生产级会话隔离、弹性、I/O-aware 计费、分层记忆,自建至少要一个团队维护半年。锁的是运行时 API 形态和记忆数据模型,但相对策略引擎,这层锁定较浅(agent 逻辑大多可移植)。
1.4 组件四:计量(Metering / Observability)
自建做什么:记录每次 agent 运行消耗了多少(token、工具调用、时长),既为成本归因(按团队/客户分摊),也为可观测(trace、评估、异常告警)。最小实现是结构化日志 + OpenTelemetry trace + 一张成本归因表。容易被低估,但没有计量,build-vs-buy 的 TCO 就算不出来——你连自己花了多少都不知道。
托管对应:AgentCore Observability(基于 CloudWatch,含 trace)、Foundry 的 full tracing + evaluation、Vertex 的内置可观测。三家都把 token 用量、工具调用、时延做成开箱即用的 dashboard。
省了什么 / 锁了什么:托管省掉自建 trace 管线。但要注意——观测本身也是要花钱的,且很多是按量无上限(CloudWatch 日志摄取、Foundry evaluation 调用)。这正是下文 TCO 里的隐性成本之一。
二、8 维选型矩阵
把自建与三大托管平台放在 8 个维度上对照。版本/时点:AgentCore(2025-10 GA)、Foundry Agent Service(2026-03 GA,hosted agents 2026-04 预览)、Vertex Agent Engine(2025-12 Sessions/Memory GA)。
表 1:8 维选型矩阵(量化表 ①)
| 维度 | 自建 mini 平台 | AgentCore (2025-10) | Foundry Agent Service (2026-03) | Vertex Agent Engine (2025-12) |
|---|---|---|---|---|
| 运行时计价 | 自付 K8s/EC2 全额(含 I/O 空烧) | $0.0895/vCPU-h + $0.00945/GB-h,I/O 等待不计费 | hosted agents 专属容器,runtime 本身不另收(按底层算力) | $0.0864/vCPU-h,50 vCPU-h+100GB-h/月免费 |
| 工具网关 | 自建注册表+发现 | Gateway:调用 $0.005/千、Search $0.025/千、索引 $0.02/百工具/月 | tools/connectors + MCP,无独立网关费 | Agent Builder + Tool Governance(2026 增强) |
| 策略引擎 | OPA/Cedar 自部署 | Policy(Cedar)GA 2026-03,$0.000025/次+$0.13/千 token | Entra RBAC + per-agent Entra ID | IAM + Tool Governance |
| 会话/记忆 | 自建隔离+Redis+向量库 | microVM 隔离、≤8h 任务、短期 $0.25/千、长期 $0.25–0.75/千/月 | 专属容器隔离、内置伸缩 | Sessions/Memory GA,事件 $0.25/千 |
| 身份集成 | 自接 IdP | Identity(含免费层,经 Runtime/Gateway 免费) | 原生 Entra ID(最强企业身份) | Google IAM |
| 可观测/评估 | 自建 OTel+dashboard | Observability(CloudWatch,按量) | full tracing + 企业级 evaluation | 内置可观测 |
| 私有网络/合规 | 自己搭,自己举证 | VPC/PrivateLink/CloudFormation/标签(GA 起全支持) | 私有网络 + Entra RBAC(2026-03 GA 带私网) | VPC-SC |
| 框架开放度 | 任意(你自己定) | 任意框架/模型(Strands/LangGraph/CrewAI 皆可) | Microsoft Agent Framework/LangGraph 等外部框架 hosted | ADK + 任意框架 |
读表三条结论:(1) 三家计价口径不同——AWS 把每个组件单独标价、最"透明"也最易超预期;Foundry"runtime 不另收、按 token+工具收",账单更集中在模型侧;Vertex 给了实打实的免费层,适合起步。(2) 身份/策略层是锁定最深处:Foundry 的 Entra、AWS 的 Cedar+Identity 都和各自云的 IAM 长在一起。(3) 框架开放度三家都已打开——"买托管就被框架绑死"这个 2024 年的顾虑,2026 年已基本不成立。
三、Build-vs-Buy TCO:把隐性成本摊开
标价是冰山一角。真正决定 TCO 的是隐性成本。下面用一个具体场景算一笔:中等规模金融 AI 投顾 agent,10 万次会话/月,每次会话约 8K input + 2K output token,10 次工具调用,平均运行 30s(2 vCPU、4GB)。
3.1 三类隐性成本
- Token 另算:三大平台的平台费都不含模型 token。Foundry 明确"Agent Service 本身不额外收费,但 token 和工具单独计费"(来源:Azure Pricing,2026);Vertex/AWS 同理。token 往往是总账单最大头——这意味着无论 build 还是 buy,模型成本是共同的底盘,不应计入 build-vs-buy 的差额(除非托管强制绑定更贵的模型)。
- 观测费无上限:CloudWatch 日志摄取、Foundry evaluation 调用、trace 存储,都是按量、无封顶。一个 chatty 的 agent 把每步 reasoning 都落盘,观测费可能逼近运行时费。
- 运维人力:自建这一侧最大的隐性成本。生产级会话隔离、安全补丁、合规举证(SOC2/HIPAA 证据链)、7×24 on-call——按一个 2-3 人平台小组、北美全载成本,年 60-90 万美元量级。这笔钱在标价表里完全看不见,却常常是 build-vs-buy 的决定性变量。
3.2 月度成本估算(量化表 ②)
下表只算平台层差额(token 两边相同,不计入对比),单位美元/月,数量级估算:
| 成本项 | 自建(自管 K8s) | 买托管(AgentCore 口径) |
|---|---|---|
| 运行时算力 | 10万次×30s×2vCPU = 1667 vCPU-h;按 EC2 含 I/O 空烧 ≈ $250 | 1667 vCPU-h×$0.0895 + 内存,I/O 不计 ≈ $170 |
| 工具网关 | 含在自建算力里(≈$0) | 100万次调用×$0.005/千 ≈ $5 |
| 策略引擎 | OPA 自部署,含在算力里(≈$0) | 100万次×$0.000025 + 编译 token ≈ $25–50 |
| 短期+长期记忆 | 自建 Redis+向量库 ≈ $80 | 事件+存储+检索 ≈ $150–300 |
| 可观测 | 自建 OTel 栈 ≈ $60 | CloudWatch 按量 ≈ $100–250(无上限) |
| 小计(平台层) | ≈ $450/月 | ≈ $450–780/月 |
| 运维人力(摊月) | 2.5 人 × $70 万/年 ÷ 12 ≈ $145,000/月 | ≈ $0–10,000/月(少量集成 DevOps) |
| 平台层 TCO 合计 | ≈ $145,500/月 | ≈ $460–790/月 |
这张表的全部张力,集中在最后两行。纯看资源费,自建甚至可能更便宜($450 vs 最高 $780)——这正是很多团队"我们自己造更省"的错觉来源。但一旦把运维人力摊进来,自建的平台层 TCO 比买托管高出两个数量级。换言之:build-vs-buy 在中等规模下几乎总是 buy 占优,除非你有非成本的硬约束(合规/数据驻留/规模到了反转点)逼你自建。 反转点出现在两种情况:(a) 规模极大(千万级会话/月),托管按量费线性增长而自建人力固定,曲线交叉;(b) 监管或安全要求托管根本满足不了。
四、决策树:什么客户该 build、什么客户该 buy
把上面的经济结论,和非功能约束缝起来,得到一棵可代入的决策树。
START:要上 agent 平台层基础设施
│
├─ Q1. 有不可让步的数据驻留/主权要求,
│ 且目标云在该地域无合规区域?
│ 是 → 倾向 BUILD(或私有化部署托管)。
│ 例:数据必须留在某无 AWS region 的司法管辖区。
│ 否 → 继续 Q2
│
├─ Q2. HIPAA / PCI-DSS / 强监管,
│ 托管平台是否已覆盖所需合规认证?
│ AgentCore:在 HIPAA-eligible 账户内、GA 起支持 VPC/PrivateLink,
│ 可纳入 BAA 范围(需核对当期 HIPAA-eligible 服务清单,2025-10)
│ Foundry:Entra RBAC + 私有网络 + 企业 evaluation(2026-03 GA)
│ Vertex:VPC-SC + Google Cloud HIPAA 覆盖
│ 覆盖 → 继续 Q3(BUY 仍在桌上)
│ 不覆盖 / 举证成本过高 → BUILD
│
├─ Q3. 月会话量级?
│ < 数百万 → BUY(运维人力摊销碾压资源费差额,见表2)
│ 数百万–千万 → 做交叉点测算(资源费 vs 人力固定成本)
│ > 千万且单位经济敏感 → 考虑 BUILD 或混合
│
├─ Q4. 供应商锁定/退出成本可接受吗?
│ 最深锁定在策略+身份层(Cedar / Entra)。
│ 若要求"一年内能换云" → 自建策略/网关(抽象层),
│ 会话运行时仍可 BUY → 混合
│ 若长期单云承诺 → 全 BUY
│
└─ Q5. 团队是否已有 2-3 人的平台工程能力且愿长期投入?
否 → BUY(别低估生产级隔离/补丁/on-call)
是 + 且前面有约束逼着自建 → BUILD
三个代入示例:
- 美国医疗保险理赔 agent(HIPAA + 数据驻留美国):Q2 命中——三家在 HIPAA-eligible 配置下都可纳入 BAA,无需为合规而自建;Q3 通常 < 百万;结论 BUY(优先选企业身份最强的 Foundry 或已用 AWS 的 AgentCore),但要把 HIPAA-eligible 服务清单逐项核对、PHI 不落普通日志。
- 欧盟数据主权 + 必须可换云的政府类项目:Q1/Q4 命中——退出成本和主权要求把策略+身份层逼向自建,但会话运行时可买托管,结论 混合(HYBRID):自建工具网关 + 策略抽象层(OPA),运行时用区域内托管。
- 消费级 AI 助手初创,10 万会话/月,无强监管:Q3 命中、Q5 否,结论 BUY,且优先 Vertex(有免费层、起步成本最低),把人力全投在产品上。
五、结语:AISA 的价值是把约束变成可复现的论证
本文的主线不是"托管更好"或"自建更好"——而是:在 2026 年,三大平台都已 GA 的前提下,build-vs-buy 已经从一个技术赌注,变成一个可以用 TCO + 约束代入算出来的工程决策。
复盘三个核心结论:
- 四组件是这层基础设施的自然关节。工具网关、策略引擎、会话运行时、计量——自建会遇到它们,托管也按它们切分服务。亲手造一遍最小版本,是 AISA 看懂托管平台"省了什么、锁了什么"的前提。
- 隐性成本(尤其运维人力)才是 TCO 的支配项。纯资源费下自建甚至可能更便宜,但运维人力摊销让中等规模下 buy 几乎总是占优。会算这笔账,是 AISA 区别于"凭品牌偏好选型"的标志。
- 答案由非功能约束决定,不由偏好决定。HIPAA、数据驻留、退出成本、规模拐点——把这些代入决策树,不同客户得到截然相反却都正确的结论。混合(自建锁定最深的策略层 + 买运行时)往往是被低估的最优解。
对我自己的 AIPA 工具链而言,下一步是:把本文的四组件抽象(尤其策略引擎)做成一层可移植的 adapter,让"换云"的退出成本可控,从而在任何客户场景里都能把 build/buy/hybrid 三条路都摆上桌、用数字论证。
SOTA 检查(2026-06-11 更新)
- AgentCore:2025-10-13 GA,是当前 AWS 侧 agent 平台 SOTA。Policy(Cedar 授权)2026-03 GA,是其最新增量。计价 12 组件拆分(Runtime/Gateway/Memory/Identity/Policy/Browser/Code Interpreter/Observability 等),2025-11-01 起对 Runtime/Gateway 等加收 EC2 标准网络出口费。仍是 SOTA,无已知替代。(来源:AWS What's New,2025-10;AWS ML Blog,2026-03;AWS AgentCore Pricing 页,2025-10)
- Foundry Agent Service:2026-03 GA(带私有网络/Voice Live/企业级 evaluation);hosted agents 2026-04 起 20 区域公开预览,预计 2026-06 底走向 GA。是 Azure 侧 SOTA,企业身份(Entra ID per-agent)为其最强差异点。(来源:Microsoft Foundry Blog,2026-03 / 2026-04;Build 2026 公告)
- Vertex AI Agent Engine:Sessions + Memory Bank 2025-12 转 GA,同期 7 新区域 + 降价(runtime $0.0864/vCPU-h),免费层 50 vCPU-h+100GB-h/月;Sessions/Memory/Code Execution 免费期至 2026-01-28,之后 $0.25/千事件。是 GCP 侧 SOTA。(来源:Google Cloud Vertex AI 定价,2025-12;Ivan Nardini/X,2025-12;Google Cloud Blog 工具治理,2026)
- 是否仍是 SOTA:截至 2026-06-11,三家均为各自云的当前 SOTA agent 平台,无更新替代品出现;开源侧(LangGraph Platform、自建 + OPA/Cedar)作为 build 路径的工具仍活跃。本文 TCO 数量级与决策逻辑在 2026 上半年有效;价格为各平台当期公示值,采购前需复核当期定价页与 HIPAA-eligible 服务清单。
- 下次复检触发:任一平台重大版本/定价变动,或第四家(如 Cloudflare/Anthropic 侧)推出生产级 agent 平台时。