AIPA Day 113

金融私有化部署方案 — 数据敏感度→断网要求→GPU 资源的三问决策树

2026-10-05

private-deploymentair-gappedfoundry-localself-hosted-llm

日期: 2026-10-05 阶段: Phase 4 - 自建 Agent 平台×求职冲刺标签: #private-deployment #air-gapped #foundry-local #self-hosted-llm

核心问题

P4 前几天把 AgentCore / Foundry / Gemini Enterprise 三家托管 Agent 平台横向比完了。但金融客户的第一句话往往不是「哪家功能强」，而是——「我的客户数据能不能离开我的机房？」 这一句话直接否决了 80% 的「默认走公有云托管」方案。今天回答三件事：

私有化不是一个开关，是一条光谱。 从「云内 VPC 隔离」到「完全断网 air-gapped」中间有四档，每一档对应不同的数据敏感度、合规义务和 GPU 账单。把它们混为一谈，会让方案在售前就被合规官否掉。
怎么用工程化的方式选档？ 提出一个「数据敏感度 → 断网要求 → GPU 资源」三问决策树，每一问都把方案空间砍掉一半，最后落到四条具体路径之一。
断网的真实成本是多少？ 用 2026-04 一手定价测算：自建 8×H100 栈三年 TCO 约 $71 万–$95 万，什么时候它比托管便宜、什么时候是纯烧钱。

对 AML Copilot 这是生死问题：它处理 SAR（可疑活动报告）原始证据——KYC 资料、交易流水、受益所有人——这些在 GDPR Article 46 / 央行数据驻留要求下根本不允许路由到美国托管的 LLM API。所以本项目的部署方案必须从 day 1 就把「私有化」当一等公民，而不是事后补丁。

关键内容

A. 三问决策树：每一问砍掉一半方案空间

私有化选型的错误做法是「先选厂商再问能不能私有」。正确顺序是先用三个问题把方案空间收敛，再让收敛后的需求去匹配厂商。三问按「砍枝力度」从大到小排序：

  金融私有化部署决策树
  ─────────────────────────────────────────────────────────
  Q1. 数据敏感度：处理的数据是否含 PII / 受监管客户数据？
      │
      ├─ 否（脱敏 / 公开数据 / 内部非敏感）
      │     → 路径④ 云内 VPC 托管即可（AgentCore VPC / Foundry BYO VNet）
      │       数据可留在区域内，不必断网。终。
      │
      └─ 是（KYC / 交易流水 / SAR 证据 / 健康数据）
            ▼
      Q2. 断网要求：合规/监管是否要求数据物理不出本地网络？
          │
          ├─ 否（驻留即可，允许加密专线回云控制面）
          │     → 路径④+ 云内 VPC + PrivateLink，禁公网出口
          │       AgentCore PrivateLink / Gemini GDC connected。终。
          │
          └─ 是（air-gap / 主权云 / 政府 Secret 级）
                ▼
          Q3. GPU 资源：本地是否已有/愿购 GPU 集群且利用率 ≥80%？
              │
              ├─ 否（无 GPU / 利用率低 / 只想试点）
              │     → 路径② 主权托管离线栈
              │       Gemini on GDC air-gapped（厂商管 GPU+更新）
              │       Microsoft Sovereign Private Cloud
              │
              └─ 是（自有 GPU 集群，长期高负载）
                    → 路径① 自建栈（Foundry Local+vLLM / 裸 K8s+NIM）
                      或 路径③ 边缘 SLM（Foundry Local 单卡跑 ≤14B）

为什么是这个顺序——Q1 先问敏感度，因为「数据不敏感」直接让整条私有化讨论作废，省掉后面所有成本，这是砍枝力度最大的一刀；Q2 区分「驻留」与「断网」，这是金融场景最常被混淆的两个概念——「数据不出境」≠「数据不出网」，前者云内 VPC + 区域锁定就能满足，后者才需要烧钱搞 air-gap；Q3 才轮到算 GPU 账，因为只有走到「必须断网」才被迫自管推理。把 Q3 提前问是典型踩坑——还没确认要不要断网，就先纠结买不买 H100，方向全错。

反直觉洞察①（「数据驻留」和「断网」是两个量级的成本，金融客户和方案都常混淆）：合规官说「数据不能出境」，工程师常下意识跳到「那得 air-gapped 自建栈」——错。GDPR Article 46 / 多数央行驻留要求的是数据处理留在指定司法辖区，云厂商的区域内 VPC + 数据驻留承诺 + PrivateLink（禁公网出口）就能满足，控制面流量走加密专线不算「数据出境」。真正要求物理断网的只有政府 Secret 级、主权云强制、或银行内审红线场景。把「驻留」当「断网」做，方案成本直接翻 3–5 倍（路径④的云原生 vs 路径①的自建栈），售前 TCO 一算就废。先确认是 Q2 的哪一档，再报价。

B. 四条路径的能力与边界

三问决策树的叶子是四条路径。逐条讲透「怎么做 + 为什么 + 边界在哪」：

路径① 自建栈（Foundry Local + vLLM，或裸 K8s + vLLM/NVIDIA NIM）。 最大控制权，也最重。Microsoft Foundry Local（2026-02 在 Azure Local 上做 sovereign AI GA 方向）用 vLLM 作高吞吐推理引擎，支持 ONNX 与 vLLM 优化模型双轨，并支持 bring-your-own-models（用 Olive 优化后自带权重），可在断网/离线环境运行（Microsoft Learn, 2026-02）。裸栈路线则是 K8s 上自起 vLLM / NVIDIA NIM / SGLang——SitePoint / TrueFoundry 口径里 vLLM + NIM 已是 2026 自托管推理的事实标准（SitePoint, 2026-04）。边界：你要自己背 GPU 运维、模型升级、安全补丁、SR 11-7 要求的全套基础设施文档。

路径② 主权托管离线栈（Gemini on GDC air-gapped / Microsoft Sovereign Private Cloud）。 厂商把「断网」这件难事打包给你。Gemini on GDC air-gapped 已 GA（2025-08），是一个跑在你机房内的全托管 Gemini 端点：零接触更新（zero-touch update）、自动负载均衡与弹性扩缩，模型支持 1M token 上下文 + 多模态 + 100+ 语言，跑在 NVIDIA Blackwell（DGX/HGX B200） 上，且 air-gapped 版已获美国政府 Secret 与 Top Secret 任务授权（Google Cloud Blog, 2025-08）。它把路径①的运维痛点全吃掉，代价是模型选择受限于厂商目录、且要买厂商指定硬件。

路径③ 边缘 SLM（Foundry Local 单机/单卡跑小模型）。 当任务能被 ≤14B 的小语言模型（SLM）吃下时，根本不需要多卡集群。Foundry Local 定位「edge-first」：SLM 参数从 <1B 到约 14B，可单 GPU 甚至 CPU 运行，适合分支机构本地 kiosk、字段级脱敏预处理、离线推理（Microsoft Learn, 2026-02）。AML 场景的「实体抽取 / 字段标准化 / 风险打分初筛」这类窄任务正适合，把贵的大模型推理留给真正的 SAR 叙述生成。

路径④ 云内 VPC 托管（AgentCore VPC+PrivateLink / Foundry BYO VNet / GDC connected）。 不断网、只隔离。AgentCore 支持 PrivateLink：在你的 VPC 加一个 AgentCore VPC interface endpoint，对 Runtime/Gateway 的 API 调用全程不走公网、不需 NAT/IGW/VPN（AWS Docs, 2026）；AgentCore 已在 15 个区域可用以满足数据驻留，且 2026-02-10 列入 HIPAA eligible（AWS, 2026-02）。这是路径里最省钱、最快上线、能力最全的一档——只要 Q2 答「驻留即可、无需断网」就选它。

C.★ 选型 SOTA 检查与四路径量化对比

把四条路径放进一张表，量化「断网程度 / 运维负担 / 成本 / 模型自由度」。GPU 经济用 Spheron 2026-04-13 一手测算：

维度	① 自建栈 vLLM/NIM	② 主权托管 GDC air-gapped	③ 边缘 SLM Foundry Local	④ 云内 VPC+PrivateLink
断网程度	完全可 air-gap	完全 air-gap（厂商托管）	完全可离线	不断网，仅隔离+驻留
GPU 谁管	自己	厂商（买其指定 Blackwell）	自己（单卡/CPU 即可）	云厂商
模型升级/补丁	自己背	零接触更新	自己（但模型小，简单）	云厂商托管
模型自由度	最高（BYO 任意权重）	受限厂商目录（Gemini）	中（SLM ≤14B 目录+BYO）	受限平台目录
3 年 TCO（8×H100 等效）	$71.2 万–$94.8 万	厂商报价（含硬件+托管溢价）	大幅低（单卡，~$10K 级硬件）	纯消耗计费，无前期 capex
何时划算	GPU 利用率 ≥80% 且长期	必须断网 + 不想自管运维	任务可被 ≤14B 吃下	利用率 <70% / 试点 / 弹性负载
合规上限	任意（含 Secret 级，看自建合规）	美国政府 Secret/Top Secret 授权	任意（本地）	HIPAA eligible / 区域驻留
上线速度	最慢（数周–数月）	中（厂商交付）	快（单机）	最快（API 即用）

自建栈 TCO 拆解（Spheron, 2026-04）：单台 8×H100 SXM5 三年 $711,950–$947,730，其中硬件折旧 $11.6 万–$15 万/年、0.5 FTE 运维 $7.5 万–$10 万/年、电力（~10.2 kW）+ 30% 制冷 + 机柜 + 网络存储维护。对照云价：Spheron H100 现货 $0.80/GPU·h vs 按需 $2.90，AWS H100 $4.10–$6.88/GPU·h。经济临界点：GPU 利用率 <70% 云胜，≥80% 持续负载自建在 3 年期对标超大规模云厂商才可能赢（Spheron, 2026-04）。

反直觉洞察②（自建栈本身就是「云内自建」路径的参考实现——本项目的 src/agent/ 已经是一份路径①的开源蓝图）：很多人以为「私有化部署」要等到客户签单才从零搭。但本项目 src/agent/ 这套自建编排（orchestrator + RAG + memory + durable checkpoint + gateway semanticCache + mcp toolRegistry）就是路径①「裸栈自建」的应用层参考实现——它框架无关、不绑任何托管平台，只要把底层 LLM 调用从云 API 换成本地 vLLM/NIM 端点，整套就能跑在 air-gapped 机房里。换句话说，自建栈不是托管平台的「降级 fallback」，而是私有化光谱里最高控制权的一档，而我已经有了它的工作实现。这正是求职作品集里对金融客户最有说服力的一句：「这套 agent 我能在你断网的机房里原样部署，不依赖任何外部 SaaS。」

设计要点/决策表

决策点	选择	理由
选型起手式	先问 Q1 数据敏感度，不先问厂商	不敏感直接走路径④，省掉全部私有化成本
驻留 vs 断网	严格区分 Q2 两档，默认优先驻留	误把驻留做成断网，TCO 翻 3–5 倍
不敏感/试点负载	路径④ 云内 VPC + PrivateLink 禁公网	最快上线、最省钱、能力最全
必须断网 + 不想自管	路径② Gemini GDC air-gapped	零接触更新 + Secret 级授权，吃掉运维
必须断网 + 有 GPU 集群	路径① 自建栈（Foundry Local/vLLM/NIM）	最高控制权，利用率 ≥80% 才划算
窄任务（抽取/打分）	路径③ 边缘 SLM ≤14B 单卡	不为窄任务买多卡集群，省钱
推理引擎	vLLM（首选）/ NVIDIA NIM	2026 自托管事实标准，高吞吐 PagedAttention
本项目部署形态	路径① 应用层用 src/agent/，底层 LLM 可切本地端点	框架无关，断网机房可原样部署

对本项目的落地

新建 docs/aipa/deployment/private-deployment-decision.md（部署决策记录）：把三问决策树固化为一份可贴进售前方案的 ADR，明确 AML Copilot 默认推荐 路径①（自建栈）/ 路径②（GDC air-gapped） 两档——因为它处理 SAR 原始证据（PII + 受监管客户数据），Q1 必答「是」、Q2 在金融客户处多半答「断网」，决策树天然落到①或②。
抽象 LLM 端点层 src/agent/config/llmEndpoint.ts（设计决策）：现有 src/agent/orchestrator、src/agent/rag、src/agent/memory/summarizer.ts 都直接调云 LLM。落地决策是把 LLM 调用收口到一个 llmEndpoint 适配器，支持 mode: 'cloud-api' | 'local-vllm' | 'nim'，使整套 src/agent/ 在不改业务逻辑的前提下切到本地 vLLM/NIM——这是路径①「断网机房原样部署」的工程前提，也是洞察②的兑现。
边缘 SLM 预处理挂载点（设计）：AML 的字段标准化/实体抽取属窄任务，落到路径③——在 src/aml/typology.ts 与 src/aml/sarDraft.ts 之间加一个可选的「本地 SLM 预处理」钩子，把贵的大模型推理只留给 src/aml/sarNarrative.ts 的 SAR 叙述生成，降低断网部署的 GPU 账单。
PrivateLink/驻留作为路径④回退（文档）：在决策记录里写明：若客户只要驻留不要断网，回退路径④——AgentCore VPC interface endpoint（HIPAA eligible, 2026-02）或 Foundry BYO VNet，配置禁公网出口。这给售前一个「轻量快速试点」选项，呼应 Day 114 售前方案书的 POC 阶段。
诚实标注：llmEndpoint.ts 的 local-vllm 适配器为 P4 设计骨架，实际本地推理联调（vLLM 起服务、模型权重加载、吞吐压测）为客户 POC 期动作；本日仅落决策树、端点抽象接口与四路径对比，不含真实 GPU 部署。

参考资料

Google Cloud Blog — Run Gemini and AI on-prem with Google Distributed Cloud：Gemini on GDC air-gapped GA、零接触更新、NVIDIA Blackwell（DGX/HGX B200）、美国政府 Secret/Top Secret 授权、1M token 多模态（2025-08，preview 起 2025-Q3）
Microsoft Learn — Foundry Local on Azure Local（sovereign AI）：vLLM 推理引擎 + ONNX 双轨、bring-your-own-models（Olive 优化）、SLM <1B–~14B 单 GPU/CPU、离线/边缘场景（2026-02）
AWS Docs — Protecting your data using VPC and AWS PrivateLink (Bedrock AgentCore) + AgentCore FAQs：PrivateLink interface endpoint 免公网、15 区域数据驻留、HIPAA eligible（2026 / HIPAA 2026-02-10）
Spheron Blog — LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even：8×H100 三年 TCO $71.2 万–$94.8 万、利用率 <70% 云胜 / ≥80% 自建可赢、H100 现货 $0.80 vs 按需 $2.90/GPU·h（2026-04-13）
SitePoint / TrueFoundry — 2026 Definitive Guide to Running Local LLMs in Production / On-Prem LLMs：vLLM + NVIDIA NIM 为 2026 自托管事实标准、70B 需 8–16×H100、GDPR Art.46 禁 EU 金融数据路由美国 API（2026-04）
本仓库 src/agent/（orchestrator/rag/memory/durable/gateway/mcp，路径①应用层参考实现）、src/aml/（SAR 证据处理逻辑）(2026-06)

SOTA 检查 (2026-06-11)

私有化光谱四路径在 2026-06 稳固：Gemini GDC air-gapped（2025-08 GA）、Foundry Local sovereign（2026-02）、AgentCore PrivateLink+HIPAA（2026-02）三条托管/隔离路径均已 GA 落地；vLLM+NIM 自托管事实标准未见挑战者。本日 WebSearch×2 + WebFetch（Google Cloud Blog / Spheron 一手定价）确认无更新替代。
GPU 经济临界点是会漂的数字，须执行当周重测：「利用率 <70% 云胜 / ≥80% 自建可赢」与 8×H100 三年 $71万–$95万 TCO 引自 Spheron 2026-04-13；H100 现货价、Blackwell B200/GB200 普及（FP4 翻吞吐、半显存）会把临界点持续往「自建更早划算」推。报价前必须用执行当周的现货价重算，不可直接引用本表数字。
Radar Vol 35 尚未发布的诚实标注：原计划要求「★Radar Vol 35 检查」，但 ThoughtWorks Technology Radar 截至 2026-06 最新为 Vol 34（2026-04），Vol 35 尚未发布。Vol 34 已收录 Langfuse v3 自托管复杂度上升、Qwen3 等开源模型「on-prem control」主题，与本日「自托管/主权部署」主线一致。待 Vol 35 发布后回填其对 self-hosted models / AI platform engineering 的最新象限判断。
待跟踪：① Foundry Local 在 Azure Local 上的 sovereign AI 是否从「GA 方向」转为明确 GA 里程碑；② AgentCore 是否新增 FedRAMP（当前 pursuing）；③ Gemini GDC connected 版（非 air-gapped）的 GA 时间，它可能成为「驻留但不断网」金融客户的更优路径④替代。以上执行当周重新确认。