返回 AIPA 笔记
AIPA Day 113

金融私有化部署方案 — 数据敏感度→断网要求→GPU 资源的三问决策树

金融私有化部署方案 — 数据敏感度→断网要求→GPU 资源的三问决策树

2026-10-05
private-deploymentair-gappedfoundry-localself-hosted-llm

日期: 2026-10-05 阶段: Phase 4 - 自建 Agent 平台×求职冲刺 标签: #private-deployment #air-gapped #foundry-local #self-hosted-llm

核心问题

P4 前几天把 AgentCore / Foundry / Gemini Enterprise 三家托管 Agent 平台横向比完了。但金融客户的第一句话往往不是「哪家功能强」,而是——「我的客户数据能不能离开我的机房?」 这一句话直接否决了 80% 的「默认走公有云托管」方案。今天回答三件事:

  1. 私有化不是一个开关,是一条光谱。 从「云内 VPC 隔离」到「完全断网 air-gapped」中间有四档,每一档对应不同的数据敏感度、合规义务和 GPU 账单。把它们混为一谈,会让方案在售前就被合规官否掉。
  2. 怎么用工程化的方式选档? 提出一个「数据敏感度 → 断网要求 → GPU 资源」三问决策树,每一问都把方案空间砍掉一半,最后落到四条具体路径之一。
  3. 断网的真实成本是多少? 用 2026-04 一手定价测算:自建 8×H100 栈三年 TCO 约 $71 万–$95 万,什么时候它比托管便宜、什么时候是纯烧钱。

对 AML Copilot 这是生死问题:它处理 SAR(可疑活动报告)原始证据——KYC 资料、交易流水、受益所有人——这些在 GDPR Article 46 / 央行数据驻留要求下根本不允许路由到美国托管的 LLM API。所以本项目的部署方案必须从 day 1 就把「私有化」当一等公民,而不是事后补丁。

关键内容

A. 三问决策树:每一问砍掉一半方案空间

私有化选型的错误做法是「先选厂商再问能不能私有」。正确顺序是先用三个问题把方案空间收敛,再让收敛后的需求去匹配厂商。三问按「砍枝力度」从大到小排序:

  金融私有化部署决策树
  ─────────────────────────────────────────────────────────
  Q1. 数据敏感度:处理的数据是否含 PII / 受监管客户数据?
      │
      ├─ 否(脱敏 / 公开数据 / 内部非敏感)
      │     → 路径④ 云内 VPC 托管即可(AgentCore VPC / Foundry BYO VNet)
      │       数据可留在区域内,不必断网。终。
      │
      └─ 是(KYC / 交易流水 / SAR 证据 / 健康数据)
            ▼
      Q2. 断网要求:合规/监管是否要求数据物理不出本地网络?
          │
          ├─ 否(驻留即可,允许加密专线回云控制面)
          │     → 路径④+ 云内 VPC + PrivateLink,禁公网出口
          │       AgentCore PrivateLink / Gemini GDC connected。终。
          │
          └─ 是(air-gap / 主权云 / 政府 Secret 级)
                ▼
          Q3. GPU 资源:本地是否已有/愿购 GPU 集群且利用率 ≥80%?
              │
              ├─ 否(无 GPU / 利用率低 / 只想试点)
              │     → 路径② 主权托管离线栈
              │       Gemini on GDC air-gapped(厂商管 GPU+更新)
              │       Microsoft Sovereign Private Cloud
              │
              └─ 是(自有 GPU 集群,长期高负载)
                    → 路径① 自建栈(Foundry Local+vLLM / 裸 K8s+NIM)
                      或 路径③ 边缘 SLM(Foundry Local 单卡跑 ≤14B)

为什么是这个顺序——Q1 先问敏感度,因为「数据不敏感」直接让整条私有化讨论作废,省掉后面所有成本,这是砍枝力度最大的一刀;Q2 区分「驻留」与「断网」,这是金融场景最常被混淆的两个概念——「数据不出境」≠「数据不出网」,前者云内 VPC + 区域锁定就能满足,后者才需要烧钱搞 air-gap;Q3 才轮到算 GPU 账,因为只有走到「必须断网」才被迫自管推理。把 Q3 提前问是典型踩坑——还没确认要不要断网,就先纠结买不买 H100,方向全错。

反直觉洞察①(「数据驻留」和「断网」是两个量级的成本,金融客户和方案都常混淆):合规官说「数据不能出境」,工程师常下意识跳到「那得 air-gapped 自建栈」——错。GDPR Article 46 / 多数央行驻留要求的是数据处理留在指定司法辖区,云厂商的区域内 VPC + 数据驻留承诺 + PrivateLink(禁公网出口)就能满足,控制面流量走加密专线不算「数据出境」。真正要求物理断网的只有政府 Secret 级、主权云强制、或银行内审红线场景。把「驻留」当「断网」做,方案成本直接翻 3–5 倍(路径④的云原生 vs 路径①的自建栈),售前 TCO 一算就废。先确认是 Q2 的哪一档,再报价。

B. 四条路径的能力与边界

三问决策树的叶子是四条路径。逐条讲透「怎么做 + 为什么 + 边界在哪」:

路径① 自建栈(Foundry Local + vLLM,或裸 K8s + vLLM/NVIDIA NIM)。 最大控制权,也最重。Microsoft Foundry Local(2026-02 在 Azure Local 上做 sovereign AI GA 方向)用 vLLM 作高吞吐推理引擎,支持 ONNX 与 vLLM 优化模型双轨,并支持 bring-your-own-models(用 Olive 优化后自带权重),可在断网/离线环境运行(Microsoft Learn, 2026-02)。裸栈路线则是 K8s 上自起 vLLM / NVIDIA NIM / SGLang——SitePoint / TrueFoundry 口径里 vLLM + NIM 已是 2026 自托管推理的事实标准(SitePoint, 2026-04)。边界:你要自己背 GPU 运维、模型升级、安全补丁、SR 11-7 要求的全套基础设施文档。

路径② 主权托管离线栈(Gemini on GDC air-gapped / Microsoft Sovereign Private Cloud)。 厂商把「断网」这件难事打包给你。Gemini on GDC air-gapped 已 GA(2025-08),是一个跑在你机房内的全托管 Gemini 端点:零接触更新(zero-touch update)、自动负载均衡与弹性扩缩,模型支持 1M token 上下文 + 多模态 + 100+ 语言,跑在 NVIDIA Blackwell(DGX/HGX B200) 上,且 air-gapped 版已获美国政府 Secret 与 Top Secret 任务授权(Google Cloud Blog, 2025-08)。它把路径①的运维痛点全吃掉,代价是模型选择受限于厂商目录、且要买厂商指定硬件。

路径③ 边缘 SLM(Foundry Local 单机/单卡跑小模型)。 当任务能被 ≤14B 的小语言模型(SLM)吃下时,根本不需要多卡集群。Foundry Local 定位「edge-first」:SLM 参数从 <1B 到约 14B,可单 GPU 甚至 CPU 运行,适合分支机构本地 kiosk、字段级脱敏预处理、离线推理(Microsoft Learn, 2026-02)。AML 场景的「实体抽取 / 字段标准化 / 风险打分初筛」这类窄任务正适合,把贵的大模型推理留给真正的 SAR 叙述生成。

路径④ 云内 VPC 托管(AgentCore VPC+PrivateLink / Foundry BYO VNet / GDC connected)。 不断网、只隔离。AgentCore 支持 PrivateLink:在你的 VPC 加一个 AgentCore VPC interface endpoint,对 Runtime/Gateway 的 API 调用全程不走公网、不需 NAT/IGW/VPN(AWS Docs, 2026);AgentCore 已在 15 个区域可用以满足数据驻留,且 2026-02-10 列入 HIPAA eligible(AWS, 2026-02)。这是路径里最省钱、最快上线、能力最全的一档——只要 Q2 答「驻留即可、无需断网」就选它。

C.★ 选型 SOTA 检查与四路径量化对比

把四条路径放进一张表,量化「断网程度 / 运维负担 / 成本 / 模型自由度」。GPU 经济用 Spheron 2026-04-13 一手测算:

维度① 自建栈 vLLM/NIM② 主权托管 GDC air-gapped③ 边缘 SLM Foundry Local④ 云内 VPC+PrivateLink
断网程度完全可 air-gap完全 air-gap(厂商托管)完全可离线不断网,仅隔离+驻留
GPU 谁管自己厂商(买其指定 Blackwell)自己(单卡/CPU 即可)云厂商
模型升级/补丁自己背零接触更新自己(但模型小,简单)云厂商托管
模型自由度最高(BYO 任意权重)受限厂商目录(Gemini)中(SLM ≤14B 目录+BYO)受限平台目录
3 年 TCO(8×H100 等效)$71.2 万–$94.8 万厂商报价(含硬件+托管溢价)大幅低(单卡,~$10K 级硬件)纯消耗计费,无前期 capex
何时划算GPU 利用率 ≥80% 且长期必须断网 + 不想自管运维任务可被 ≤14B 吃下利用率 <70% / 试点 / 弹性负载
合规上限任意(含 Secret 级,看自建合规)美国政府 Secret/Top Secret 授权任意(本地)HIPAA eligible / 区域驻留
上线速度最慢(数周–数月)中(厂商交付)快(单机)最快(API 即用)

自建栈 TCO 拆解(Spheron, 2026-04):单台 8×H100 SXM5 三年 $711,950–$947,730,其中硬件折旧 $11.6 万–$15 万/年、0.5 FTE 运维 $7.5 万–$10 万/年、电力(~10.2 kW)+ 30% 制冷 + 机柜 + 网络存储维护。对照云价:Spheron H100 现货 $0.80/GPU·h vs 按需 $2.90,AWS H100 $4.10–$6.88/GPU·h。经济临界点:GPU 利用率 <70% 云胜,≥80% 持续负载自建在 3 年期对标超大规模云厂商才可能赢(Spheron, 2026-04)。

反直觉洞察②(自建栈本身就是「云内自建」路径的参考实现——本项目的 src/agent/ 已经是一份路径①的开源蓝图):很多人以为「私有化部署」要等到客户签单才从零搭。但本项目 src/agent/ 这套自建编排(orchestrator + RAG + memory + durable checkpoint + gateway semanticCache + mcp toolRegistry)就是路径①「裸栈自建」的应用层参考实现——它框架无关、不绑任何托管平台,只要把底层 LLM 调用从云 API 换成本地 vLLM/NIM 端点,整套就能跑在 air-gapped 机房里。换句话说,自建栈不是托管平台的「降级 fallback」,而是私有化光谱里最高控制权的一档,而我已经有了它的工作实现。这正是求职作品集里对金融客户最有说服力的一句:「这套 agent 我能在你断网的机房里原样部署,不依赖任何外部 SaaS。」

设计要点/决策表

决策点选择理由
选型起手式先问 Q1 数据敏感度,不先问厂商不敏感直接走路径④,省掉全部私有化成本
驻留 vs 断网严格区分 Q2 两档,默认优先驻留误把驻留做成断网,TCO 翻 3–5 倍
不敏感/试点负载路径④ 云内 VPC + PrivateLink 禁公网最快上线、最省钱、能力最全
必须断网 + 不想自管路径② Gemini GDC air-gapped零接触更新 + Secret 级授权,吃掉运维
必须断网 + 有 GPU 集群路径① 自建栈(Foundry Local/vLLM/NIM)最高控制权,利用率 ≥80% 才划算
窄任务(抽取/打分)路径③ 边缘 SLM ≤14B 单卡不为窄任务买多卡集群,省钱
推理引擎vLLM(首选)/ NVIDIA NIM2026 自托管事实标准,高吞吐 PagedAttention
本项目部署形态路径① 应用层用 src/agent/,底层 LLM 可切本地端点框架无关,断网机房可原样部署

对本项目的落地

  • 新建 docs/aipa/deployment/private-deployment-decision.md(部署决策记录):把三问决策树固化为一份可贴进售前方案的 ADR,明确 AML Copilot 默认推荐 路径①(自建栈)/ 路径②(GDC air-gapped) 两档——因为它处理 SAR 原始证据(PII + 受监管客户数据),Q1 必答「是」、Q2 在金融客户处多半答「断网」,决策树天然落到①或②。
  • 抽象 LLM 端点层 src/agent/config/llmEndpoint.ts(设计决策):现有 src/agent/orchestratorsrc/agent/ragsrc/agent/memory/summarizer.ts 都直接调云 LLM。落地决策是把 LLM 调用收口到一个 llmEndpoint 适配器,支持 mode: 'cloud-api' | 'local-vllm' | 'nim',使整套 src/agent/ 在不改业务逻辑的前提下切到本地 vLLM/NIM——这是路径①「断网机房原样部署」的工程前提,也是洞察②的兑现。
  • 边缘 SLM 预处理挂载点(设计):AML 的字段标准化/实体抽取属窄任务,落到路径③——在 src/aml/typology.tssrc/aml/sarDraft.ts 之间加一个可选的「本地 SLM 预处理」钩子,把贵的大模型推理只留给 src/aml/sarNarrative.ts 的 SAR 叙述生成,降低断网部署的 GPU 账单。
  • PrivateLink/驻留作为路径④回退(文档):在决策记录里写明:若客户只要驻留不要断网,回退路径④——AgentCore VPC interface endpoint(HIPAA eligible, 2026-02)或 Foundry BYO VNet,配置禁公网出口。这给售前一个「轻量快速试点」选项,呼应 Day 114 售前方案书的 POC 阶段。
  • 诚实标注llmEndpoint.tslocal-vllm 适配器为 P4 设计骨架,实际本地推理联调(vLLM 起服务、模型权重加载、吞吐压测)为客户 POC 期动作;本日仅落决策树、端点抽象接口与四路径对比,不含真实 GPU 部署。

参考资料

  1. Google Cloud Blog — Run Gemini and AI on-prem with Google Distributed Cloud:Gemini on GDC air-gapped GA、零接触更新、NVIDIA Blackwell(DGX/HGX B200)、美国政府 Secret/Top Secret 授权、1M token 多模态(2025-08,preview 起 2025-Q3)
  2. Microsoft Learn — Foundry Local on Azure Local(sovereign AI):vLLM 推理引擎 + ONNX 双轨、bring-your-own-models(Olive 优化)、SLM <1B–~14B 单 GPU/CPU、离线/边缘场景(2026-02)
  3. AWS Docs — Protecting your data using VPC and AWS PrivateLink (Bedrock AgentCore) + AgentCore FAQs:PrivateLink interface endpoint 免公网、15 区域数据驻留、HIPAA eligible(2026 / HIPAA 2026-02-10)
  4. Spheron Blog — LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even:8×H100 三年 TCO $71.2 万–$94.8 万、利用率 <70% 云胜 / ≥80% 自建可赢、H100 现货 $0.80 vs 按需 $2.90/GPU·h(2026-04-13)
  5. SitePoint / TrueFoundry — 2026 Definitive Guide to Running Local LLMs in Production / On-Prem LLMs:vLLM + NVIDIA NIM 为 2026 自托管事实标准、70B 需 8–16×H100、GDPR Art.46 禁 EU 金融数据路由美国 API(2026-04)
  6. 本仓库 src/agent/(orchestrator/rag/memory/durable/gateway/mcp,路径①应用层参考实现)、src/aml/(SAR 证据处理逻辑)(2026-06)

SOTA 检查 (2026-06-11)

  • 私有化光谱四路径在 2026-06 稳固:Gemini GDC air-gapped(2025-08 GA)、Foundry Local sovereign(2026-02)、AgentCore PrivateLink+HIPAA(2026-02)三条托管/隔离路径均已 GA 落地;vLLM+NIM 自托管事实标准未见挑战者。本日 WebSearch×2 + WebFetch(Google Cloud Blog / Spheron 一手定价)确认无更新替代。
  • GPU 经济临界点是会漂的数字,须执行当周重测:「利用率 <70% 云胜 / ≥80% 自建可赢」与 8×H100 三年 $71万–$95万 TCO 引自 Spheron 2026-04-13;H100 现货价、Blackwell B200/GB200 普及(FP4 翻吞吐、半显存)会把临界点持续往「自建更早划算」推。报价前必须用执行当周的现货价重算,不可直接引用本表数字。
  • Radar Vol 35 尚未发布的诚实标注:原计划要求「★Radar Vol 35 检查」,但 ThoughtWorks Technology Radar 截至 2026-06 最新为 Vol 34(2026-04),Vol 35 尚未发布。Vol 34 已收录 Langfuse v3 自托管复杂度上升、Qwen3 等开源模型「on-prem control」主题,与本日「自托管/主权部署」主线一致。待 Vol 35 发布后回填其对 self-hosted models / AI platform engineering 的最新象限判断。
  • 待跟踪:① Foundry Local 在 Azure Local 上的 sovereign AI 是否从「GA 方向」转为明确 GA 里程碑;② AgentCore 是否新增 FedRAMP(当前 pursuing);③ Gemini GDC connected 版(非 air-gapped)的 GA 时间,它可能成为「驻留但不断网」金融客户的更优路径④替代。以上执行当周重新确认。