金融私有化部署方案 — 数据敏感度→断网要求→GPU 资源的三问决策树
金融私有化部署方案 — 数据敏感度→断网要求→GPU 资源的三问决策树
日期: 2026-10-05 阶段: Phase 4 - 自建 Agent 平台×求职冲刺 标签: #private-deployment #air-gapped #foundry-local #self-hosted-llm
核心问题
P4 前几天把 AgentCore / Foundry / Gemini Enterprise 三家托管 Agent 平台横向比完了。但金融客户的第一句话往往不是「哪家功能强」,而是——「我的客户数据能不能离开我的机房?」 这一句话直接否决了 80% 的「默认走公有云托管」方案。今天回答三件事:
- 私有化不是一个开关,是一条光谱。 从「云内 VPC 隔离」到「完全断网 air-gapped」中间有四档,每一档对应不同的数据敏感度、合规义务和 GPU 账单。把它们混为一谈,会让方案在售前就被合规官否掉。
- 怎么用工程化的方式选档? 提出一个「数据敏感度 → 断网要求 → GPU 资源」三问决策树,每一问都把方案空间砍掉一半,最后落到四条具体路径之一。
- 断网的真实成本是多少? 用 2026-04 一手定价测算:自建 8×H100 栈三年 TCO 约 $71 万–$95 万,什么时候它比托管便宜、什么时候是纯烧钱。
对 AML Copilot 这是生死问题:它处理 SAR(可疑活动报告)原始证据——KYC 资料、交易流水、受益所有人——这些在 GDPR Article 46 / 央行数据驻留要求下根本不允许路由到美国托管的 LLM API。所以本项目的部署方案必须从 day 1 就把「私有化」当一等公民,而不是事后补丁。
关键内容
A. 三问决策树:每一问砍掉一半方案空间
私有化选型的错误做法是「先选厂商再问能不能私有」。正确顺序是先用三个问题把方案空间收敛,再让收敛后的需求去匹配厂商。三问按「砍枝力度」从大到小排序:
金融私有化部署决策树
─────────────────────────────────────────────────────────
Q1. 数据敏感度:处理的数据是否含 PII / 受监管客户数据?
│
├─ 否(脱敏 / 公开数据 / 内部非敏感)
│ → 路径④ 云内 VPC 托管即可(AgentCore VPC / Foundry BYO VNet)
│ 数据可留在区域内,不必断网。终。
│
└─ 是(KYC / 交易流水 / SAR 证据 / 健康数据)
▼
Q2. 断网要求:合规/监管是否要求数据物理不出本地网络?
│
├─ 否(驻留即可,允许加密专线回云控制面)
│ → 路径④+ 云内 VPC + PrivateLink,禁公网出口
│ AgentCore PrivateLink / Gemini GDC connected。终。
│
└─ 是(air-gap / 主权云 / 政府 Secret 级)
▼
Q3. GPU 资源:本地是否已有/愿购 GPU 集群且利用率 ≥80%?
│
├─ 否(无 GPU / 利用率低 / 只想试点)
│ → 路径② 主权托管离线栈
│ Gemini on GDC air-gapped(厂商管 GPU+更新)
│ Microsoft Sovereign Private Cloud
│
└─ 是(自有 GPU 集群,长期高负载)
→ 路径① 自建栈(Foundry Local+vLLM / 裸 K8s+NIM)
或 路径③ 边缘 SLM(Foundry Local 单卡跑 ≤14B)
为什么是这个顺序——Q1 先问敏感度,因为「数据不敏感」直接让整条私有化讨论作废,省掉后面所有成本,这是砍枝力度最大的一刀;Q2 区分「驻留」与「断网」,这是金融场景最常被混淆的两个概念——「数据不出境」≠「数据不出网」,前者云内 VPC + 区域锁定就能满足,后者才需要烧钱搞 air-gap;Q3 才轮到算 GPU 账,因为只有走到「必须断网」才被迫自管推理。把 Q3 提前问是典型踩坑——还没确认要不要断网,就先纠结买不买 H100,方向全错。
反直觉洞察①(「数据驻留」和「断网」是两个量级的成本,金融客户和方案都常混淆):合规官说「数据不能出境」,工程师常下意识跳到「那得 air-gapped 自建栈」——错。GDPR Article 46 / 多数央行驻留要求的是数据处理留在指定司法辖区,云厂商的区域内 VPC + 数据驻留承诺 + PrivateLink(禁公网出口)就能满足,控制面流量走加密专线不算「数据出境」。真正要求物理断网的只有政府 Secret 级、主权云强制、或银行内审红线场景。把「驻留」当「断网」做,方案成本直接翻 3–5 倍(路径④的云原生 vs 路径①的自建栈),售前 TCO 一算就废。先确认是 Q2 的哪一档,再报价。
B. 四条路径的能力与边界
三问决策树的叶子是四条路径。逐条讲透「怎么做 + 为什么 + 边界在哪」:
路径① 自建栈(Foundry Local + vLLM,或裸 K8s + vLLM/NVIDIA NIM)。 最大控制权,也最重。Microsoft Foundry Local(2026-02 在 Azure Local 上做 sovereign AI GA 方向)用 vLLM 作高吞吐推理引擎,支持 ONNX 与 vLLM 优化模型双轨,并支持 bring-your-own-models(用 Olive 优化后自带权重),可在断网/离线环境运行(Microsoft Learn, 2026-02)。裸栈路线则是 K8s 上自起 vLLM / NVIDIA NIM / SGLang——SitePoint / TrueFoundry 口径里 vLLM + NIM 已是 2026 自托管推理的事实标准(SitePoint, 2026-04)。边界:你要自己背 GPU 运维、模型升级、安全补丁、SR 11-7 要求的全套基础设施文档。
路径② 主权托管离线栈(Gemini on GDC air-gapped / Microsoft Sovereign Private Cloud)。 厂商把「断网」这件难事打包给你。Gemini on GDC air-gapped 已 GA(2025-08),是一个跑在你机房内的全托管 Gemini 端点:零接触更新(zero-touch update)、自动负载均衡与弹性扩缩,模型支持 1M token 上下文 + 多模态 + 100+ 语言,跑在 NVIDIA Blackwell(DGX/HGX B200) 上,且 air-gapped 版已获美国政府 Secret 与 Top Secret 任务授权(Google Cloud Blog, 2025-08)。它把路径①的运维痛点全吃掉,代价是模型选择受限于厂商目录、且要买厂商指定硬件。
路径③ 边缘 SLM(Foundry Local 单机/单卡跑小模型)。 当任务能被 ≤14B 的小语言模型(SLM)吃下时,根本不需要多卡集群。Foundry Local 定位「edge-first」:SLM 参数从 <1B 到约 14B,可单 GPU 甚至 CPU 运行,适合分支机构本地 kiosk、字段级脱敏预处理、离线推理(Microsoft Learn, 2026-02)。AML 场景的「实体抽取 / 字段标准化 / 风险打分初筛」这类窄任务正适合,把贵的大模型推理留给真正的 SAR 叙述生成。
路径④ 云内 VPC 托管(AgentCore VPC+PrivateLink / Foundry BYO VNet / GDC connected)。 不断网、只隔离。AgentCore 支持 PrivateLink:在你的 VPC 加一个 AgentCore VPC interface endpoint,对 Runtime/Gateway 的 API 调用全程不走公网、不需 NAT/IGW/VPN(AWS Docs, 2026);AgentCore 已在 15 个区域可用以满足数据驻留,且 2026-02-10 列入 HIPAA eligible(AWS, 2026-02)。这是路径里最省钱、最快上线、能力最全的一档——只要 Q2 答「驻留即可、无需断网」就选它。
C.★ 选型 SOTA 检查与四路径量化对比
把四条路径放进一张表,量化「断网程度 / 运维负担 / 成本 / 模型自由度」。GPU 经济用 Spheron 2026-04-13 一手测算:
| 维度 | ① 自建栈 vLLM/NIM | ② 主权托管 GDC air-gapped | ③ 边缘 SLM Foundry Local | ④ 云内 VPC+PrivateLink |
|---|---|---|---|---|
| 断网程度 | 完全可 air-gap | 完全 air-gap(厂商托管) | 完全可离线 | 不断网,仅隔离+驻留 |
| GPU 谁管 | 自己 | 厂商(买其指定 Blackwell) | 自己(单卡/CPU 即可) | 云厂商 |
| 模型升级/补丁 | 自己背 | 零接触更新 | 自己(但模型小,简单) | 云厂商托管 |
| 模型自由度 | 最高(BYO 任意权重) | 受限厂商目录(Gemini) | 中(SLM ≤14B 目录+BYO) | 受限平台目录 |
| 3 年 TCO(8×H100 等效) | $71.2 万–$94.8 万 | 厂商报价(含硬件+托管溢价) | 大幅低(单卡,~$10K 级硬件) | 纯消耗计费,无前期 capex |
| 何时划算 | GPU 利用率 ≥80% 且长期 | 必须断网 + 不想自管运维 | 任务可被 ≤14B 吃下 | 利用率 <70% / 试点 / 弹性负载 |
| 合规上限 | 任意(含 Secret 级,看自建合规) | 美国政府 Secret/Top Secret 授权 | 任意(本地) | HIPAA eligible / 区域驻留 |
| 上线速度 | 最慢(数周–数月) | 中(厂商交付) | 快(单机) | 最快(API 即用) |
自建栈 TCO 拆解(Spheron, 2026-04):单台 8×H100 SXM5 三年 $711,950–$947,730,其中硬件折旧 $11.6 万–$15 万/年、0.5 FTE 运维 $7.5 万–$10 万/年、电力(~10.2 kW)+ 30% 制冷 + 机柜 + 网络存储维护。对照云价:Spheron H100 现货 $0.80/GPU·h vs 按需 $2.90,AWS H100 $4.10–$6.88/GPU·h。经济临界点:GPU 利用率 <70% 云胜,≥80% 持续负载自建在 3 年期对标超大规模云厂商才可能赢(Spheron, 2026-04)。
反直觉洞察②(自建栈本身就是「云内自建」路径的参考实现——本项目的 src/agent/ 已经是一份路径①的开源蓝图):很多人以为「私有化部署」要等到客户签单才从零搭。但本项目
src/agent/这套自建编排(orchestrator + RAG + memory + durable checkpoint + gateway semanticCache + mcp toolRegistry)就是路径①「裸栈自建」的应用层参考实现——它框架无关、不绑任何托管平台,只要把底层 LLM 调用从云 API 换成本地 vLLM/NIM 端点,整套就能跑在 air-gapped 机房里。换句话说,自建栈不是托管平台的「降级 fallback」,而是私有化光谱里最高控制权的一档,而我已经有了它的工作实现。这正是求职作品集里对金融客户最有说服力的一句:「这套 agent 我能在你断网的机房里原样部署,不依赖任何外部 SaaS。」
设计要点/决策表
| 决策点 | 选择 | 理由 |
|---|---|---|
| 选型起手式 | 先问 Q1 数据敏感度,不先问厂商 | 不敏感直接走路径④,省掉全部私有化成本 |
| 驻留 vs 断网 | 严格区分 Q2 两档,默认优先驻留 | 误把驻留做成断网,TCO 翻 3–5 倍 |
| 不敏感/试点负载 | 路径④ 云内 VPC + PrivateLink 禁公网 | 最快上线、最省钱、能力最全 |
| 必须断网 + 不想自管 | 路径② Gemini GDC air-gapped | 零接触更新 + Secret 级授权,吃掉运维 |
| 必须断网 + 有 GPU 集群 | 路径① 自建栈(Foundry Local/vLLM/NIM) | 最高控制权,利用率 ≥80% 才划算 |
| 窄任务(抽取/打分) | 路径③ 边缘 SLM ≤14B 单卡 | 不为窄任务买多卡集群,省钱 |
| 推理引擎 | vLLM(首选)/ NVIDIA NIM | 2026 自托管事实标准,高吞吐 PagedAttention |
| 本项目部署形态 | 路径① 应用层用 src/agent/,底层 LLM 可切本地端点 | 框架无关,断网机房可原样部署 |
对本项目的落地
- 新建
docs/aipa/deployment/private-deployment-decision.md(部署决策记录):把三问决策树固化为一份可贴进售前方案的 ADR,明确 AML Copilot 默认推荐 路径①(自建栈)/ 路径②(GDC air-gapped) 两档——因为它处理 SAR 原始证据(PII + 受监管客户数据),Q1 必答「是」、Q2 在金融客户处多半答「断网」,决策树天然落到①或②。 - 抽象 LLM 端点层
src/agent/config/llmEndpoint.ts(设计决策):现有src/agent/orchestrator、src/agent/rag、src/agent/memory/summarizer.ts都直接调云 LLM。落地决策是把 LLM 调用收口到一个llmEndpoint适配器,支持mode: 'cloud-api' | 'local-vllm' | 'nim',使整套src/agent/在不改业务逻辑的前提下切到本地 vLLM/NIM——这是路径①「断网机房原样部署」的工程前提,也是洞察②的兑现。 - 边缘 SLM 预处理挂载点(设计):AML 的字段标准化/实体抽取属窄任务,落到路径③——在
src/aml/typology.ts与src/aml/sarDraft.ts之间加一个可选的「本地 SLM 预处理」钩子,把贵的大模型推理只留给src/aml/sarNarrative.ts的 SAR 叙述生成,降低断网部署的 GPU 账单。 - PrivateLink/驻留作为路径④回退(文档):在决策记录里写明:若客户只要驻留不要断网,回退路径④——AgentCore VPC interface endpoint(HIPAA eligible, 2026-02)或 Foundry BYO VNet,配置禁公网出口。这给售前一个「轻量快速试点」选项,呼应 Day 114 售前方案书的 POC 阶段。
- 诚实标注:
llmEndpoint.ts的local-vllm适配器为 P4 设计骨架,实际本地推理联调(vLLM 起服务、模型权重加载、吞吐压测)为客户 POC 期动作;本日仅落决策树、端点抽象接口与四路径对比,不含真实 GPU 部署。
参考资料
- Google Cloud Blog — Run Gemini and AI on-prem with Google Distributed Cloud:Gemini on GDC air-gapped GA、零接触更新、NVIDIA Blackwell(DGX/HGX B200)、美国政府 Secret/Top Secret 授权、1M token 多模态(2025-08,preview 起 2025-Q3)
- Microsoft Learn — Foundry Local on Azure Local(sovereign AI):vLLM 推理引擎 + ONNX 双轨、bring-your-own-models(Olive 优化)、SLM <1B–~14B 单 GPU/CPU、离线/边缘场景(2026-02)
- AWS Docs — Protecting your data using VPC and AWS PrivateLink (Bedrock AgentCore) + AgentCore FAQs:PrivateLink interface endpoint 免公网、15 区域数据驻留、HIPAA eligible(2026 / HIPAA 2026-02-10)
- Spheron Blog — LLM Inference On-Premise vs GPU Cloud: 2026 Cost and Break-Even:8×H100 三年 TCO $71.2 万–$94.8 万、利用率 <70% 云胜 / ≥80% 自建可赢、H100 现货 $0.80 vs 按需 $2.90/GPU·h(2026-04-13)
- SitePoint / TrueFoundry — 2026 Definitive Guide to Running Local LLMs in Production / On-Prem LLMs:vLLM + NVIDIA NIM 为 2026 自托管事实标准、70B 需 8–16×H100、GDPR Art.46 禁 EU 金融数据路由美国 API(2026-04)
- 本仓库
src/agent/(orchestrator/rag/memory/durable/gateway/mcp,路径①应用层参考实现)、src/aml/(SAR 证据处理逻辑)(2026-06)
SOTA 检查 (2026-06-11)
- 私有化光谱四路径在 2026-06 稳固:Gemini GDC air-gapped(2025-08 GA)、Foundry Local sovereign(2026-02)、AgentCore PrivateLink+HIPAA(2026-02)三条托管/隔离路径均已 GA 落地;vLLM+NIM 自托管事实标准未见挑战者。本日 WebSearch×2 + WebFetch(Google Cloud Blog / Spheron 一手定价)确认无更新替代。
- GPU 经济临界点是会漂的数字,须执行当周重测:「利用率 <70% 云胜 / ≥80% 自建可赢」与 8×H100 三年 $71万–$95万 TCO 引自 Spheron 2026-04-13;H100 现货价、Blackwell B200/GB200 普及(FP4 翻吞吐、半显存)会把临界点持续往「自建更早划算」推。报价前必须用执行当周的现货价重算,不可直接引用本表数字。
- Radar Vol 35 尚未发布的诚实标注:原计划要求「★Radar Vol 35 检查」,但 ThoughtWorks Technology Radar 截至 2026-06 最新为 Vol 34(2026-04),Vol 35 尚未发布。Vol 34 已收录 Langfuse v3 自托管复杂度上升、Qwen3 等开源模型「on-prem control」主题,与本日「自托管/主权部署」主线一致。待 Vol 35 发布后回填其对 self-hosted models / AI platform engineering 的最新象限判断。
- 待跟踪:① Foundry Local 在 Azure Local 上的 sovereign AI 是否从「GA 方向」转为明确 GA 里程碑;② AgentCore 是否新增 FedRAMP(当前 pursuing);③ Gemini GDC connected 版(非 air-gapped)的 GA 时间,它可能成为「驻留但不断网」金融客户的更优路径④替代。以上执行当周重新确认。