返回 Papers
AI 底层逻辑 / 经典论文

Federated Learning / FedAvg:跨域协作 AI

一句话:

258ai-foundations/papers/39-federated-learning-fedavg-cross-silo-ai.md

Federated Learning / FedAvg 解读

面向对象: AI Product Architect / Data Product / Privacy Architect / Risk Product / AI Platform PM。 核心问题: 当数据不能集中到同一个训练环境时,如何训练共享模型?Federated Learning 能解决什么,不能解决什么? 学习目标: 理解 FedAvg、cross-device / cross-silo federated learning、secure aggregation、privacy controls、模型治理,并映射到金融零售跨机构风险协作、集团内数据隔离、财富/信贷模型训练和 KYC/欺诈场景。


Source Anchors

SourceLink用途
FedAvg paperhttps://arxiv.org/abs/1602.05629理解 Federated Averaging 和 decentralized training 的基本问题
Google Research publicationhttps://research.google/pubs/communication-efficient-learning-of-deep-networks-from-decentralized-data/理解通信效率和分布式客户端训练的背景
TensorFlow Federatedhttps://www.tensorflow.org/federated理解 federated computation 的工程抽象
TensorFlow Federated GitHubhttps://github.com/tensorflow/federated理解 TFF 作为开源实验框架的边界
NIST AI RMFhttps://www.nist.gov/itl/ai-risk-management-framework把联邦学习纳入风险、测量、治理和监控

一句话:

Federated Learning 让多个数据持有方在数据不离开本地环境的前提下,共同训练或改进一个共享模型,但它不是隐私、合规和安全的自动豁免。


1. 为什么需要联邦学习

在金融零售里,很多高价值 AI 问题天然跨边界:

  • 不同银行都能看到一部分欺诈行为,但单家机构样本不足。
  • 集团内银行、保险、财富、零售子公司数据不能随意合并。
  • 不同国家或地区的数据 residency 限制不同。
  • 分支机构、商户、合作方各自拥有本地数据。
  • 客户设备或边缘端能提供行为信号,但不能上传原始数据。

传统集中训练假设:

all data -> central data lake -> training -> model

联邦学习改成:

central coordinator sends model
  -> participants train locally
  -> participants send updates
  -> coordinator aggregates
  -> shared model improves

核心价值:

  • 减少原始数据移动。
  • 支持数据分散场景。
  • 降低部分数据共享阻力。
  • 在样本稀缺场景提升模型覆盖。
  • 让跨组织协作有更细的技术控制面。

但要清楚:

  • 模型更新也可能泄露信息。
  • 参与方之间仍需合同、治理和审计。
  • 数据质量、标签口径和分布差异仍然存在。
  • 模型输出仍可能产生偏差或客户影响。
  • 联邦学习不能替代隐私评估、法律评估和模型风险管理。

2. FedAvg 的核心直觉

FedAvg 的基本流程:

server initializes model
  -> selects clients
  -> sends current model weights
  -> clients train locally for several steps
  -> clients send weight updates
  -> server averages updates weighted by local data size
  -> repeat

为什么叫 Federated Averaging:

  • 每个参与方在本地数据上训练。
  • 中央协调器不直接看原始样本。
  • 聚合时对本地模型更新做加权平均。

产品/架构意义:

技术机制产品含义
Local training原始数据不出本地边界
Model update aggregation协作对象从“数据”变成“模型更新”
Client sampling参与方可按策略、可用性、风险选择
Communication rounds成本、延迟、网络和稳定性成为系统约束
Weighted aggregation大数据方影响更大,需要公平和治理设计

3. Cross-Device vs Cross-Silo

类型参与方典型场景金融零售映射
Cross-device大量终端设备输入法、移动端行为、个人设备学习移动银行个性化、设备侧欺诈信号
Cross-silo少量组织或数据域医院、银行、子公司、合作伙伴银行联盟欺诈模型、集团内 KYC/AML 模型

金融零售更常见的是 cross-silo:

  • 参与方少,但每方数据量大。
  • 合同和治理复杂。
  • 网络稳定性比移动端好。
  • 数据 schema 和标签口径差异明显。
  • 需要清晰的责任、审计和退出机制。

Cross-device 更关注:

  • 设备可用性。
  • 电量和网络。
  • 客户同意。
  • 本地模型大小。
  • 差分隐私和 secure aggregation。

4. 联邦学习不是完整隐私方案

常见误解:

数据没有离开本地,所以一定安全合规。

问题在于:

  • 梯度或模型更新可能泄露训练样本信息。
  • 恶意参与方可能发起 poisoning。
  • 协调方可能从更新中推断敏感属性。
  • 不同参与方标签质量不一致会污染模型。
  • 模型反演、成员推断仍需防控。

需要组合控制:

控制作用
Secure aggregation协调方只看聚合结果,不看单个参与方更新
Differential privacy限制单个样本或用户对模型更新的影响
Participant attestation确认参与方运行的是批准代码和环境
Data contract统一 schema、标签、时间窗口、质量标准
Update validation检测异常更新、poisoning、漂移
Governance agreement明确用途、责任、退出、审计、模型所有权
Model evaluation按参与方、地区、客户群体评估

联邦学习是一种数据协作架构,不是合规结论。


5. 金融零售案例

5.1 跨机构欺诈模型

问题:

  • 单家机构只能看到自己客户和交易。
  • 欺诈团伙跨机构迁移。
  • 共享原始交易数据法律、商业和隐私阻力大。

联邦架构:

bank A local fraud data
bank B local fraud data
bank C local fraud data
  -> local training
  -> secure update aggregation
  -> shared fraud model
  -> local validation and deployment

必须解决:

  • 标签定义是否一致。
  • 欺诈确认延迟如何处理。
  • 参与方是否可以贡献低质量或恶意更新。
  • 模型输出是否直接影响客户交易。
  • 误杀客户的责任如何分配。

5.2 集团内信贷模型

集团内不同业务线不能简单合并数据:

  • 银行数据。
  • 汽车金融数据。
  • 零售信贷数据。
  • 外部合作渠道数据。

联邦学习可以训练共享表示或初始模型,但正式信贷决策仍需要:

  • 本地模型验证。
  • 公平借贷评估。
  • reason code。
  • adverse action 边界。
  • 数据用途和客户同意审查。

5.3 KYC 文档模型

不同地区 KYC 文件样式不同。联邦学习可以让地区模型贡献文档识别能力,但:

  • 文档包含高敏 PII。
  • OCR 错误会影响客户 onboarding。
  • 各辖区政策不同。
  • 本地规则和人工复核仍不可省略。

6. Architecture Checklist

设计项高级问题
Federation scope是跨设备、跨子公司、跨机构还是跨国家
Governance谁是 coordinator,谁拥有模型,谁批准参与方
Data contractschema、标签、时间窗口、质量阈值是否一致
Privacy controls是否需要 secure aggregation、DP、TEE 或 clean room
Update validation如何检测异常、poisoning、漂移、低质量参与方
Evaluation全局指标和本地 slice 指标如何同时满足
Deployment共享模型是否统一部署,还是各方本地 fine-tune
Audit是否能证明训练轮次、参与方、版本、隐私参数和评估结果
Exit参与方退出后模型和贡献如何处理
Liability客户影响、误判、投诉和监管问询由谁负责

7. 面试表达

30 秒版本

Federated Learning 适合数据不能集中但又需要协作建模的场景,例如跨机构欺诈或集团内多数据域建模。FedAvg 的核心是把模型发到本地训练,再聚合模型更新。但它不能自动解决隐私和合规问题,模型更新仍可能泄露信息,所以通常要结合 secure aggregation、差分隐私、数据契约、参与方治理、更新验证和本地模型风险管理。

2 分钟版本

我会先区分 cross-device 和 cross-silo。金融零售更常见的是 cross-silo,例如多银行欺诈模型或集团内信贷模型。架构上,coordinator 发送模型,参与方本地训练,返回更新,服务器聚合。产品层面关键不是算法本身,而是协作边界:参与方资格、数据口径、标签延迟、隐私参数、异常更新、模型所有权和客户影响责任。上线前要做全局评估和各参与方本地评估,不能因为全局指标提升就忽略某个客户群体或地区的风险。

架构师版本

联邦学习是分布式 ML 与数据治理的交叉架构。它需要 coordinator、participant runtime、secure aggregation、privacy accountant、feature/data contract、update validation、model registry、audit log 和 local deployment pipeline。它解决的是“少移动原始数据”,不是“无需治理”。


8. 作品集任务

做一个跨机构欺诈联邦学习方案:

  1. 画 cross-silo FL 架构图。
  2. 定义参与方、coordinator、数据 contract、模型所有权。
  3. 写 10 条数据/标签一致性检查。
  4. 设计 secure aggregation + DP 的控制组合。
  5. 写 poisoning/update anomaly 监控清单。
  6. 定义全局指标、本地指标和客户影响指标。
  7. 写一页 governance memo: 为什么不直接共享原始数据,为什么 FL 仍需法律和模型风险评审。