AI 底层逻辑 / 经典论文

Scaling Laws / Pretraining：BERT、GPT、T5

本文把经典论文作为底层逻辑入口, 重点服务 PM/BA/架构师的产品、需求、架构和面试表达。

527 行ai-foundations/papers/10-scaling-laws-pretraining-bert-gpt-t5.md

Paper 10: Scaling Laws, Pretraining, BERT, GPT, and T5

面向对象: AI PM / AI BA / AI Architect / AI Transformation Lead。核心问题: 为什么 foundation model 的能力会随数据、参数和算力扩展而变化? BERT、GPT、T5 的预训练目标差异, 对企业任务拆解、RAG、微调和自训决策意味着什么? 一句话结论: Scaling laws 解释了模型能力与 compute/data/model size 的系统性关系; BERT、GPT、T5 展示了 masked LM、causal LM、sequence-to-sequence 三条基础路线。企业应把它们转译为任务选型和架构决策, 而不是盲目自训 foundation model。

Source Anchors

Source	Link	用途
Scaling Laws for Neural Language Models	https://arxiv.org/abs/2001.08361	Kaplan scaling laws, 参数/数据/算力扩展关系
Training Compute-Optimal Large Language Models	https://arxiv.org/abs/2203.15556	Chinchilla, compute-optimal data/model trade-off
BERT	https://arxiv.org/abs/1810.04805	masked language modeling 和 bidirectional encoder
GPT	https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf	generative pretraining 的早期 GPT 论文
GPT-3	https://arxiv.org/abs/2005.14165	causal LM、few-shot learning 和规模化能力
T5	https://arxiv.org/abs/1910.10683	text-to-text transfer transformer, sequence-to-sequence 统一框架

本文把经典论文作为底层逻辑入口, 重点服务 PM/BA/架构师的产品、需求、架构和面试表达。

核心问题

现代 AI 产品建立在一个基础事实上: 大规模预训练让模型先从海量数据中学习通用语言、知识、结构和模式, 再通过 prompt、RAG、微调、instruction tuning、RLHF 或工具调用适配具体任务。

问题是, “预训练模型”不是一种单一技术路线。BERT、GPT、T5 的目标函数和架构用途不同:

BERT 更像理解和表征模型, 适合分类、抽取、匹配、reranking。
GPT 更像自回归生成模型, 适合续写、对话、总结、报告生成、代码和 agent。
T5 把任务统一为 text-to-text, 适合输入到输出的转换任务。

Scaling laws 则回答另一个问题: 当模型、数据和算力扩展时, loss 和能力如何变化? 这解释了为什么 foundation model 需要巨大投入, 也解释了为什么企业不该轻易说“我们自己训练一个 ChatGPT”。

一句话结论

Scaling laws 告诉我们 foundation model 能力来自模型规模、数据规模和计算预算的共同扩展; BERT/GPT/T5 告诉我们不同预训练目标适合不同任务形态。企业正确做法是围绕任务、数据敏感度、成本、SLO 和风险选择 RAG、微调、model routing 或 vendor model, 而不是盲目自训基础模型。

机制解释

1. Scaling Laws

Scaling laws 研究的是语言模型 loss 与模型参数量、训练数据量、计算量之间的经验规律。

直觉上:

模型太小, 容量不足, 学不下复杂模式。
数据太少, 大模型会过拟合或学不到足够覆盖。
算力不足, 模型无法充分训练。
模型、数据和 compute 需要匹配, 不是单独把其中一个拉大。

Kaplan scaling laws 强调模型规模、数据规模、计算量扩展时 loss 呈现可预测趋势。Chinchilla 后续强调 compute-optimal: 在固定计算预算下, 过去很多大模型相对“模型大、数据少”, 更优策略可能是训练较小模型但喂更多 token。

企业要抓住的不是公式, 而是三点:

更大模型通常更强, 但边际收益递减。
数据质量和覆盖与参数量一样关键。
训练 foundation model 是资本密集型工程, 不只是开几台 GPU。

2. Pretraining Objective

Pretraining objective 是模型训练时被要求解决的基础任务。它决定模型学到的能力偏向。

常见目标:

Masked Language Modeling: 遮住输入中的一部分 token, 让模型预测被遮住的 token。
Causal Language Modeling: 给定前文, 预测下一个 token。
Sequence-to-Sequence Denoising: 给定被破坏或改写的输入, 生成恢复后的输出。

这些目标看似简单, 但在大规模数据和模型下会形成通用能力基础。

PM/BA 可以这样理解: 预训练目标是模型的“基础训练科目”。后续 instruction tuning、RLHF、RAG、工具调用都是在基础能力上做对齐、接知识和接流程。

3. BERT: Masked Language Modeling

BERT 是 bidirectional encoder。它一次读取完整输入, 用上下文两边的信息理解文本。

BERT 的经典预训练任务是 masked language modeling, MLM:

输入: 客户申请 [MASK] 额度调整。
目标: 预测 [MASK] = 信用卡 / 贷款 / 临时 等可能 token。

因为 BERT 可以同时看左右上下文, 它特别适合理解类任务:

文本分类。
命名实体识别。
信息抽取。
语义匹配。
检索 reranking。
风险标签识别。

BERT 不天然适合长篇自由生成。它可以用于 classification head 或 embedding/reranking, 但不是现代对话式生成 LLM 的主流形态。

4. GPT: Causal Language Modeling

GPT 是 decoder-only autoregressive model。训练目标是 causal LM, next-token prediction:

输入: 客户投诉称账户被
目标: 预测下一个 token: 冻结 / 盗用 / 扣费 / ...

Causal mask 保证模型只能看当前位置之前的 token, 不能偷看未来。

这个目标非常简单, 但可扩展到海量文本。规模扩大后, GPT-style 模型获得强生成能力:

对话。
摘要。
报告生成。
代码生成。
few-shot learning。
tool use / agent planning 的语言基础。

GPT 对 PM/BA 的意义是: 很多开放式工作流可以变成“给上下文, 生成下一段高质量文本或下一步动作”。但它也带来幻觉、不可验证、格式漂移和越权建议风险。

5. T5: Sequence-to-Sequence / Text-to-Text

T5, Text-to-Text Transfer Transformer, 把所有 NLP 任务统一成 text-to-text:

translate English to German: ...
summarize: ...
classify complaint: ...
extract fields: ...

输入是文本, 输出也是文本。架构上使用 encoder-decoder: encoder 读取输入, decoder 生成输出。

T5 对企业有一个重要启发: 很多业务流程可以被表述成转换任务:

投诉文本 -> 投诉类别。
政策条款 -> 客户可读解释。
表单扫描文本 -> 结构化字段。
调查材料 -> case narrative。
会议记录 -> 需求清单。

现代 instruction-tuned LLM 继承了这种“任务都能转成输入输出映射”的思想, 但企业仍要用 schema、eval、RAG 和 workflow 把开放生成约束住。

6. Instruction Tuning 前的基础

在 instruction tuning 普及前, 预训练模型主要学的是语言建模或文本转换, 不一定天然听懂“请按 JSON 输出”“不要编造”“引用政策来源”。

Instruction tuning 的作用是用指令-回答数据让模型更会遵循人类任务描述。RLHF 或 preference optimization 进一步让模型输出更符合人类偏好。

但 instruction tuning 不是凭空产生知识和权限:

最新政策仍需要 RAG。
客户事实仍需要系统查询。
高风险决策仍需要规则、审批和审计。
专业质量仍需要 eval。

所以学习 BERT/GPT/T5 的基础目标, 是为了理解 instruction-tuned 模型为什么能泛化, 也理解它为什么仍然需要企业架构补强。

计算 / 数据 / 模型规模 Trade-off

Compute

Compute 包括训练 GPU/TPU 时间、推理计算、存储、网络、能耗和工程人力。

训练 foundation model 的 compute 成本高, 还需要:

分布式训练框架。
数据管道。
checkpoint 管理。
容错恢复。
安全隔离。
eval pipeline。
serving 优化。

Data

Foundation model 训练需要大量高质量数据。企业内部数据通常有价值, 但也有问题:

规模不足以训练通用模型。
包含 PII、PCI、商业秘密、监管敏感信息。
历史流程可能过期。
标签和文本风格不一致。
数据使用权、保留期限和跨境限制复杂。

数据不是越多越好。错误、重复、偏见、过期和无授权数据会把风险写进模型。

Model Size

模型越大, 通常能力更强, 但:

推理成本更高。
延迟更长。
部署更复杂。
监控和回滚成本更高。
小任务可能过度配置。

企业需要 model routing: 简单分类用小模型或专用模型, 高风险综合推理用强模型, 事实性任务用 RAG, 硬规则用规则引擎。

为什么企业不该盲目自训 Foundation Model

多数企业不该从零训练 foundation model, 原因很直接:

训练成本和硬件门槛极高。
高质量通用语料和清洗能力不足。
安全、版权、隐私、偏见和合规责任大。
训练失败代价高, 迭代周期长。
评估和对齐工作量被低估。
serving 和推理优化也是长期平台工程。
业务收益通常可以用 RAG、微调、PEFT、prompt、工具和 workflow 更快实现。

更合理路线:

用成熟 foundation model 作为 base。
用 RAG 接入企业知识和权限。
用 LoRA/PEFT 或 fine-tuning 适配稳定任务。
用 reranker / embedding model 提升检索。
用 eval 和 release gate 控制质量。
只在强监管、数据主权、超大规模成本或核心 IP 场景下评估自训或深度自托管。

BERT / GPT / T5 对 PM/BA/架构师意味着什么

模型路线	底层目标	擅长任务	企业架构含义	常见选择
BERT / Encoder	masked language modeling	分类、抽取、匹配、rerank、embedding	适合做理解组件, 放在检索、分流、风控标注中	专用分类模型、embedding/reranker
GPT / Decoder	causal language modeling	生成、对话、总结、报告、agent	适合做生成和交互核心, 但要加 RAG、guardrail、eval	chat model、copilot、agent
T5 / Encoder-Decoder	seq2seq text-to-text	转换、翻译、摘要、结构化重写	适合输入到输出的流程自动化	表单转换、格式标准化、摘要

分类 / 抽取

投诉分类、工单路由、实体抽取通常不需要最大 GPT 模型。

可选方案:

encoder classifier。
embedding + nearest label。
small instruction model。
GPT 作为弱标注器或复杂边界处理器。

PM 要关注 macro F1、高风险 recall、人工修正率和标签漂移。

生成

报告、邮件、客服草稿、调查 narrative 更适合 GPT-style 或 instruction-tuned 生成模型。

但生成必须接:

evidence。
citation。
output schema。
forbidden claim checks。
human approval。

转换任务

表单转换、政策改写、会议纪要转需求、PDF 文本转字段, 很适合用 text-to-text 思维建模。

关键是定义输入、输出 schema、异常字段、置信度和人工复核。

RAG / 微调选择

如果主要问题是“模型不知道最新事实”, 用 RAG。

如果主要问题是“模型输出风格、标签边界、格式习惯不稳定”, 考虑微调或 LoRA。

如果主要问题是“动作必须符合硬规则”, 用 workflow / rules / deterministic system。

如果主要问题是“模型能力不够”, 才考虑换更强模型或专用模型。

架构映射

Reference Architecture

flowchart TB
  U[User / Workflow] --> GW[AI Gateway]
  GW --> CLS[Task and Risk Classifier]
  CLS --> R{Route}
  R -->|Classification / extraction| ENC[Encoder or small model]
  R -->|Policy Q&A| RAG[RAG + Generator]
  R -->|Report generation| GPT[GPT-style generator]
  R -->|Form conversion| S2S[Seq2Seq / structured output path]
  ENC --> VAL[Validation and Eval]
  RAG --> VAL
  GPT --> VAL
  S2S --> VAL
  VAL --> HITL[Human Review for High Risk]
  VAL --> OUT[Business Output]
  VAL --> OBS[Audit, Metrics, Feedback]

架构师的核心任务不是把所有需求塞进一个大模型, 而是按任务性质组合 encoder、generator、RAG、rules、workflow、eval 和 human review。

Model Lifecycle

business task
  -> choose objective fit
  -> baseline with prompt / existing model
  -> add RAG if factual grounding needed
  -> add fine-tuning / LoRA if behavior adaptation needed
  -> add deterministic validation
  -> eval gate
  -> canary
  -> monitoring and dataset refresh

PM/BA 视角

PM 要做的判断

任务是理解、生成、转换, 还是行动执行?
成功指标是 accuracy、F1、groundedness、task completion、time saved, 还是 cost per case?
用户需要草稿、建议、最终答案, 还是自动执行?
错误影响客户权益、监管报告、资金流转或内部效率?
RAG、微调、强模型和人工复核的组合如何平衡成本和风险?

BA 要写的需求

不要写:

系统使用 AI 自动处理投诉。

要写:

系统应将投诉文本分类为 fee dispute、fraud claim、service quality、credit reporting、other。
每个分类输出 confidence、supporting phrase、missing information。
当 confidence < 0.75 或出现 fraud / credit reporting 时, 必须进入人工复核。
分类 macro F1 >= 0.86, fraud claim recall >= 0.95。

这样才能判断该用 BERT-style classifier、GPT prompt、RAG 还是混合方案。

金融零售案例

1. 投诉分类

任务: 将客户投诉分到内部 taxonomy, 触发 SLA 和监管处理流程。

适合路线:

BERT-style encoder classifier 或 small model 做初分。
GPT 处理复杂多意图投诉并生成解释。
高风险类别人工复核。

Eval:

macro F1。
高风险 recall。
regulator-reportable complaint 漏检率。
人工修正率。
分类解释是否引用原文。

2. 政策问答

任务: 坐席询问“这类客户是否可以减免手续费?”

适合路线:

RAG 检索最新政策。
GPT-style generator 生成自然语言回答。
deterministic policy check 验证关键条件。
输出必须带 citation 和 effective date。

不适合只靠 fine-tuning, 因为政策会变, 需要可追溯来源。

3. 报告生成

任务: AML case narrative、投诉月报、风险控制报告。

适合路线:

GPT-style generator。
RAG 提供证据。
structured outline 控制章节。
LLM-as-Judge 和专家抽检评估 completeness、groundedness、tone。

高风险报告不能直接提交, 必须由责任人确认。

4. 表单转换

任务: 把客户上传资料、PDF OCR、邮件内容转换成标准字段。

适合路线:

T5/text-to-text 思维或 instruction model。
schema-constrained output。
confidence and missing field detection。
deterministic validation, 例如日期、金额、ID 格式。

错误处理:

字段缺失时不要编造。
低置信字段进入人工复核。
原始证据片段要可追溯。

ADR 草稿

ADR: Foundation model strategy for financial retail AI workflows

Field	Decision
Context	团队需要支持投诉分类、政策问答、报告生成和表单转换。业务希望快速上线, 同时满足数据安全、引用、审计、成本和 SLO 要求。
Decision	不从零训练 foundation model。采用成熟 foundation model + RAG + task-specific smaller models + PEFT where justified。分类/抽取优先评估 encoder 或 small model; 开放生成使用 GPT-style model; 转换任务使用 structured output / seq2seq pattern; 高风险流程必须 human review。
Alternatives	从零训练企业 foundation model; 全部使用单一最大模型; 全部规则化; 全部外包给 vendor without internal eval。
Consequences	上线更快, 成本和风险更可控; 需要建立 AI Gateway、RAG、eval、model routing、数据治理和供应商管理能力。
Metrics	分类 macro F1, high-risk recall, groundedness, citation coverage, report acceptance rate, form field accuracy, p95 latency, cost per case。
Risk Controls	PII 脱敏, permission-aware retrieval, policy citation, no unsupported claims, human approval for high-risk outputs, audit logs, eval release gate。
Rollback	Route to previous model/prompt/index; disable fine-tuned adapter; fall back to human queue; preserve deterministic workflow for critical actions。

Eval 练习

Exercise 1: BERT/GPT/T5 任务分解

把以下需求拆成模型路线:

投诉分类。
政策问答。
AML narrative。
表单字段抽取。
客户邮件改写。

对每项写出:

推荐路线: encoder / GPT / seq2seq / RAG / rules。
为什么。
主要指标。
高风险 fallback。

Exercise 2: RAG vs Fine-tuning 判断

场景: 信用卡年费减免政策问答。

写出:

哪些信息必须来自 RAG。
哪些行为可以通过 prompt 或微调改善。
哪些判断必须由规则或审批系统完成。
为什么不应该把政策直接训练进模型后长期使用。

Exercise 3: Compute/Data/Model Trade-off Memo

写一页 memo, 回答 CEO 的问题: “我们能不能自己训练一个金融零售基础模型?”

必须包含:

数据规模和授权。
GPU/训练平台。
eval 和安全。
serving 成本。
机会成本。
更合理替代方案。

Exercise 4: 投诉分类 Eval Set

设计 50 条投诉样本:

20 条常见 fee/service。
10 条 fraud。
10 条 credit reporting。
5 条多意图。
5 条信息不足。

为每条定义 expected label、supporting phrase、severity 和人工复核条件。

面试表达

30 秒版本

Scaling laws 说明语言模型能力和 loss 会随模型规模、数据规模和训练算力呈现可预测关系, 但三者要匹配。BERT 用 masked language modeling 做双向理解, 适合分类和抽取; GPT 用 causal language modeling 做自回归生成, 适合对话、总结和报告; T5 用 text-to-text / seq2seq 统一转换任务。企业应按任务选择 RAG、微调、专用小模型或生成模型, 不应盲目从零训练 foundation model。

2 分钟版本

Scaling laws 的核心启发是, foundation model 能力来自参数、数据和 compute 的共同扩展, 而不是单独把模型做大。Chinchilla 进一步提醒我们, 在固定算力下模型大小和训练 token 数要平衡。对企业来说, 自训基础模型需要巨大算力、数据治理、评估、安全和 serving 投入, 通常不如基于成熟模型做 RAG、PEFT 和 workflow。

BERT、GPT、T5 代表三种预训练目标。BERT 是 encoder, 用 masked language modeling 学双向表示, 适合投诉分类、实体抽取、rerank。GPT 是 decoder-only causal LM, 预测下一个 token, 适合政策问答生成、报告草稿、对话和 agent。T5 是 encoder-decoder, 把任务统一成 text-to-text, 适合表单转换、摘要、改写和结构化输出。

金融零售落地时, 投诉分类可以用 encoder 或小模型, 政策问答要用 RAG 和引用, AML 报告生成要用强生成模型加证据和人工复核, 表单转换要用 schema 和 deterministic validation。模型只是组件, 生产系统还需要权限、eval、审计、SLO 和风险控制。

常见误区

误区: Scaling laws 等于模型越大越好。修正: 模型、数据和 compute 要匹配, 且边际收益递减。生产还要看成本、延迟和风险。
误区: 企业应该训练自己的 foundation model 才有护城河。修正: 多数企业护城河在业务数据、流程、风控、分发和 eval, 不在从零训练通用模型。
误区: Fine-tuning 可以替代 RAG。修正: 最新政策、客户事实、权限过滤和引用需要 RAG/工具/数据库, 不适合只靠训练进参数。
误区: GPT 可以替代所有 BERT 类模型。修正: GPT 可以做分类, 但在高吞吐、低延迟、固定标签任务中, encoder 或小模型可能更便宜稳定。
误区: BERT 不重要了。修正: BERT-style encoder 仍常用于 embedding、reranking、分类和抽取, 是企业 AI 管线的重要组件。
误区: T5 只是老模型。修正: T5 的 text-to-text 思想仍是任务建模方法, 对表单转换、摘要、改写和流程自动化很有价值。
误区: Instruction tuning 后模型就懂业务规则。修正: 它更会听指令, 但不保证知道最新政策、客户事实或合规边界。
误区: 只要有更多企业数据, 就该继续训练模型。修正: 数据必须有授权、质量、代表性、脱敏和评估闭环; 否则会放大风险。

1-Page Executive Summary

Scaling laws 是理解 foundation model 的底层逻辑。模型能力来自参数量、训练数据和计算预算的共同扩展。更大模型通常更强, 但不是无限收益, 也不是企业落地的唯一变量。

BERT、GPT、T5 是三种经典预训练路线。BERT 用 masked language modeling 学双向理解, 适合分类、抽取、匹配和 reranking。GPT 用 causal language modeling 做自回归生成, 是现代聊天、总结、报告、代码和 agent 的基础。T5 用 sequence-to-sequence / text-to-text 把任务统一成输入文本到输出文本的转换。

对 PM/BA 来说, 学这些不是为了背论文, 而是为了把业务需求拆成任务类型: 理解、生成、转换、事实问答、行动执行。任务类型决定是否需要 encoder、小模型、GPT-style generator、RAG、微调、规则或人工复核。

对架构师来说, 关键是建立 model routing 和 eval-driven architecture。不要把所有任务都交给一个最大模型。低风险高频分类可用小模型, 政策问答用 RAG, 开放生成用强模型, 高风险流程加 validator 和 human review。

企业通常不应盲目自训 foundation model。从零训练需要巨大 compute、数据治理、安全评估、对齐、serving 和长期维护。更务实的路线是 mature foundation model + RAG + PEFT/fine-tuning where justified + workflow controls + eval release gate。

一句话: Scaling laws 解释大模型为什么有效, BERT/GPT/T5 解释不同任务为什么需要不同模型形态, 企业架构决定这些能力能否安全、经济、可审计地进入生产。

与现有学习资料的连接

docs/ai-foundations/papers/01-attention-is-all-you-need.md: Transformer 是 BERT、GPT、T5 的共同架构底座。
docs/ai-foundations/papers/02-retrieval-augmented-generation.md: RAG 解决 foundation model 参数知识不够新、不够可追溯的问题。
docs/ai-foundations/papers/06-lora-peft-adaptation.md: 当 prompt/RAG 不足以稳定任务行为时, 用 PEFT 适配模型。
docs/ai-foundations/papers/08-llm-as-judge-evaluation.md: 用 eval 判断不同模型路线是否真的适合业务。
docs/AI_REQUIREMENTS_TO_EVAL_COOKBOOK.md: 把 BERT/GPT/T5 的任务拆解转成需求和验收矩阵。