Scaling Laws / Pretraining:BERT、GPT、T5
本文把经典论文作为底层逻辑入口, 重点服务 PM/BA/架构师的产品、需求、架构和面试表达。
Paper 10: Scaling Laws, Pretraining, BERT, GPT, and T5
面向对象: AI PM / AI BA / AI Architect / AI Transformation Lead。 核心问题: 为什么 foundation model 的能力会随数据、参数和算力扩展而变化? BERT、GPT、T5 的预训练目标差异, 对企业任务拆解、RAG、微调和自训决策意味着什么? 一句话结论: Scaling laws 解释了模型能力与 compute/data/model size 的系统性关系; BERT、GPT、T5 展示了 masked LM、causal LM、sequence-to-sequence 三条基础路线。企业应把它们转译为任务选型和架构决策, 而不是盲目自训 foundation model。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| Scaling Laws for Neural Language Models | https://arxiv.org/abs/2001.08361 | Kaplan scaling laws, 参数/数据/算力扩展关系 |
| Training Compute-Optimal Large Language Models | https://arxiv.org/abs/2203.15556 | Chinchilla, compute-optimal data/model trade-off |
| BERT | https://arxiv.org/abs/1810.04805 | masked language modeling 和 bidirectional encoder |
| GPT | https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf | generative pretraining 的早期 GPT 论文 |
| GPT-3 | https://arxiv.org/abs/2005.14165 | causal LM、few-shot learning 和规模化能力 |
| T5 | https://arxiv.org/abs/1910.10683 | text-to-text transfer transformer, sequence-to-sequence 统一框架 |
本文把经典论文作为底层逻辑入口, 重点服务 PM/BA/架构师的产品、需求、架构和面试表达。
核心问题
现代 AI 产品建立在一个基础事实上: 大规模预训练让模型先从海量数据中学习通用语言、知识、结构和模式, 再通过 prompt、RAG、微调、instruction tuning、RLHF 或工具调用适配具体任务。
问题是, “预训练模型”不是一种单一技术路线。BERT、GPT、T5 的目标函数和架构用途不同:
- BERT 更像理解和表征模型, 适合分类、抽取、匹配、reranking。
- GPT 更像自回归生成模型, 适合续写、对话、总结、报告生成、代码和 agent。
- T5 把任务统一为 text-to-text, 适合输入到输出的转换任务。
Scaling laws 则回答另一个问题: 当模型、数据和算力扩展时, loss 和能力如何变化? 这解释了为什么 foundation model 需要巨大投入, 也解释了为什么企业不该轻易说“我们自己训练一个 ChatGPT”。
一句话结论
Scaling laws 告诉我们 foundation model 能力来自模型规模、数据规模和计算预算的共同扩展; BERT/GPT/T5 告诉我们不同预训练目标适合不同任务形态。企业正确做法是围绕任务、数据敏感度、成本、SLO 和风险选择 RAG、微调、model routing 或 vendor model, 而不是盲目自训基础模型。
机制解释
1. Scaling Laws
Scaling laws 研究的是语言模型 loss 与模型参数量、训练数据量、计算量之间的经验规律。
直觉上:
- 模型太小, 容量不足, 学不下复杂模式。
- 数据太少, 大模型会过拟合或学不到足够覆盖。
- 算力不足, 模型无法充分训练。
- 模型、数据和 compute 需要匹配, 不是单独把其中一个拉大。
Kaplan scaling laws 强调模型规模、数据规模、计算量扩展时 loss 呈现可预测趋势。Chinchilla 后续强调 compute-optimal: 在固定计算预算下, 过去很多大模型相对“模型大、数据少”, 更优策略可能是训练较小模型但喂更多 token。
企业要抓住的不是公式, 而是三点:
- 更大模型通常更强, 但边际收益递减。
- 数据质量和覆盖与参数量一样关键。
- 训练 foundation model 是资本密集型工程, 不只是开几台 GPU。
2. Pretraining Objective
Pretraining objective 是模型训练时被要求解决的基础任务。它决定模型学到的能力偏向。
常见目标:
- Masked Language Modeling: 遮住输入中的一部分 token, 让模型预测被遮住的 token。
- Causal Language Modeling: 给定前文, 预测下一个 token。
- Sequence-to-Sequence Denoising: 给定被破坏或改写的输入, 生成恢复后的输出。
这些目标看似简单, 但在大规模数据和模型下会形成通用能力基础。
PM/BA 可以这样理解: 预训练目标是模型的“基础训练科目”。后续 instruction tuning、RLHF、RAG、工具调用都是在基础能力上做对齐、接知识和接流程。
3. BERT: Masked Language Modeling
BERT 是 bidirectional encoder。它一次读取完整输入, 用上下文两边的信息理解文本。
BERT 的经典预训练任务是 masked language modeling, MLM:
输入: 客户申请 [MASK] 额度调整。
目标: 预测 [MASK] = 信用卡 / 贷款 / 临时 等可能 token。
因为 BERT 可以同时看左右上下文, 它特别适合理解类任务:
- 文本分类。
- 命名实体识别。
- 信息抽取。
- 语义匹配。
- 检索 reranking。
- 风险标签识别。
BERT 不天然适合长篇自由生成。它可以用于 classification head 或 embedding/reranking, 但不是现代对话式生成 LLM 的主流形态。
4. GPT: Causal Language Modeling
GPT 是 decoder-only autoregressive model。训练目标是 causal LM, next-token prediction:
输入: 客户投诉称账户被
目标: 预测下一个 token: 冻结 / 盗用 / 扣费 / ...
Causal mask 保证模型只能看当前位置之前的 token, 不能偷看未来。
这个目标非常简单, 但可扩展到海量文本。规模扩大后, GPT-style 模型获得强生成能力:
- 对话。
- 摘要。
- 报告生成。
- 代码生成。
- few-shot learning。
- tool use / agent planning 的语言基础。
GPT 对 PM/BA 的意义是: 很多开放式工作流可以变成“给上下文, 生成下一段高质量文本或下一步动作”。但它也带来幻觉、不可验证、格式漂移和越权建议风险。
5. T5: Sequence-to-Sequence / Text-to-Text
T5, Text-to-Text Transfer Transformer, 把所有 NLP 任务统一成 text-to-text:
translate English to German: ...
summarize: ...
classify complaint: ...
extract fields: ...
输入是文本, 输出也是文本。架构上使用 encoder-decoder: encoder 读取输入, decoder 生成输出。
T5 对企业有一个重要启发: 很多业务流程可以被表述成转换任务:
- 投诉文本 -> 投诉类别。
- 政策条款 -> 客户可读解释。
- 表单扫描文本 -> 结构化字段。
- 调查材料 -> case narrative。
- 会议记录 -> 需求清单。
现代 instruction-tuned LLM 继承了这种“任务都能转成输入输出映射”的思想, 但企业仍要用 schema、eval、RAG 和 workflow 把开放生成约束住。
6. Instruction Tuning 前的基础
在 instruction tuning 普及前, 预训练模型主要学的是语言建模或文本转换, 不一定天然听懂“请按 JSON 输出”“不要编造”“引用政策来源”。
Instruction tuning 的作用是用指令-回答数据让模型更会遵循人类任务描述。RLHF 或 preference optimization 进一步让模型输出更符合人类偏好。
但 instruction tuning 不是凭空产生知识和权限:
- 最新政策仍需要 RAG。
- 客户事实仍需要系统查询。
- 高风险决策仍需要规则、审批和审计。
- 专业质量仍需要 eval。
所以学习 BERT/GPT/T5 的基础目标, 是为了理解 instruction-tuned 模型为什么能泛化, 也理解它为什么仍然需要企业架构补强。
计算 / 数据 / 模型规模 Trade-off
Compute
Compute 包括训练 GPU/TPU 时间、推理计算、存储、网络、能耗和工程人力。
训练 foundation model 的 compute 成本高, 还需要:
- 分布式训练框架。
- 数据管道。
- checkpoint 管理。
- 容错恢复。
- 安全隔离。
- eval pipeline。
- serving 优化。
Data
Foundation model 训练需要大量高质量数据。企业内部数据通常有价值, 但也有问题:
- 规模不足以训练通用模型。
- 包含 PII、PCI、商业秘密、监管敏感信息。
- 历史流程可能过期。
- 标签和文本风格不一致。
- 数据使用权、保留期限和跨境限制复杂。
数据不是越多越好。错误、重复、偏见、过期和无授权数据会把风险写进模型。
Model Size
模型越大, 通常能力更强, 但:
- 推理成本更高。
- 延迟更长。
- 部署更复杂。
- 监控和回滚成本更高。
- 小任务可能过度配置。
企业需要 model routing: 简单分类用小模型或专用模型, 高风险综合推理用强模型, 事实性任务用 RAG, 硬规则用规则引擎。
为什么企业不该盲目自训 Foundation Model
多数企业不该从零训练 foundation model, 原因很直接:
- 训练成本和硬件门槛极高。
- 高质量通用语料和清洗能力不足。
- 安全、版权、隐私、偏见和合规责任大。
- 训练失败代价高, 迭代周期长。
- 评估和对齐工作量被低估。
- serving 和推理优化也是长期平台工程。
- 业务收益通常可以用 RAG、微调、PEFT、prompt、工具和 workflow 更快实现。
更合理路线:
- 用成熟 foundation model 作为 base。
- 用 RAG 接入企业知识和权限。
- 用 LoRA/PEFT 或 fine-tuning 适配稳定任务。
- 用 reranker / embedding model 提升检索。
- 用 eval 和 release gate 控制质量。
- 只在强监管、数据主权、超大规模成本或核心 IP 场景下评估自训或深度自托管。
BERT / GPT / T5 对 PM/BA/架构师意味着什么
| 模型路线 | 底层目标 | 擅长任务 | 企业架构含义 | 常见选择 |
|---|---|---|---|---|
| BERT / Encoder | masked language modeling | 分类、抽取、匹配、rerank、embedding | 适合做理解组件, 放在检索、分流、风控标注中 | 专用分类模型、embedding/reranker |
| GPT / Decoder | causal language modeling | 生成、对话、总结、报告、agent | 适合做生成和交互核心, 但要加 RAG、guardrail、eval | chat model、copilot、agent |
| T5 / Encoder-Decoder | seq2seq text-to-text | 转换、翻译、摘要、结构化重写 | 适合输入到输出的流程自动化 | 表单转换、格式标准化、摘要 |
分类 / 抽取
投诉分类、工单路由、实体抽取通常不需要最大 GPT 模型。
可选方案:
- encoder classifier。
- embedding + nearest label。
- small instruction model。
- GPT 作为弱标注器或复杂边界处理器。
PM 要关注 macro F1、高风险 recall、人工修正率和标签漂移。
生成
报告、邮件、客服草稿、调查 narrative 更适合 GPT-style 或 instruction-tuned 生成模型。
但生成必须接:
- evidence。
- citation。
- output schema。
- forbidden claim checks。
- human approval。
转换任务
表单转换、政策改写、会议纪要转需求、PDF 文本转字段, 很适合用 text-to-text 思维建模。
关键是定义输入、输出 schema、异常字段、置信度和人工复核。
RAG / 微调选择
如果主要问题是“模型不知道最新事实”, 用 RAG。
如果主要问题是“模型输出风格、标签边界、格式习惯不稳定”, 考虑微调或 LoRA。
如果主要问题是“动作必须符合硬规则”, 用 workflow / rules / deterministic system。
如果主要问题是“模型能力不够”, 才考虑换更强模型或专用模型。
架构映射
Reference Architecture
flowchart TB
U[User / Workflow] --> GW[AI Gateway]
GW --> CLS[Task and Risk Classifier]
CLS --> R{Route}
R -->|Classification / extraction| ENC[Encoder or small model]
R -->|Policy Q&A| RAG[RAG + Generator]
R -->|Report generation| GPT[GPT-style generator]
R -->|Form conversion| S2S[Seq2Seq / structured output path]
ENC --> VAL[Validation and Eval]
RAG --> VAL
GPT --> VAL
S2S --> VAL
VAL --> HITL[Human Review for High Risk]
VAL --> OUT[Business Output]
VAL --> OBS[Audit, Metrics, Feedback]
架构师的核心任务不是把所有需求塞进一个大模型, 而是按任务性质组合 encoder、generator、RAG、rules、workflow、eval 和 human review。
Model Lifecycle
business task
-> choose objective fit
-> baseline with prompt / existing model
-> add RAG if factual grounding needed
-> add fine-tuning / LoRA if behavior adaptation needed
-> add deterministic validation
-> eval gate
-> canary
-> monitoring and dataset refresh
PM/BA 视角
PM 要做的判断
- 任务是理解、生成、转换, 还是行动执行?
- 成功指标是 accuracy、F1、groundedness、task completion、time saved, 还是 cost per case?
- 用户需要草稿、建议、最终答案, 还是自动执行?
- 错误影响客户权益、监管报告、资金流转或内部效率?
- RAG、微调、强模型和人工复核的组合如何平衡成本和风险?
BA 要写的需求
不要写:
系统使用 AI 自动处理投诉。
要写:
系统应将投诉文本分类为 fee dispute、fraud claim、service quality、credit reporting、other。
每个分类输出 confidence、supporting phrase、missing information。
当 confidence < 0.75 或出现 fraud / credit reporting 时, 必须进入人工复核。
分类 macro F1 >= 0.86, fraud claim recall >= 0.95。
这样才能判断该用 BERT-style classifier、GPT prompt、RAG 还是混合方案。
金融零售案例
1. 投诉分类
任务: 将客户投诉分到内部 taxonomy, 触发 SLA 和监管处理流程。
适合路线:
- BERT-style encoder classifier 或 small model 做初分。
- GPT 处理复杂多意图投诉并生成解释。
- 高风险类别人工复核。
Eval:
- macro F1。
- 高风险 recall。
- regulator-reportable complaint 漏检率。
- 人工修正率。
- 分类解释是否引用原文。
2. 政策问答
任务: 坐席询问“这类客户是否可以减免手续费?”
适合路线:
- RAG 检索最新政策。
- GPT-style generator 生成自然语言回答。
- deterministic policy check 验证关键条件。
- 输出必须带 citation 和 effective date。
不适合只靠 fine-tuning, 因为政策会变, 需要可追溯来源。
3. 报告生成
任务: AML case narrative、投诉月报、风险控制报告。
适合路线:
- GPT-style generator。
- RAG 提供证据。
- structured outline 控制章节。
- LLM-as-Judge 和专家抽检评估 completeness、groundedness、tone。
高风险报告不能直接提交, 必须由责任人确认。
4. 表单转换
任务: 把客户上传资料、PDF OCR、邮件内容转换成标准字段。
适合路线:
- T5/text-to-text 思维或 instruction model。
- schema-constrained output。
- confidence and missing field detection。
- deterministic validation, 例如日期、金额、ID 格式。
错误处理:
- 字段缺失时不要编造。
- 低置信字段进入人工复核。
- 原始证据片段要可追溯。
ADR 草稿
ADR: Foundation model strategy for financial retail AI workflows
| Field | Decision |
|---|---|
| Context | 团队需要支持投诉分类、政策问答、报告生成和表单转换。业务希望快速上线, 同时满足数据安全、引用、审计、成本和 SLO 要求。 |
| Decision | 不从零训练 foundation model。采用成熟 foundation model + RAG + task-specific smaller models + PEFT where justified。分类/抽取优先评估 encoder 或 small model; 开放生成使用 GPT-style model; 转换任务使用 structured output / seq2seq pattern; 高风险流程必须 human review。 |
| Alternatives | 从零训练企业 foundation model; 全部使用单一最大模型; 全部规则化; 全部外包给 vendor without internal eval。 |
| Consequences | 上线更快, 成本和风险更可控; 需要建立 AI Gateway、RAG、eval、model routing、数据治理和供应商管理能力。 |
| Metrics | 分类 macro F1, high-risk recall, groundedness, citation coverage, report acceptance rate, form field accuracy, p95 latency, cost per case。 |
| Risk Controls | PII 脱敏, permission-aware retrieval, policy citation, no unsupported claims, human approval for high-risk outputs, audit logs, eval release gate。 |
| Rollback | Route to previous model/prompt/index; disable fine-tuned adapter; fall back to human queue; preserve deterministic workflow for critical actions。 |
Eval 练习
Exercise 1: BERT/GPT/T5 任务分解
把以下需求拆成模型路线:
- 投诉分类。
- 政策问答。
- AML narrative。
- 表单字段抽取。
- 客户邮件改写。
对每项写出:
- 推荐路线: encoder / GPT / seq2seq / RAG / rules。
- 为什么。
- 主要指标。
- 高风险 fallback。
Exercise 2: RAG vs Fine-tuning 判断
场景: 信用卡年费减免政策问答。
写出:
- 哪些信息必须来自 RAG。
- 哪些行为可以通过 prompt 或微调改善。
- 哪些判断必须由规则或审批系统完成。
- 为什么不应该把政策直接训练进模型后长期使用。
Exercise 3: Compute/Data/Model Trade-off Memo
写一页 memo, 回答 CEO 的问题: “我们能不能自己训练一个金融零售基础模型?”
必须包含:
- 数据规模和授权。
- GPU/训练平台。
- eval 和安全。
- serving 成本。
- 机会成本。
- 更合理替代方案。
Exercise 4: 投诉分类 Eval Set
设计 50 条投诉样本:
- 20 条常见 fee/service。
- 10 条 fraud。
- 10 条 credit reporting。
- 5 条多意图。
- 5 条信息不足。
为每条定义 expected label、supporting phrase、severity 和人工复核条件。
面试表达
30 秒版本
Scaling laws 说明语言模型能力和 loss 会随模型规模、数据规模和训练算力呈现可预测关系, 但三者要匹配。BERT 用 masked language modeling 做双向理解, 适合分类和抽取; GPT 用 causal language modeling 做自回归生成, 适合对话、总结和报告; T5 用 text-to-text / seq2seq 统一转换任务。企业应按任务选择 RAG、微调、专用小模型或生成模型, 不应盲目从零训练 foundation model。
2 分钟版本
Scaling laws 的核心启发是, foundation model 能力来自参数、数据和 compute 的共同扩展, 而不是单独把模型做大。Chinchilla 进一步提醒我们, 在固定算力下模型大小和训练 token 数要平衡。对企业来说, 自训基础模型需要巨大算力、数据治理、评估、安全和 serving 投入, 通常不如基于成熟模型做 RAG、PEFT 和 workflow。
BERT、GPT、T5 代表三种预训练目标。BERT 是 encoder, 用 masked language modeling 学双向表示, 适合投诉分类、实体抽取、rerank。GPT 是 decoder-only causal LM, 预测下一个 token, 适合政策问答生成、报告草稿、对话和 agent。T5 是 encoder-decoder, 把任务统一成 text-to-text, 适合表单转换、摘要、改写和结构化输出。
金融零售落地时, 投诉分类可以用 encoder 或小模型, 政策问答要用 RAG 和引用, AML 报告生成要用强生成模型加证据和人工复核, 表单转换要用 schema 和 deterministic validation。模型只是组件, 生产系统还需要权限、eval、审计、SLO 和风险控制。
常见误区
-
误区: Scaling laws 等于模型越大越好。 修正: 模型、数据和 compute 要匹配, 且边际收益递减。生产还要看成本、延迟和风险。
-
误区: 企业应该训练自己的 foundation model 才有护城河。 修正: 多数企业护城河在业务数据、流程、风控、分发和 eval, 不在从零训练通用模型。
-
误区: Fine-tuning 可以替代 RAG。 修正: 最新政策、客户事实、权限过滤和引用需要 RAG/工具/数据库, 不适合只靠训练进参数。
-
误区: GPT 可以替代所有 BERT 类模型。 修正: GPT 可以做分类, 但在高吞吐、低延迟、固定标签任务中, encoder 或小模型可能更便宜稳定。
-
误区: BERT 不重要了。 修正: BERT-style encoder 仍常用于 embedding、reranking、分类和抽取, 是企业 AI 管线的重要组件。
-
误区: T5 只是老模型。 修正: T5 的 text-to-text 思想仍是任务建模方法, 对表单转换、摘要、改写和流程自动化很有价值。
-
误区: Instruction tuning 后模型就懂业务规则。 修正: 它更会听指令, 但不保证知道最新政策、客户事实或合规边界。
-
误区: 只要有更多企业数据, 就该继续训练模型。 修正: 数据必须有授权、质量、代表性、脱敏和评估闭环; 否则会放大风险。
1-Page Executive Summary
Scaling laws 是理解 foundation model 的底层逻辑。模型能力来自参数量、训练数据和计算预算的共同扩展。更大模型通常更强, 但不是无限收益, 也不是企业落地的唯一变量。
BERT、GPT、T5 是三种经典预训练路线。BERT 用 masked language modeling 学双向理解, 适合分类、抽取、匹配和 reranking。GPT 用 causal language modeling 做自回归生成, 是现代聊天、总结、报告、代码和 agent 的基础。T5 用 sequence-to-sequence / text-to-text 把任务统一成输入文本到输出文本的转换。
对 PM/BA 来说, 学这些不是为了背论文, 而是为了把业务需求拆成任务类型: 理解、生成、转换、事实问答、行动执行。任务类型决定是否需要 encoder、小模型、GPT-style generator、RAG、微调、规则或人工复核。
对架构师来说, 关键是建立 model routing 和 eval-driven architecture。不要把所有任务都交给一个最大模型。低风险高频分类可用小模型, 政策问答用 RAG, 开放生成用强模型, 高风险流程加 validator 和 human review。
企业通常不应盲目自训 foundation model。从零训练需要巨大 compute、数据治理、安全评估、对齐、serving 和长期维护。更务实的路线是 mature foundation model + RAG + PEFT/fine-tuning where justified + workflow controls + eval release gate。
一句话: Scaling laws 解释大模型为什么有效, BERT/GPT/T5 解释不同任务为什么需要不同模型形态, 企业架构决定这些能力能否安全、经济、可审计地进入生产。
与现有学习资料的连接
docs/ai-foundations/papers/01-attention-is-all-you-need.md: Transformer 是 BERT、GPT、T5 的共同架构底座。docs/ai-foundations/papers/02-retrieval-augmented-generation.md: RAG 解决 foundation model 参数知识不够新、不够可追溯的问题。docs/ai-foundations/papers/06-lora-peft-adaptation.md: 当 prompt/RAG 不足以稳定任务行为时, 用 PEFT 适配模型。docs/ai-foundations/papers/08-llm-as-judge-evaluation.md: 用 eval 判断不同模型路线是否真的适合业务。docs/AI_REQUIREMENTS_TO_EVAL_COOKBOOK.md: 把 BERT/GPT/T5 的任务拆解转成需求和验收矩阵。