AI Day 11: Reasoning模型:CoT / o1 / R1 / Extended Thinking — AI学会"深度思考"
Reasoning模型 是通过大规模强化学习训练LLM在生成最终答案前进行显式的多步推理(Chain-of-Thought),将"推理时间计算"(Test-Time Compute)转化为答案准确度的新范式——标志着AI从"快速联想"进化到"深度思考"。
日期:2026-04-12
阶段:第一阶段 — AI/LLM技术深潜 (Day 1-15)
标签:Reasoning Chain-of-Thought OpenAI o1 OpenAI o3 DeepSeek R1 Extended Thinking Process Reward Test-Time Compute Thinking Token
学习路径树
AI/LLM 深度技术学习 50天计划
├── 第一阶段:模型基础 (Day 1-15)
│ ├── Day 1: Transformer架构与LLM基础 ✅
│ ├── Day 2: 模型量化与本地部署 ✅
│ ├── Day 3: 训练过程深度:Pre-training / SFT / RLHF / DPO ✅
│ ├── Day 4: Prompt Engineering与上下文学习(ICL)原理 ✅
│ ├── Day 5: RAG架构:检索增强生成全链路 ✅
│ ├── Day 6: 向量数据库与Embedding模型 ✅
│ ├── Day 7: Fine-tuning实战:LoRA / QLoRA / Adapter ✅
│ ├── Day 8: 推理优化:vLLM / TensorRT-LLM / SGLang ✅
│ ├── Day 9: 长上下文技术:RoPE扩展 / Ring Attention ✅
│ ├── Day 10: 多模态模型:Vision-Language架构 ✅
│ ├── Day 11: Reasoning模型:CoT / o1 / R1 / Extended Thinking ← 你在这里
│ ├── Day 12: Agent框架:ReAct / Tool Use / Planning
│ ├── Day 13: MCP协议与Tool生态
│ ├── Day 14: 模型评估:Benchmark / Arena / 安全评估
│ └── Day 15: 阶段复习与架构总结
│
├── 第二阶段:工程实践 (Day 16-30)
│ ├── Day 16-20: LLM应用架构设计(微服务/网关/缓存/监控)
│ ├── Day 21-25: 生产级RAG系统(Chunking/Rerank/评估/迭代)
│ └── Day 26-30: Agent系统工程化(状态管理/错误恢复/成本控制)
│
├── 第三阶段:金融零售AI应用 (Day 31-42)
│ ├── Day 31-35: 金融AI(风控模型/智能投顾/合规/反欺诈)
│ ├── Day 36-40: 零售AI(推荐系统/智能客服/供应链预测/营销)
│ └── Day 41-42: CeFi x DeFi x AI融合架构
│
└── 第四阶段:面试冲刺 (Day 43-50)
├── Day 43-46: 系统设计面试(LLM平台/RAG/Agent/推荐)
├── Day 47-49: 产品/架构面试模拟
└── Day 50: 总结与作品集
核心概念
一句话定义
Reasoning模型 是通过大规模强化学习训练LLM在生成最终答案前进行显式的多步推理(Chain-of-Thought),将"推理时间计算"(Test-Time Compute)转化为答案准确度的新范式——标志着AI从"快速联想"进化到"深度思考"。
金融类比
传统LLM (GPT-4/Claude 3.5):
= 银行柜台资深客户经理
→ 客户一说需求,凭10年经验直觉给出建议
→ 80%的常规业务处理得又快又好
→ 但遇到复杂结构化融资、跨境税务筹划 → 凭直觉可能出错
→ System 1思维:快、自动、凭经验
Reasoning模型 (o3/R1/Claude ET):
= 后台风控分析部 + 合规审查团队
→ 收到材料后,先内部讨论和推演(thinking tokens)
→ "如果走方案A → 触发监管条款3.2 → 不行"
→ "如果走方案B → 需要验证抵押率 → 计算... → 可行"
→ 逐步排除、验证、回溯 → 最终给出结论
→ System 2思维:慢、刻意、逻辑严密
→ 贵(消耗大量内部"审批工时"= thinking tokens)
→ 但在高风险/高复杂度决策上 → 准确率远超直觉判断
本质区别:
传统LLM: 输入 → [黑箱] → 输出 (一步到位)
Reasoning: 输入 → [思考步骤1→2→3→...→N] → 输出 (多步推理)
就像贷款审批:
简单消费贷: 柜台经理看一眼征信就批了 → 用GPT-4
10亿并购贷: 要尽调团队写50页分析报告 → 用o3/R1
为什么2025-2026这个话题最火
2024.09 OpenAI发布o1-preview → 首次展示Reasoning模型商用可能
2025.01 DeepSeek发布R1 → 开源、纯RL训练、"Aha moment" → 轰动全球
2025.01 OpenAI发布o3 → 在ARC-AGI上首次超过人类基准
2025.04 OpenAI发布o4-mini → 推理能力强且成本大幅降低
2025.05 Anthropic Claude Opus 4 + Extended Thinking → 最强编码推理
2025.05 Google Gemini 2.5 Pro → 百万上下文+深度推理
核心共识: Test-Time Compute Scaling 是与 Pre-training Scaling 并列的第二条性能提升路线
→ 不只靠更大模型、更多数据
→ 也靠"推理时多想一会儿"来提升表现
知识点1: Chain-of-Thought演进
从"直接回答"到"说出思考过程"
2022年之前:
Q: 一个商场打八折后再打九折,最终价格是原价的多少?
A: 72% ← 模型直接输出答案(经常算错)
2022年 Wei et al. "Chain-of-Thought Prompting":
Q: 同上
A: 让我一步步想:
1. 先打八折 = 原价 × 0.8
2. 再打九折 = 0.8 × 0.9 = 0.72
3. 所以最终价格是原价的72%
← 说出中间步骤后,准确率从~40%飙升到~90%
关键insight:
人类也一样——心算会出错,但列竖式几乎不出错
Chain-of-Thought = 强迫模型"列竖式"
为什么有效? → 把复杂推理分解为多个简单步骤
→ 每步都在模型能力范围内
→ 中间结果写入上下文 → 成为后续推理的"工作记忆"
CoT技术五代演进
┌─────────────────────────────────────────────────────────────────────┐
│ Chain-of-Thought 演进路线 │
├──────────────┬─────────┬───────────────────────────────────────────┤
│ 技术 │ 年份 │ 核心思想 │
├──────────────┼─────────┼───────────────────────────────────────────┤
│ Few-shot CoT │ 2022.01 │ 提示中给几个带推理过程的例子 │
│ Zero-shot CoT│ 2022.05 │ "Let's think step by step" 一句话触发 │
│ Self-Consist.│ 2022.10 │ 采样多条推理路径,投票选最优 │
│ Tree-of-Thought│2023.05│ 树状搜索,可回溯错误分支 │
│ Graph-of-Thought│2023.08│ 图结构推理,允许合并和循环 │
├──────────────┼─────────┼───────────────────────────────────────────┤
│ 内化CoT │ 2024+ │ o1/R1: 不需要提示,模型自动推理 │
└──────────────┴─────────┴───────────────────────────────────────────┘
各代详解
第1代: Few-shot CoT (Wei et al., 2022)
方法: Prompt中给2-3个带推理步骤的示例
效果: GSM8K数学准确率 17% → 58%(PaLM 540B)
限制: 需要人工写高质量示例,不同任务需要不同示例
示例Prompt:
Q: Roger有5个网球,买了2罐,每罐3个。现在多少个?
A: Roger开始有5个球。买了2罐×3=6个。总共5+6=11个。答案是11。
Q: [你的实际问题]
第2代: Zero-shot CoT (Kojima et al., 2022)
方法: 只加一句 "Let's think step by step"
效果: GSM8K准确率从17%提升到40%+(不需要任何示例!)
意义: 证明推理能力已经在模型权重中,只需"触发"
这是Prompt Engineering中影响最大的单一发现之一
为什么这么简单的方法有效?
→ 预训练数据中包含大量 "First... Then... Therefore..." 的推理文本
→ "Step by step" 激活了这些推理模式
→ 相当于告诉模型:"用你训练时见过的推理格式来回答"
第3代: Self-Consistency (Wang et al., 2022)
方法:
1. 对同一问题生成N条不同的推理路径(temperature > 0)
2. 每条路径得到一个答案
3. 多数投票选最终答案
效果: GSM8K在Few-shot CoT基础上再提升 +10-15%
原理: 不同推理路径可能犯不同错误,但正确答案最一致
金融类比: 三个独立审计师分别审查同一份报表 → 两个以上一致的结论更可信
代价: 推理成本 ×N(通常N=5-20)
← 这里已经出现"用更多推理计算换更高准确率"的思路
← 直接启发了后来的Test-Time Compute Scaling
第4代: Tree-of-Thought (Yao et al., 2023)
方法:
1. 每步生成多个可能的"思路分支"
2. 用启发式或模型自评估剪枝坏分支
3. BFS/DFS搜索最优路径
4. 关键创新: 可以"回溯"错误的推理步骤
[问题]
/ | \
[想法A] [想法B] [想法C] ← 第一步生成3个思路
/ \ | ✗
[A1][A2] [B1] ← 评估后剪枝C,继续展开
✗ \ |
[A2→最终答案] ← 回溯选最优路径
效果: 在"24点游戏"等需要搜索的任务上 4% → 74%
限制: 极慢,API调用次数爆炸(10-100×),实际应用有限
第5代: Graph-of-Thought (Besta et al., 2023)
方法: 将思考过程组织为有向图,允许:
- 分支(探索多种可能)
- 合并(综合多个子结果)
- 循环(迭代改进)
比树更灵活,更接近人类实际思维模式
但实现复杂度高,2025-2026更多停留在学术研究阶段
从Prompt-CoT到内化推理的范式转变
2022-2023 CoT:
推理能力靠Prompt触发 → 需要用户懂得如何提示
模型本身没有"主动推理"的意识
2024-2026 Reasoning模型:
推理能力被训练进模型权重 → 模型自动决定何时/如何深度思考
不需要"Let's think step by step" → 模型自己就会
类比:
CoT = 告诉实习生"你做之前先列个计划"(需要提醒)
o1/R1 = 资深分析师自己就知道复杂问题要先拆解(内化了)
知识点2: OpenAI o1/o3系列
发展时间线
2024.09.12 o1-preview 发布 → 首个商用Reasoning模型,震惊业界
2024.12.05 o1 正式版 → 性能更强,API开放
2024.12.20 o3 发布(内部演示) → ARC-AGI首次接近人类水平
2025.01.31 o3-mini 发布 → 低成本推理模型
2025.04.16 o4-mini 发布 → 更快更便宜,工具调用能力
2025 Q2 o3 全面开放 → 当前最强闭源推理模型之一
命名跳过o2: 因为英国电信公司O2的商标问题
推测的训练方法: Reinforcement Learning on Chain-of-Thought
OpenAI没有公开o1的完整训练方法,但基于论文和社区逆向工程的共识:
Step 1: 基座模型
从GPT-4级别的预训练模型开始
Step 2: CoT数据收集
让模型生成大量推理过程(可能结合人工编写的高质量CoT)
关键: 不只是最终答案正确,中间推理步骤也要正确
Step 3: 强化学习训练
核心创新 → 用RL训练模型"学会思考"
奖励信号:
- 最终答案正确 → +1
- 推理过程合理 → 额外奖励(Process Reward Model)
- 推理步骤简洁高效 → 额外奖励
- 答案错误 → -1
RL算法: 推测使用PPO或类似方法
结果: 模型学会了——
a) 自动将复杂问题拆解为子步骤
b) 在思考过程中自我验证和回溯
c) 根据问题难度动态调整思考深度
Step 4: 后训练对齐
确保模型在思考过程中不产生有害内容
思考Token中也需要安全对齐
Thinking Token(思考Token)的概念
传统模型:
用户输入(100 tokens) → 模型输出(200 tokens)
总计: 300 tokens,按输出token计费
o1/o3模型:
用户输入(100 tokens) → [思考过程: 2000 tokens] → 可见输出(200 tokens)
总计: 2300 tokens,思考token也计费!
思考过程 = 模型在"脑子里"进行的推理
用户看不到完整思考过程(o1的thinking是隐藏的)
但能看到一个摘要:"正在思考...正在分析数学结构...正在验证..."
关键影响:
┌──────────────┬──────────────┬──────────────┐
│ │ 传统GPT-4 │ o3 │
├──────────────┼──────────────┼──────────────┤
│ 简单问题 │ 200 tokens │ 2000 tokens │
│ 速度 │ ~2秒 │ ~15秒 │
│ 成本 │ $0.006 │ $0.06+ │
│ 准确率 │ 95% │ 97% │
│ │ ← 反而更划算 │ 杀鸡用牛刀 → │
├──────────────┼──────────────┼──────────────┤
│ 数学竞赛题 │ 200 tokens │ 50000 tokens │
│ 速度 │ ~2秒 │ ~120秒 │
│ 成本 │ $0.006 │ $1.50+ │
│ 准确率 │ 30% │ 83% │
│ │ ← 根本做不对 │ 价值巨大 → │
└──────────────┴──────────────┴──────────────┘
o3为什么在数学/代码/科学上远超GPT-4
AIME 2024 (美国数学邀请赛):
GPT-4: ~12%
o1: ~74%
o3: ~88% ← 接近IMO金牌选手
Codeforces Rating (编程竞赛):
GPT-4: ~800 (入门级)
o1: ~1800 (专家级)
o3: ~2700+ (大师级前1%)
GPQA Diamond (博士级科学问题):
GPT-4: ~40%
o1: ~78%
o3: ~88% ← 超过领域博士平均水平
SWE-bench Verified (真实GitHub issue修复):
GPT-4: ~30%
o3: ~69% ← 能修复大量真实软件bug
为什么差距这么大?
1. 数学/编程需要多步精确推理 → 一步错全盘错
→ 传统模型"一步到位"容易在中间某步出错
→ Reasoning模型显式写出每步 → 减少累积错误
2. 自我验证 → 做完会"检查"
→ o3在思考过程中经常出现 "Wait, let me verify..."
→ 相当于考试做完会检查 vs 写完就交卷
3. 回溯修正 → 发现错了会"重来"
→ "This approach doesn't work. Let me try another way."
→ 传统模型一旦开始生成就停不下来(autoregressive的诅咒)
o3的局限性
1. 速度慢
简单问题也要"想"10-30秒 → 聊天场景体验差
复杂问题可能思考2-5分钟 → 用户需要等待
2. 成本高
思考Token占总消耗的70-90%
一道数学题可能消耗50K+ tokens ≈ $1-3
对比GPT-4: 同样的问题 $0.01
3. 简单任务反而变差
"翻译这句话" → o3可能过度思考,输出冗长
"写一首诗" → 创意任务不需要逻辑推理
"闲聊" → 思考过程反而让回复不自然
4. 思考过程不透明
o1/o3的thinking是隐藏的 → 用户不知道它在想什么
安全审查困难 → 思考过程可能包含有问题的推理
调试困难 → 答案错了不知道哪步出了问题
5. Overthinking问题
简单问题也可能生成几千个思考Token → 浪费
2025年引入 "Think Budget" 概念来缓解(见知识点7)
知识点3: DeepSeek R1
为什么R1是2025年最大突破之一
2025.01.20 DeepSeek发布R1 → 全球AI界地震
三个原因让它成为里程碑:
1. 性能匹敌o1
AIME 2024: R1 79.8% vs o1 79.2% ← 几乎打平
MATH-500: R1 97.3% vs o1 96.4% ← 甚至略胜
Codeforces: R1 ~2000 vs o1 ~1800 ← 编程更强
→ 一家中国初创公司 ≈ OpenAI数年投入的成果
2. 完全开源(MIT License)
模型权重开放下载
训练方法完整公开(论文详细到可复现)
→ 打破了"Reasoning模型只有OpenAI能做"的认知
→ 全球研究者可以在此基础上改进
3. 训练方法革新
不依赖人工标注的CoT数据
纯RL训练出推理能力 → 挑战了"必须要高质量数据"的常识
训练成本远低于预期 → 约$5-6M(vs GPT-4推测的$100M+)
R1-Zero: 纯RL的惊人发现
DeepSeek做了一个大胆实验: R1-Zero
训练流程:
1. 从DeepSeek-V3 Base模型开始(纯预训练,没做SFT)
2. 直接用RL训练(GRPO算法,Group Relative Policy Optimization)
3. 奖励函数极其简单:
- 数学题: 答案对了 +1,错了 -1
- 代码题: 通过测试用例 +1,不通过 -1
- 格式: 把思考过程放在<think>标签内 +小奖励
4. 不提供任何CoT示例,不做SFT
结果 → 令人震惊:
模型自发涌现出推理行为:
├── 自己学会了分步推理(没人教它)
├── 自己学会了自我验证("let me check...")
├── 自己学会了尝试不同方法
└── 最惊人的: "Aha moment"(顿悟时刻)
"Aha Moment" — 推理能力的涌现
DeepSeek论文中最著名的片段:
在训练过程中,R1-Zero的某次输出:
"Wait wait wait. Let me reconsider.
I initially thought the answer was X,
but that contradicts the constraint in step 3.
Hmm, I think I need to reevaluate this.
**Aha moment**: I realize that the equation should be
solved differently because..."
这段文字不是人类写的,不是从训练数据复制的
→ 是模型在RL训练中自发学会的推理策略
→ 它发现"回头检查并修正"能获得更高奖励
→ 于是这种行为被强化了
更深层含义:
推理能力可能不需要显式教授
→ 只要给正确的奖励信号 + 足够的计算
→ 模型能自己"发明"推理方法
→ 这对AGI研究有重大启示
R1完整训练流程(四阶段)
R1-Zero虽然惊人,但有问题:
- 输出格式混乱(中英混杂、可读性差)
- 有时推理过程过长无意义
- 非推理任务(写作/翻译)表现不好
所以DeepSeek设计了完整的R1训练流程:
┌──────────────────────────────────────────────────────────┐
│ DeepSeek R1 完整训练四阶段 │
├──────────┬───────────────────────────────────────────────┤
│ 阶段1 │ Cold Start SFT │
│ 目标 │ 给模型一个"推理格式"的起点 │
│ 方法 │ 用少量高质量CoT数据做SFT(几千条) │
│ 效果 │ 模型学会<think>...</think>格式 │
├──────────┼───────────────────────────────────────────────┤
│ 阶段2 │ 大规模RL训练 │
│ 目标 │ 真正提升推理能力 │
│ 方法 │ GRPO算法,数学/代码/逻辑/科学多任务 │
│ 奖励 │ 答案正确性 + 格式规范 + 语言一致性 │
│ 规模 │ 这是核心阶段,大量GPU计算 │
├──────────┼───────────────────────────────────────────────┤
│ 阶段3 │ 拒绝采样 + SFT │
│ 目标 │ 让模型也能做好非推理任务 │
│ 方法 │ 用阶段2的模型生成大量推理样本 │
│ │ 筛选高质量的 + 混入写作/翻译等通用SFT数据 │
│ │ 做一轮SFT → 全面型模型 │
├──────────┼───────────────────────────────────────────────┤
│ 阶段4 │ 第二轮RL(对齐) │
│ 目标 │ 安全性 + 人类偏好对齐 │
│ 方法 │ 加入Helpfulness和Safety的奖励模型 │
│ 效果 │ 最终的DeepSeek-R1 │
└──────────┴───────────────────────────────────────────────┘
关键创新: 阶段2的GRPO算法
传统PPO: 需要一个Critic模型(额外的大模型,成本翻倍)
GRPO: 用同组样本的相对排名作为Baseline → 去掉Critic → 省一半成本
具体做法:
1. 对同一道题生成G个答案(如G=16)
2. 计算每个答案的奖励分数
3. 用组内平均奖励作为baseline
4. 高于平均的答案 → 增加概率
5. 低于平均的答案 → 降低概率
→ 简单、高效、不需要额外模型
R1-Distill: 将推理能力蒸馏到小模型
DeepSeek另一个重要贡献: 证明推理能力可以蒸馏
方法:
用R1(671B参数)生成大量高质量推理数据(80万条)
→ 用这些数据SFT训练小模型(1.5B / 7B / 8B / 14B / 32B / 70B)
结果:
R1-Distill-Qwen-32B > OpenAI o1-mini
R1-Distill-Qwen-14B ≈ QwQ-32B-Preview
R1-Distill-Qwen-7B 远超非推理的70B模型在数学上的表现
→ 32B的蒸馏模型就能超过o1-mini!
→ 意味着推理能力可以在消费级硬件上运行
→ 单张RTX 4090就能跑R1-Distill-14B
开源社区影响:
R1-Distill系列成为2025年最流行的本地推理模型
→ 科研人员: 用R1-Distill做实验,成本极低
→ 企业: 在内网部署,不依赖API
→ 开发者: 构建推理能力的Agent,成本可控
知识点4: Claude Extended Thinking
Anthropic的差异化方案
2025年初 Claude 3.5 Sonnet引入Extended Thinking(beta)
2025.02 Claude 3.7 Sonnet: Extended Thinking正式功能
2025.05 Claude Opus 4 + Extended Thinking: 当前最强编码推理模型
Anthropic的设计哲学与OpenAI不同:
OpenAI o1/o3: 思考过程完全隐藏 → 用户只看到"正在思考..."
Claude ET: 思考过程可见(thinking block可返回给开发者)
→ 更透明、更可调试、更符合Anthropic的安全理念
Extended Thinking工作原理
API调用方式:
设置 thinking.type = "enabled"
设置 thinking.budget_tokens = 10000 ← 控制思考预算
响应结构:
{
"content": [
{
"type": "thinking", ← 思考过程(可见!)
"thinking": "Let me analyze this step by step...
First, I need to consider...
Wait, that approach has a flaw because...
Let me try a different angle..."
},
{
"type": "text", ← 最终回复
"text": "The answer is..."
}
]
}
关键设计决策:
1. Thinking token可见性
→ 开发者可以看到完整思考过程
→ 用于调试、审计、理解模型推理
→ 但thinking block有使用限制(不能直接缓存/修改后喂回)
2. Budget控制
→ 用户可以设置thinking的token上限
→ budget_tokens: 1024 → 简单思考
→ budget_tokens: 32768 → 深度推理
→ 让用户在速度/成本/质量之间权衡
3. 流式输出
→ thinking内容也支持streaming
→ 用户能实时看到模型的思考过程
→ 减少等待焦虑("至少知道它在认真想")
与o1/R1的关键差异
┌──────────────┬──────────────┬──────────────┬──────────────┐
│ │ OpenAI o3 │ DeepSeek R1 │ Claude ET │
├──────────────┼──────────────┼──────────────┼──────────────┤
│ 思考可见性 │ 隐藏(摘要) │ 完全可见 │ 开发者可见 │
│ 思考控制 │ low/med/high │ 不可控 │ budget_tokens│
│ 训练方法 │ RL on CoT │ 纯RL(GRPO) │ 未公开 │
│ 开源 │ 否 │ 是(MIT) │ 否 │
│ 切换模式 │ 独立模型 │ 独立模型 │ 同模型开关 │
│ 非推理任务 │ 需用GPT-4 │ 需用V3 │ 关闭ET即可 │
│ 编码能力 │ 极强 │ 强 │ 极强(Opus4) │
├──────────────┼──────────────┼──────────────┼──────────────┤
│ 核心优势 │ 数学/科学最强│ 开源/可部署 │ 编码/透明 │
│ 核心劣势 │ 贵/黑箱 │ 格式偶有问题 │ 思考较保守 │
└──────────────┴──────────────┴──────────────┴──────────────┘
Claude ET的独特定位:
不是一个独立的"推理模型" → 而是给已有模型加上"深度思考模式"
→ 同一个Claude Opus 4:
关闭ET → 快速响应日常问答(System 1)
开启ET → 深度推理复杂问题(System 2)
→ 用户体验更统一,不需要在不同模型间切换
实际使用体验
Claude Opus 4 + Extended Thinking在以下场景表现卓越:
1. 复杂代码生成与调试
→ SWE-bench Verified: 72%+ → 当前最强
→ 能理解大型代码库上下文后修复bug
→ 思考过程展示架构分析 → 开发者能验证推理逻辑
2. 数学与逻辑推理
→ AIME 2024: ~80%+
→ 思考过程清晰展示解题步骤
→ 中间步骤可审计 → 适合教育/考试场景
3. 长文档分析
→ 结合1M上下文窗口 + Extended Thinking
→ 先"阅读"海量材料 → 再"深度思考"分析
→ 金融场景: 10-K年报分析+推理 → 投资建议
4. 多约束优化
→ "设计一个满足X、Y、Z约束的系统"
→ 思考过程中逐个检查约束 → 不遗漏
→ 架构设计/产品方案 → 比直接输出更全面
知识点5: Reasoning模型全面对比
2025-2026主流Reasoning模型对比
┌──────────────────────────────────────────────────────────────────────────────┐
│ Reasoning模型全面对比 (2026年4月) │
├────────────┬──────────┬──────────┬───────────┬──────────┬──────────────────┤
│ 模型 │ o3 │ o4-mini │ R1(671B) │Claude ET │ Gemini 2.5 Pro │
│ 公司 │ OpenAI │ OpenAI │ DeepSeek │Anthropic │ Google │
├────────────┼──────────┼──────────┼───────────┼──────────┼──────────────────┤
│ AIME 2024 │ ~88% │ ~77% │ ~80% │ ~80% │ ~82% │
│ GPQA Dia. │ ~88% │ ~72% │ ~72% │ ~77% │ ~80% │
│ SWE-bench │ ~69% │ ~65% │ ~50% │ ~72% │ ~64% │
│ Codeforces │ ~2700 │ ~2100 │ ~2000 │ ~2300 │ ~2200 │
├────────────┼──────────┼──────────┼───────────┼──────────┼──────────────────┤
│ 输入价格 │ $10/M │ $1.10/M │ 开源免费 │ $15/M │ $1.25/M │
│ 输出价格 │ $40/M │ $4.40/M │ 开源免费 │ $75/M │ $10/M │
│ 思考Token │ 隐藏 │ 隐藏 │ 可见 │ 可见 │ 可见 │
│ 典型延迟 │ 15-120s │ 5-30s │ 10-60s │ 10-90s │ 5-45s │
├────────────┼──────────┼──────────┼───────────┼──────────┼──────────────────┤
│ 开源 │ ✗ │ ✗ │ ✓(MIT) │ ✗ │ ✗ │
│ 本地部署 │ ✗ │ ✗ │ ✓ │ ✗ │ ✗ │
│ 工具调用 │ ✓ │ ✓(强) │ 有限 │ ✓ │ ✓ │
│ 多模态推理 │ ✓(图+文) │ ✓(图+文) │ ✗(纯文本) │ ✓(图+文)│ ✓(图+音+视) │
├────────────┼──────────┼──────────┼───────────┼──────────┼──────────────────┤
│ 最佳场景 │ 数学 │ 性价比 │ 自部署 │ 编码 │ 多模态推理 │
│ │ 科学 │ 工具调用 │ 研究 │ 分析 │ 长上下文推理 │
│ │ 竞赛 │ Agent │ 隐私 │ 调试 │ 综合任务 │
└────────────┴──────────┴──────────┴───────────┴──────────┴──────────────────┘
价格说明: R1开源权重,API价格参考DeepSeek官方API约为 $0.55/$2.19 每M tokens
但本地部署的硬件成本需要8×H100(671B参数)或使用蒸馏版本
选型决策树
你的任务需要Reasoning模型吗?
│
├── 需要数学/科学精确推理 → o3 (最强) 或 R1 (开源)
│
├── 需要修复复杂代码bug → Claude Opus 4 + ET (SWE-bench最强)
│
├── 需要Agent工具调用 → o4-mini (工具调用+推理兼顾)
│
├── 需要本地部署/数据隐私 → R1 或 R1-Distill
│
├── 需要多模态推理(图表分析) → Gemini 2.5 Pro
│
├── 预算有限但需要推理 → o4-mini 或 R1-Distill-32B
│
├── 简单任务/日常问答 → 不要用Reasoning模型!
│ → GPT-4o / Claude Sonnet / Gemini Flash 更快更便宜
│
└── 不确定 → 先用Claude Sonnet试,不够好再开Extended Thinking
知识点6: 过程奖励 vs 结果奖励(PRM vs ORM)
核心概念
训练Reasoning模型时,如何给奖励?
结果奖励模型 (ORM - Outcome Reward Model):
只看最终答案对不对
→ 答案 = 42 → 正确 → +1
→ 答案 = 38 → 错误 → -1
→ 不关心中间推理过程
过程奖励模型 (PRM - Process Reward Model):
评估每一步推理是否正确
→ 步骤1: 设x=问题中的未知数 → ✓ +0.1
→ 步骤2: 列方程 2x+3=9 → ✓ +0.1
→ 步骤3: 解得 x=4 → ✗ -0.1 (应该是x=3)
→ 步骤4: 所以答案是4 → ✗ -0.1
金融类比:
ORM = 只看贷款最终是否违约 → 结果导向
PRM = 审查审批过程每个环节是否合规 → 过程导向
Let's Verify Step by Step (OpenAI, 2023)
这篇论文是PRM的里程碑,核心发现:
实验设置:
任务: MATH数据集(高中/竞赛数学)
对比: ORM vs PRM 在Best-of-N采样中的效果
Best-of-N: 生成N个解法 → 用奖励模型选最好的
(这就是Test-Time Compute的一种形式)
核心结果:
┌──────────────────────────────────────────────┐
│ N=1 ORM: 50% PRM: 50% (相同) │
│ N=10 ORM: 65% PRM: 70% (PRM领先) │
│ N=100 ORM: 72% PRM: 78% (差距加大) │
│ N=1000 ORM: 74% PRM: 83% (PRM显著优) │
└──────────────────────────────────────────────┘
→ 采样越多,PRM优势越大
→ ORM在N很大时"饱和" → 因为它只看答案,无法区分"碰巧对"和"推理对"
→ PRM能持续提升 → 因为它能识别推理过程的质量
为什么PRM更好?
1. 信用分配更精确
ORM: 答案错了 → 但不知道是哪一步错了
PRM: 精确定位 → 步骤3出错 → 模型学会避免类似错误
2. 防止"侥幸正确"
ORM: 推理过程全错但答案碰巧对 → 还是给+1
PRM: 过程错了就扣分 → 不鼓励错误的推理习惯
3. 更好的泛化
学会"正确推理方法" vs 学会"凑答案"
前者能迁移到新问题,后者不能
PRM的挑战
PRM听起来很好,但有巨大的标注成本问题:
ORM标注: 只需要答案 → 数学题有标准答案 → 可自动验证 → 几乎零成本
PRM标注: 需要每一步的正确性判断 → 需要数学专家逐步审查 → 极其昂贵
OpenAI的方案:
雇人标注了约80万个推理步骤
每个步骤标记: positive / negative / neutral
→ 成本高昂,不可大规模扩展
后续改进 (2024-2025):
1. Math-Shepherd: 用蒙特卡洛方法自动估计步骤正确性
→ 从每步开始生成多个continuation → 看最终答案正确率
→ 正确率高 → 这步大概率对 → 自动标注
2. OmegaPRM (DeepSeek): 用树搜索自动构建PRM训练数据
→ 大幅降低标注成本
3. Self-Rewarding: 让模型自己评估自己的推理步骤
→ 2025年的趋势: 用强模型标注弱模型
实际应用中:
DeepSeek R1: 主要用ORM(答案正确性)→ 因为开源社区标注PRM太贵
OpenAI o3: 推测使用PRM → 有资源做大规模步骤标注
趋势: 自动PRM方法成熟后,PRM将成为主流
Test-Time Compute Scaling — 第二条Scaling Law
传统Scaling Law (Kaplan et al., 2020):
性能 ∝ 参数量^α × 数据量^β × 计算量^γ
→ 更大模型 + 更多数据 + 更多训练计算 = 更好
→ 但这是训练时(Train-Time)的规律
Test-Time Compute Scaling (2024-2025新发现):
推理时投入更多计算 → 性能也能提升!
形式1: Best-of-N采样 → 生成N个答案选最好的
形式2: 思考Token → 让模型"想"更久
形式3: 树搜索/MCTS → 系统性探索解空间
┌────────────────────────────────────────────────┐
│ 性能 ∝ f(模型大小, 训练数据, 推理计算) │
│ ↑ 新维度! │
│ │
│ 推理计算可以"弥补"模型大小的不足 │
│ → 小模型 + 大量推理计算 ≈ 大模型 + 少量推理 │
└────────────────────────────────────────────────┘
实际意义:
训练一个1T参数模型 → 需要$100M+ → 一次性巨额投入
推理时多花10倍计算 → 按需付费 → 灵活、可控
金融类比:
Train-Time Scaling = 花10年培养一个天才分析师(固定成本高)
Test-Time Scaling = 给普通分析师更多时间做分析(按需付费)
两者结合效果最好: 好的分析师 + 充足的分析时间
知识点7: Reasoning模型的产品影响
什么任务该用Reasoning模型
高价值场景 ✓ (用Reasoning模型):
┌─────────────────────────────────────────────────────────────┐
│ 场景 │ 为什么需要推理 │
├───────────────────────────────┼──────────────────────────┤
│ 数学/统计计算 │ 多步计算,一步错全错 │
│ 代码bug修复 │ 需要理解上下文+推理因果 │
│ 法律/合规分析 │ 多条款交叉引用+逻辑推演 │
│ 金融建模/估值 │ 多假设+多步计算+敏感性 │
│ 复杂架构设计 │ 多约束优化+trade-off │
│ 科学研究问题 │ 假设→推导→验证 │
│ 竞赛/考试题 │ 需要创造性解题策略 │
│ 多步Agent规划 │ 长期规划+条件分支 │
└───────────────────────────────┴──────────────────────────┘
低价值场景 ✗ (不要用Reasoning模型):
┌─────────────────────────────────────────────────────────────┐
│ 场景 │ 为什么不需要 │
├───────────────────────────────┼──────────────────────────┤
│ 简单问答/知识检索 │ 检索比推理更高效 │
│ 翻译 │ 模式匹配,不需要推理 │
│ 创意写作/营销文案 │ 需要发散思维而非逻辑推理 │
│ 闲聊/客服 │ 需要快速响应+情感共鸣 │
│ 简单的代码生成 │ 直接生成即可 │
│ 数据格式转换 │ 规则明确,无需推理 │
│ 摘要/改写 │ 理解+压缩,非推理 │
└───────────────────────────────┴──────────────────────────┘
经验法则:
如果人类需要"想一想"才能回答 → 用Reasoning模型
如果人类能"脱口而出" → 用普通模型
"Think Budget"概念
2025年出现的重要产品概念: Think Budget / Reasoning Budget
问题: Reasoning模型不区分问题难度,简单问题也"深度思考"
→ "1+1=?" → 模型可能花5000 tokens思考 → 浪费
解决方案:
1. OpenAI的Reasoning Effort参数
reasoning_effort: "low" → 快速,少量思考
reasoning_effort: "medium" → 平衡
reasoning_effort: "high" → 深度推理
用户根据任务复杂度选择 → 但需要用户判断
2. Claude Extended Thinking的budget_tokens
budget_tokens: 1024 → 简单推理
budget_tokens: 8192 → 中等推理
budget_tokens: 32768 → 深度推理
budget_tokens: 128000 → 极限推理
更精细的控制 → 但也需要用户设定
3. 自适应思考(2025-2026趋势)
模型自动判断问题难度 → 动态分配思考量
简单问题 → 50 thinking tokens
复杂问题 → 50000 thinking tokens
o4-mini在这方面有所改进 → 简单问题速度明显加快
但还没有完全解决
产品设计建议:
不要让用户选"思考深度" → 用户不知道怎么选
→ 先用快速模型回答
→ 检测到不确定/复杂时自动升级到推理模型
→ "渐进式推理"模式: 先快后深
对Agent系统的影响
Reasoning模型是Agent系统的"大脑升级":
传统Agent (GPT-4 + ReAct):
观察 → 快速决定下一步 → 行动 → 观察 → ...
问题: 每步决策都是"快思考" → 复杂场景容易走偏
类比: 实习生执行任务 → 一步一步问主管
Reasoning Agent (o3/R1 + ReAct):
观察 → [深度思考: 考虑3种方案,评估每种后果] → 选最优行动 → ...
优势: 规划能力大幅提升 → 减少无效步骤
类比: 资深员工自己制定计划 → 关键节点汇报
实际影响:
1. 更少的工具调用次数
传统: 可能试错10次才找到正确方法
推理: 先"想清楚",3-5次就搞定
→ Agent效率提升 + 成本反而可能更低(减少API调用)
2. 更复杂的任务可自动化
编写+测试+调试代码 → Devin/Claude Code等"AI程序员"
多步金融分析 → 自动尽职调查Agent
3. 但延迟是问题
Agent每步都要"思考"15-60秒 → 整个流程可能需要数分钟
→ 需要异步架构 + 进度反馈UI
4. o4-mini的工具调用优势
2025年 o4-mini专门优化了推理+工具调用
→ 在Agent场景中成为高性价比选择
对RAG系统的影响
Reasoning模型让RAG系统更"聪明":
传统RAG:
检索 → 拼接context → 模型直接生成答案
问题: 多个文档片段可能矛盾 → 模型不知道该信谁
Reasoning-enhanced RAG:
检索 → 拼接context → 模型推理:
"文档A说X,文档B说Y"
"它们矛盾的原因可能是..."
"根据时间顺序,B更新所以更可信"
"结论: Y is correct"
→ 能处理矛盾信息、做交叉验证
金融应用:
信贷审批RAG:
传统: 检索到申请人收入信息 → 直接判断
推理: 检索到收入+负债+征信+行业信息 → 交叉分析
→ "收入高但行业为夕阳产业 → 未来偿付能力存疑"
→ 更深入的风险分析
代价:
推理模型处理RAG context更慢更贵
→ 适合低频高价值场景(贷款审批、法律分析)
→ 不适合高频简单检索(客服FAQ)
对代码生成的影响
Reasoning模型在编码领域的影响最为直接:
2024年之前:
AI编码助手 = 自动补全 + 简单函数生成
→ GitHub Copilot本质上是"智能Tab"
2025年 Reasoning + 编码:
AI编码 = 理解需求 → 设计方案 → 编写代码 → 自我审查 → 修复bug
Claude Opus 4 + ET:
→ SWE-bench 72%: 能修复真实开源项目bug
→ 理解整个代码库上下文后做修改
→ 思考过程展示架构分析和方案权衡
o3/o4-mini:
→ Codeforces 2700+: 竞赛级算法编程
→ 能处理复杂数据结构和算法问题
产品形态演进:
2023: Copilot补全 → 代码片段级
2024: Cursor/Aider → 文件级编辑
2025: Claude Code/Devin → 项目级理解+多文件修改
2026: AI Software Engineer → 从需求到部署的全流程?
关键洞察:
Reasoning模型让"AI程序员"从玩具变成生产工具
→ 但目前最适合: 明确需求的实现、bug修复、代码重构
→ 仍然弱于人类: 模糊需求理解、架构创新、跨团队协作
成本优化策略
Reasoning模型很贵 → 产品设计需要精细的成本管理:
策略1: 路由分层 (Router Pattern)
┌─────────┐ 简单任务 ┌─────────────┐
│ 用户请求 │ ──────────────→ │ GPT-4o/Sonnet│ → 快速响应
│ │ └─────────────┘
│ 分类器 │ 复杂任务 ┌─────────────┐
│ │ ──────────────→ │ o3/Claude ET │ → 深度推理
└─────────┘ └─────────────┘
分类器可以是: 规则/小模型/关键词匹配
→ 80%请求走快速通道,20%走推理通道
→ 整体成本降低60-70%
策略2: 渐进式推理 (Progressive Reasoning)
Step 1: 先用快模型回答
Step 2: 自动检测答案置信度
Step 3: 低置信度 → 自动升级到推理模型重新回答
→ 只在需要时才"升级"
策略3: 缓存思考结果 (Thinking Cache)
同类问题的推理模式可以缓存
"如何计算IRR" → 推理过程第一次记录 → 类似问题复用
→ 减少重复推理
策略4: 蒸馏专用模型 (Distillation)
用R1/o3处理特定领域1000道题 → 生成高质量CoT数据
→ Fine-tune一个7B小模型做该领域的推理
→ R1-Distill方法论已经验证了可行性
→ 推理成本降低100倍
金融场景的成本权衡:
一笔$10M贷款审批: 用o3分析花$5 → 值得
一笔$100消费贷审批: 用o3花$5 → 不值得 → 用规则引擎+快模型
→ 推理模型成本必须与决策价值匹配
今日思考
思考1: Reasoning模型是否意味着AGI更近了?
正方观点:
- R1-Zero证明推理能力可以从简单奖励信号中涌现
- o3在ARC-AGI上首次接近人类基准 → AGI benchmark突破
- Test-Time Compute提供了新的性能提升维度
- 推理+工具使用+长上下文 → 越来越接近"通用问题解决者"
反方观点:
- 数学推理 ≠ 通用智能(常识推理仍然薄弱)
- 模型"推理"的本质是否真正理解,还是模式匹配的高级形式?
- 创造力、情感理解、具身认知 → 目前Reasoning模型不涵盖
- "Aha moment"可能只是RL训练出的统计特征,不是真正的理解
我的观点:
Reasoning模型是通往AGI的重要一步,但不是最后一步。
它解决了"逻辑推理"这块拼图,但AGI还需要:
→ 持续学习(不只是推理时间的计算)
→ 真实世界交互(不只是文本推理)
→ 目标设定(不只是回答问题)
金融PM视角:
短期(1-2年): Reasoning模型让AI在高价值决策场景真正可用
中期(3-5年): Reasoning+Agent+工具 → AI金融分析师
长期: AGI → 完全自主的投资/风控决策 → 但监管和信任是更大障碍
思考2: 开源R1 vs 闭源o3 — 长期谁会赢?
DeepSeek R1开源的影响:
1. 打破技术垄断 → 证明Reasoning不是OpenAI独有
2. 加速研究 → 全球研究者可以在R1基础上改进
3. 降低门槛 → 企业可以本地部署推理能力
4. 蒸馏方法 → 小团队也能构建专用推理模型
OpenAI闭源的优势:
1. 更多资源 → 持续投入PRM/RLHF等昂贵训练
2. 更多数据 → ChatGPT用户反馈形成飞轮
3. 产品整合 → 与GPT Store/API生态深度绑定
4. 安全控制 → 闭源更容易做安全对齐
趋势判断:
2025-2026: 开源+闭源共存
→ 研究和隐私场景 → R1/R1-Distill
→ 极致性能场景 → o3/Claude
→ 通用场景 → 性价比决定(o4-mini/Gemini Flash)
开源推理模型的技术差距在快速缩小:
2024.09: o1发布,没有开源对手
2025.01: R1发布,4个月追平 → 追赶速度惊人
2025下半年: 预计更多开源Reasoning模型(Llama/Qwen系列)
思考3: Reasoning模型如何改变金融产品设计?
短期可实现的金融应用:
1. 智能贷款审批助手
传统: 规则引擎 + 评分卡 → 机械判断
推理增强:
输入全部材料 → 模型推理:
"申请人收入稳定但行业集中度高"
"近期有大额消费但未影响偿付比"
"综合评估: 建议批准但额度降低20%,原因如下..."
→ 不是替代审批,是给审批员一个"思考过程可见"的分析报告
2. 合规审查AI
监管条款: 100+页
业务方案: 50+页
推理模型: 逐条检查方案是否触发监管条款
→ 思考过程可审计 → 合规部门可以检查AI的推理是否正确
→ Extended Thinking的透明性在这里至关重要
3. 投资分析Agent
输入: 年报、行业报告、新闻、链上数据
推理模型:
"收入增长20%但应收账款增长50% → 可能是激进确收"
"与竞品对比: 毛利率偏低3% → 定价能力弱"
"链上数据显示大户在减持 → 市场信心不足"
→ 多源数据交叉推理 → 人类分析师级别的洞察
4. 风控异常分析
传统: 规则触发 → 告警 → 人工分析
推理增强: 规则触发 → AI深度分析 → 给出可能原因和建议
"大额跨境转账告警 → 分析: 收款方为已知供应商,
历史有类似交易,金额在正常波动范围,
建议: 正常放行,非洗钱风险"
→ 减少误报的人工处理成本
面试表达
"请解释什么是Reasoning模型,与传统LLM有什么区别?"
30秒版本:
Reasoning模型是通过强化学习训练LLM在回答前进行显式多步推理的新范式。
传统LLM像经验丰富的柜员凭直觉快速判断,
Reasoning模型像后台分析团队逐步推演后给出结论。
核心差异是引入了"思考Token"——模型在输出答案前先进行内部推理,
代价是更慢更贵,但在数学、编码、复杂分析上准确率提升30-50%。
2分钟版本:
补充: CoT演进史(2022-2025), o1/o3/R1/Claude ET四大方案,
PRM vs ORM, Test-Time Compute Scaling作为第二条Scaling Law,
以及产品选型考量(什么时候该用/不该用)。
追问准备:
Q: DeepSeek R1为什么这么重要?
A: 三点——性能匹敌o1/成本极低(纯RL+GRPO)/完全开源(MIT)。
R1-Zero还证明推理能力可以在没有人工CoT标注的情况下从RL涌现,
"Aha moment"现象暗示推理是可涌现的能力而非必须显式教授的。
Q: 在金融场景中你会如何应用Reasoning模型?
A: 按价值分层路由——高价值决策(并购分析/合规审查)用o3/Claude ET,
日常业务(账户查询/简单客服)用普通模型,
用Router模式自动分类。核心是推理成本与决策价值匹配。
Q: 你怎么看Reasoning模型的成本问题?
A: 四个策略——路由分层(80%走快通道)/渐进式推理(按需升级)/
思考缓存(同类问题复用)/蒸馏专模型(R1-Distill方法论验证了可行性)。
关键insight: 小模型+蒸馏的推理数据可以达到大推理模型80%的效果,
成本降低100倍。
学习资源
必读论文
| 论文 | 说明 |
|---|---|
| Chain-of-Thought Prompting (Wei et al., 2022) | CoT开山之作 |
| Zero-shot CoT (Kojima et al., 2022) | "Let's think step by step" |
| Self-Consistency (Wang et al., 2022) | 多路径投票 |
| Tree of Thoughts (Yao et al., 2023) | 树搜索推理 |
| Let's Verify Step by Step (Lightman et al., 2023) | PRM vs ORM里程碑 |
| Scaling LLM Test-Time Compute (Snell et al., 2024) | Test-Time Scaling理论 |
| DeepSeek-R1 Technical Report (2025) | R1完整训练方法 |
| OpenAI o1 System Card (2024) | o1安全与能力评估 |
技术博客与文章
| 资源 | 说明 |
|---|---|
| OpenAI: Learning to Reason | o1官方介绍 |
| Anthropic: Extended Thinking | Claude ET官方文档 |
| DeepSeek R1 Blog | R1发布博客 |
| Nathan Lambert: Reasoning Models | 深度分析系列 |
| Lilian Weng: LLM Reasoning | 综述级博客 |
| Sebastian Raschka: Understanding R1 | R1技术解析 |
视频教程
明日预告
Day 12: Agent框架 — ReAct / Tool Use / Planning
核心问题:
Reasoning模型学会了"思考" → 但只能"想" → 不能"做"
如何让AI不只是回答问题,而是自主使用工具完成任务?
金融场景:
"帮我分析这只股票" → 查财报API + 跑估值模型 + 搜新闻 + 写报告
→ AI Agent需要规划步骤 → 调用多个工具 → 整合结果
预习: ReAct框架(Reasoning+Acting) → Tool Use协议
→ Planning策略(单步/多步/自适应) → Agent架构模式
与今日关系:
Day 11 Reasoning → AI学会深度思考(大脑升级)
Day 12 Agent → AI学会使用工具和执行动作(加上手脚)
组合 = Reasoning Agent: 能想清楚 + 能做到
→ 2025-2026最热门的AI应用范式
Day 11 总结: Reasoning模型是2025年AI领域最重要的突破——从2022年Wei的Chain-of-Thought提示到2024年OpenAI o1的商用化,再到2025年DeepSeek R1的开源震撼和Claude Extended Thinking的透明化设计,AI学会了"深度思考"。核心机制是Test-Time Compute Scaling——通过在推理阶段投入更多计算(thinking tokens),以时间和成本换取准确率的大幅提升。这不是渐进改进,而是范式转变:从"一步到位快速回答"到"多步推理慢思考"。R1证明推理能力可以从简单的RL奖励信号中涌现(Aha moment),PRM证明过程监督优于结果监督。但产品设计需要精细权衡——简单任务用Reasoning模型是杀鸡用牛刀,路由分层和渐进式推理是成本控制的关键。对金融行业,Reasoning模型让AI在高价值决策场景(信贷分析/合规审查/投资研究)中真正可用,思考过程的可见性和可审计性解决了"AI黑箱"的信任问题。