返回AI笔记
AI Day 11

AI Day 11: Reasoning模型:CoT / o1 / R1 / Extended Thinking — AI学会"深度思考"

Reasoning模型 是通过大规模强化学习训练LLM在生成最终答案前进行显式的多步推理(Chain-of-Thought),将"推理时间计算"(Test-Time Compute)转化为答案准确度的新范式——标志着AI从"快速联想"进化到"深度思考"。

2026-04-12
ReasoningChain-of-ThoughtOpenAIOpenAIDeepSeekExtendedProcessTest-TimeThinking

日期:2026-04-12 阶段:第一阶段 — AI/LLM技术深潜 (Day 1-15) 标签Reasoning Chain-of-Thought OpenAI o1 OpenAI o3 DeepSeek R1 Extended Thinking Process Reward Test-Time Compute Thinking Token


学习路径树

AI/LLM 深度技术学习 50天计划
├── 第一阶段:模型基础 (Day 1-15)
│   ├── Day 1:  Transformer架构与LLM基础 ✅
│   ├── Day 2:  模型量化与本地部署 ✅
│   ├── Day 3:  训练过程深度:Pre-training / SFT / RLHF / DPO ✅
│   ├── Day 4:  Prompt Engineering与上下文学习(ICL)原理 ✅
│   ├── Day 5:  RAG架构:检索增强生成全链路 ✅
│   ├── Day 6:  向量数据库与Embedding模型 ✅
│   ├── Day 7:  Fine-tuning实战:LoRA / QLoRA / Adapter ✅
│   ├── Day 8:  推理优化:vLLM / TensorRT-LLM / SGLang ✅
│   ├── Day 9:  长上下文技术:RoPE扩展 / Ring Attention ✅
│   ├── Day 10: 多模态模型:Vision-Language架构 ✅
│   ├── Day 11: Reasoning模型:CoT / o1 / R1 / Extended Thinking ← 你在这里
│   ├── Day 12: Agent框架:ReAct / Tool Use / Planning
│   ├── Day 13: MCP协议与Tool生态
│   ├── Day 14: 模型评估:Benchmark / Arena / 安全评估
│   └── Day 15: 阶段复习与架构总结
│
├── 第二阶段:工程实践 (Day 16-30)
│   ├── Day 16-20: LLM应用架构设计(微服务/网关/缓存/监控)
│   ├── Day 21-25: 生产级RAG系统(Chunking/Rerank/评估/迭代)
│   └── Day 26-30: Agent系统工程化(状态管理/错误恢复/成本控制)
│
├── 第三阶段:金融零售AI应用 (Day 31-42)
│   ├── Day 31-35: 金融AI(风控模型/智能投顾/合规/反欺诈)
│   ├── Day 36-40: 零售AI(推荐系统/智能客服/供应链预测/营销)
│   └── Day 41-42: CeFi x DeFi x AI融合架构
│
└── 第四阶段:面试冲刺 (Day 43-50)
    ├── Day 43-46: 系统设计面试(LLM平台/RAG/Agent/推荐)
    ├── Day 47-49: 产品/架构面试模拟
    └── Day 50: 总结与作品集

核心概念

一句话定义

Reasoning模型 是通过大规模强化学习训练LLM在生成最终答案前进行显式的多步推理(Chain-of-Thought),将"推理时间计算"(Test-Time Compute)转化为答案准确度的新范式——标志着AI从"快速联想"进化到"深度思考"。

金融类比

传统LLM (GPT-4/Claude 3.5):
  = 银行柜台资深客户经理
  → 客户一说需求,凭10年经验直觉给出建议
  → 80%的常规业务处理得又快又好
  → 但遇到复杂结构化融资、跨境税务筹划 → 凭直觉可能出错
  → System 1思维:快、自动、凭经验

Reasoning模型 (o3/R1/Claude ET):
  = 后台风控分析部 + 合规审查团队
  → 收到材料后,先内部讨论和推演(thinking tokens)
  → "如果走方案A → 触发监管条款3.2 → 不行"
  → "如果走方案B → 需要验证抵押率 → 计算... → 可行"
  → 逐步排除、验证、回溯 → 最终给出结论
  → System 2思维:慢、刻意、逻辑严密
  → 贵(消耗大量内部"审批工时"= thinking tokens)
  → 但在高风险/高复杂度决策上 → 准确率远超直觉判断

本质区别:
  传统LLM: 输入 → [黑箱] → 输出        (一步到位)
  Reasoning: 输入 → [思考步骤1→2→3→...→N] → 输出  (多步推理)

  就像贷款审批:
    简单消费贷: 柜台经理看一眼征信就批了 → 用GPT-4
    10亿并购贷: 要尽调团队写50页分析报告 → 用o3/R1

为什么2025-2026这个话题最火

2024.09  OpenAI发布o1-preview → 首次展示Reasoning模型商用可能
2025.01  DeepSeek发布R1 → 开源、纯RL训练、"Aha moment" → 轰动全球
2025.01  OpenAI发布o3 → 在ARC-AGI上首次超过人类基准
2025.04  OpenAI发布o4-mini → 推理能力强且成本大幅降低
2025.05  Anthropic Claude Opus 4 + Extended Thinking → 最强编码推理
2025.05  Google Gemini 2.5 Pro → 百万上下文+深度推理

核心共识: Test-Time Compute Scaling 是与 Pre-training Scaling 并列的第二条性能提升路线
         → 不只靠更大模型、更多数据
         → 也靠"推理时多想一会儿"来提升表现

知识点1: Chain-of-Thought演进

从"直接回答"到"说出思考过程"

2022年之前:
  Q: 一个商场打八折后再打九折,最终价格是原价的多少?
  A: 72%  ← 模型直接输出答案(经常算错)

2022年 Wei et al. "Chain-of-Thought Prompting":
  Q: 同上
  A: 让我一步步想:
     1. 先打八折 = 原价 × 0.8
     2. 再打九折 = 0.8 × 0.9 = 0.72
     3. 所以最终价格是原价的72%
  ← 说出中间步骤后,准确率从~40%飙升到~90%

关键insight:
  人类也一样——心算会出错,但列竖式几乎不出错
  Chain-of-Thought = 强迫模型"列竖式"
  为什么有效? → 把复杂推理分解为多个简单步骤
              → 每步都在模型能力范围内
              → 中间结果写入上下文 → 成为后续推理的"工作记忆"

CoT技术五代演进

┌─────────────────────────────────────────────────────────────────────┐
│                    Chain-of-Thought 演进路线                        │
├──────────────┬─────────┬───────────────────────────────────────────┤
│ 技术          │ 年份    │ 核心思想                                  │
├──────────────┼─────────┼───────────────────────────────────────────┤
│ Few-shot CoT │ 2022.01 │ 提示中给几个带推理过程的例子               │
│ Zero-shot CoT│ 2022.05 │ "Let's think step by step" 一句话触发     │
│ Self-Consist.│ 2022.10 │ 采样多条推理路径,投票选最优               │
│ Tree-of-Thought│2023.05│ 树状搜索,可回溯错误分支                   │
│ Graph-of-Thought│2023.08│ 图结构推理,允许合并和循环                │
├──────────────┼─────────┼───────────────────────────────────────────┤
│ 内化CoT       │ 2024+  │ o1/R1: 不需要提示,模型自动推理           │
└──────────────┴─────────┴───────────────────────────────────────────┘

各代详解

第1代: Few-shot CoT (Wei et al., 2022)

方法: Prompt中给2-3个带推理步骤的示例
效果: GSM8K数学准确率 17% → 58%(PaLM 540B)
限制: 需要人工写高质量示例,不同任务需要不同示例

示例Prompt:
  Q: Roger有5个网球,买了2罐,每罐3个。现在多少个?
  A: Roger开始有5个球。买了2罐×3=6个。总共5+6=11个。答案是11。
  Q: [你的实际问题]

第2代: Zero-shot CoT (Kojima et al., 2022)

方法: 只加一句 "Let's think step by step"
效果: GSM8K准确率从17%提升到40%+(不需要任何示例!)
意义: 证明推理能力已经在模型权重中,只需"触发"
这是Prompt Engineering中影响最大的单一发现之一

为什么这么简单的方法有效?
  → 预训练数据中包含大量 "First... Then... Therefore..." 的推理文本
  → "Step by step" 激活了这些推理模式
  → 相当于告诉模型:"用你训练时见过的推理格式来回答"

第3代: Self-Consistency (Wang et al., 2022)

方法:
  1. 对同一问题生成N条不同的推理路径(temperature > 0)
  2. 每条路径得到一个答案
  3. 多数投票选最终答案

效果: GSM8K在Few-shot CoT基础上再提升 +10-15%
原理: 不同推理路径可能犯不同错误,但正确答案最一致
金融类比: 三个独立审计师分别审查同一份报表 → 两个以上一致的结论更可信

代价: 推理成本 ×N(通常N=5-20)
      ← 这里已经出现"用更多推理计算换更高准确率"的思路
      ← 直接启发了后来的Test-Time Compute Scaling

第4代: Tree-of-Thought (Yao et al., 2023)

方法:
  1. 每步生成多个可能的"思路分支"
  2. 用启发式或模型自评估剪枝坏分支
  3. BFS/DFS搜索最优路径
  4. 关键创新: 可以"回溯"错误的推理步骤

     [问题]
    /   |   \
  [想法A] [想法B] [想法C]    ← 第一步生成3个思路
   / \      |       ✗
  [A1][A2]  [B1]            ← 评估后剪枝C,继续展开
   ✗    \    |
        [A2→最终答案]       ← 回溯选最优路径

效果: 在"24点游戏"等需要搜索的任务上 4% → 74%
限制: 极慢,API调用次数爆炸(10-100×),实际应用有限

第5代: Graph-of-Thought (Besta et al., 2023)

方法: 将思考过程组织为有向图,允许:
  - 分支(探索多种可能)
  - 合并(综合多个子结果)
  - 循环(迭代改进)

  比树更灵活,更接近人类实际思维模式
  但实现复杂度高,2025-2026更多停留在学术研究阶段

从Prompt-CoT到内化推理的范式转变

2022-2023 CoT:
  推理能力靠Prompt触发 → 需要用户懂得如何提示
  模型本身没有"主动推理"的意识

2024-2026 Reasoning模型:
  推理能力被训练进模型权重 → 模型自动决定何时/如何深度思考
  不需要"Let's think step by step" → 模型自己就会

  类比:
    CoT = 告诉实习生"你做之前先列个计划"(需要提醒)
    o1/R1 = 资深分析师自己就知道复杂问题要先拆解(内化了)

知识点2: OpenAI o1/o3系列

发展时间线

2024.09.12  o1-preview 发布 → 首个商用Reasoning模型,震惊业界
2024.12.05  o1 正式版 → 性能更强,API开放
2024.12.20  o3 发布(内部演示) → ARC-AGI首次接近人类水平
2025.01.31  o3-mini 发布 → 低成本推理模型
2025.04.16  o4-mini 发布 → 更快更便宜,工具调用能力
2025 Q2     o3 全面开放 → 当前最强闭源推理模型之一

命名跳过o2: 因为英国电信公司O2的商标问题

推测的训练方法: Reinforcement Learning on Chain-of-Thought

OpenAI没有公开o1的完整训练方法,但基于论文和社区逆向工程的共识:

Step 1: 基座模型
  从GPT-4级别的预训练模型开始

Step 2: CoT数据收集
  让模型生成大量推理过程(可能结合人工编写的高质量CoT)
  关键: 不只是最终答案正确,中间推理步骤也要正确

Step 3: 强化学习训练
  核心创新 → 用RL训练模型"学会思考"

  奖励信号:
    - 最终答案正确 → +1
    - 推理过程合理 → 额外奖励(Process Reward Model)
    - 推理步骤简洁高效 → 额外奖励
    - 答案错误 → -1

  RL算法: 推测使用PPO或类似方法

  结果: 模型学会了——
    a) 自动将复杂问题拆解为子步骤
    b) 在思考过程中自我验证和回溯
    c) 根据问题难度动态调整思考深度

Step 4: 后训练对齐
  确保模型在思考过程中不产生有害内容
  思考Token中也需要安全对齐

Thinking Token(思考Token)的概念

传统模型:
  用户输入(100 tokens) → 模型输出(200 tokens)
  总计: 300 tokens,按输出token计费

o1/o3模型:
  用户输入(100 tokens) → [思考过程: 2000 tokens] → 可见输出(200 tokens)
  总计: 2300 tokens,思考token也计费!

  思考过程 = 模型在"脑子里"进行的推理
  用户看不到完整思考过程(o1的thinking是隐藏的)
  但能看到一个摘要:"正在思考...正在分析数学结构...正在验证..."

  关键影响:
    ┌──────────────┬──────────────┬──────────────┐
    │              │ 传统GPT-4    │ o3           │
    ├──────────────┼──────────────┼──────────────┤
    │ 简单问题      │ 200 tokens  │ 2000 tokens  │
    │ 速度          │ ~2秒        │ ~15秒        │
    │ 成本          │ $0.006      │ $0.06+       │
    │ 准确率        │ 95%         │ 97%          │
    │              │ ← 反而更划算 │ 杀鸡用牛刀 → │
    ├──────────────┼──────────────┼──────────────┤
    │ 数学竞赛题    │ 200 tokens  │ 50000 tokens │
    │ 速度          │ ~2秒        │ ~120秒       │
    │ 成本          │ $0.006      │ $1.50+       │
    │ 准确率        │ 30%         │ 83%          │
    │              │ ← 根本做不对 │ 价值巨大 →   │
    └──────────────┴──────────────┴──────────────┘

o3为什么在数学/代码/科学上远超GPT-4

AIME 2024 (美国数学邀请赛):
  GPT-4:       ~12%
  o1:          ~74%
  o3:          ~88%    ← 接近IMO金牌选手

Codeforces Rating (编程竞赛):
  GPT-4:       ~800 (入门级)
  o1:          ~1800 (专家级)
  o3:          ~2700+ (大师级前1%)

GPQA Diamond (博士级科学问题):
  GPT-4:       ~40%
  o1:          ~78%
  o3:          ~88%    ← 超过领域博士平均水平

SWE-bench Verified (真实GitHub issue修复):
  GPT-4:       ~30%
  o3:          ~69%    ← 能修复大量真实软件bug

为什么差距这么大?
  1. 数学/编程需要多步精确推理 → 一步错全盘错
     → 传统模型"一步到位"容易在中间某步出错
     → Reasoning模型显式写出每步 → 减少累积错误

  2. 自我验证 → 做完会"检查"
     → o3在思考过程中经常出现 "Wait, let me verify..."
     → 相当于考试做完会检查 vs 写完就交卷

  3. 回溯修正 → 发现错了会"重来"
     → "This approach doesn't work. Let me try another way."
     → 传统模型一旦开始生成就停不下来(autoregressive的诅咒)

o3的局限性

1. 速度慢
   简单问题也要"想"10-30秒 → 聊天场景体验差
   复杂问题可能思考2-5分钟 → 用户需要等待

2. 成本高
   思考Token占总消耗的70-90%
   一道数学题可能消耗50K+ tokens ≈ $1-3
   对比GPT-4: 同样的问题 $0.01

3. 简单任务反而变差
   "翻译这句话" → o3可能过度思考,输出冗长
   "写一首诗" → 创意任务不需要逻辑推理
   "闲聊" → 思考过程反而让回复不自然

4. 思考过程不透明
   o1/o3的thinking是隐藏的 → 用户不知道它在想什么
   安全审查困难 → 思考过程可能包含有问题的推理
   调试困难 → 答案错了不知道哪步出了问题

5. Overthinking问题
   简单问题也可能生成几千个思考Token → 浪费
   2025年引入 "Think Budget" 概念来缓解(见知识点7)

知识点3: DeepSeek R1

为什么R1是2025年最大突破之一

2025.01.20 DeepSeek发布R1 → 全球AI界地震

三个原因让它成为里程碑:

1. 性能匹敌o1
   AIME 2024: R1 79.8% vs o1 79.2%    ← 几乎打平
   MATH-500:  R1 97.3% vs o1 96.4%    ← 甚至略胜
   Codeforces: R1 ~2000 vs o1 ~1800   ← 编程更强
   → 一家中国初创公司 ≈ OpenAI数年投入的成果

2. 完全开源(MIT License)
   模型权重开放下载
   训练方法完整公开(论文详细到可复现)
   → 打破了"Reasoning模型只有OpenAI能做"的认知
   → 全球研究者可以在此基础上改进

3. 训练方法革新
   不依赖人工标注的CoT数据
   纯RL训练出推理能力 → 挑战了"必须要高质量数据"的常识
   训练成本远低于预期 → 约$5-6M(vs GPT-4推测的$100M+)

R1-Zero: 纯RL的惊人发现

DeepSeek做了一个大胆实验: R1-Zero

训练流程:
  1. 从DeepSeek-V3 Base模型开始(纯预训练,没做SFT)
  2. 直接用RL训练(GRPO算法,Group Relative Policy Optimization)
  3. 奖励函数极其简单:
     - 数学题: 答案对了 +1,错了 -1
     - 代码题: 通过测试用例 +1,不通过 -1
     - 格式: 把思考过程放在<think>标签内 +小奖励
  4. 不提供任何CoT示例,不做SFT

结果 → 令人震惊:

  模型自发涌现出推理行为:
  ├── 自己学会了分步推理(没人教它)
  ├── 自己学会了自我验证("let me check...")
  ├── 自己学会了尝试不同方法
  └── 最惊人的: "Aha moment"(顿悟时刻)

"Aha Moment" — 推理能力的涌现

DeepSeek论文中最著名的片段:

在训练过程中,R1-Zero的某次输出:

  "Wait wait wait. Let me reconsider.
   I initially thought the answer was X,
   but that contradicts the constraint in step 3.
   Hmm, I think I need to reevaluate this.

   **Aha moment**: I realize that the equation should be
   solved differently because..."

这段文字不是人类写的,不是从训练数据复制的
→ 是模型在RL训练中自发学会的推理策略
→ 它发现"回头检查并修正"能获得更高奖励
→ 于是这种行为被强化了

更深层含义:
  推理能力可能不需要显式教授
  → 只要给正确的奖励信号 + 足够的计算
  → 模型能自己"发明"推理方法
  → 这对AGI研究有重大启示

R1完整训练流程(四阶段)

R1-Zero虽然惊人,但有问题:
  - 输出格式混乱(中英混杂、可读性差)
  - 有时推理过程过长无意义
  - 非推理任务(写作/翻译)表现不好

所以DeepSeek设计了完整的R1训练流程:

┌──────────────────────────────────────────────────────────┐
│              DeepSeek R1 完整训练四阶段                    │
├──────────┬───────────────────────────────────────────────┤
│ 阶段1     │ Cold Start SFT                               │
│ 目标      │ 给模型一个"推理格式"的起点                     │
│ 方法      │ 用少量高质量CoT数据做SFT(几千条)             │
│ 效果      │ 模型学会<think>...</think>格式                 │
├──────────┼───────────────────────────────────────────────┤
│ 阶段2     │ 大规模RL训练                                  │
│ 目标      │ 真正提升推理能力                               │
│ 方法      │ GRPO算法,数学/代码/逻辑/科学多任务            │
│ 奖励      │ 答案正确性 + 格式规范 + 语言一致性             │
│ 规模      │ 这是核心阶段,大量GPU计算                      │
├──────────┼───────────────────────────────────────────────┤
│ 阶段3     │ 拒绝采样 + SFT                                │
│ 目标      │ 让模型也能做好非推理任务                        │
│ 方法      │ 用阶段2的模型生成大量推理样本                   │
│           │ 筛选高质量的 + 混入写作/翻译等通用SFT数据       │
│           │ 做一轮SFT → 全面型模型                         │
├──────────┼───────────────────────────────────────────────┤
│ 阶段4     │ 第二轮RL(对齐)                               │
│ 目标      │ 安全性 + 人类偏好对齐                           │
│ 方法      │ 加入Helpfulness和Safety的奖励模型               │
│ 效果      │ 最终的DeepSeek-R1                              │
└──────────┴───────────────────────────────────────────────┘

关键创新: 阶段2的GRPO算法
  传统PPO: 需要一个Critic模型(额外的大模型,成本翻倍)
  GRPO: 用同组样本的相对排名作为Baseline → 去掉Critic → 省一半成本

  具体做法:
    1. 对同一道题生成G个答案(如G=16)
    2. 计算每个答案的奖励分数
    3. 用组内平均奖励作为baseline
    4. 高于平均的答案 → 增加概率
    5. 低于平均的答案 → 降低概率
    → 简单、高效、不需要额外模型

R1-Distill: 将推理能力蒸馏到小模型

DeepSeek另一个重要贡献: 证明推理能力可以蒸馏

方法:
  用R1(671B参数)生成大量高质量推理数据(80万条)
  → 用这些数据SFT训练小模型(1.5B / 7B / 8B / 14B / 32B / 70B)

结果:
  R1-Distill-Qwen-32B > OpenAI o1-mini
  R1-Distill-Qwen-14B ≈ QwQ-32B-Preview
  R1-Distill-Qwen-7B  远超非推理的70B模型在数学上的表现

  → 32B的蒸馏模型就能超过o1-mini!
  → 意味着推理能力可以在消费级硬件上运行
  → 单张RTX 4090就能跑R1-Distill-14B

开源社区影响:
  R1-Distill系列成为2025年最流行的本地推理模型
  → 科研人员: 用R1-Distill做实验,成本极低
  → 企业: 在内网部署,不依赖API
  → 开发者: 构建推理能力的Agent,成本可控

知识点4: Claude Extended Thinking

Anthropic的差异化方案

2025年初  Claude 3.5 Sonnet引入Extended Thinking(beta)
2025.02   Claude 3.7 Sonnet: Extended Thinking正式功能
2025.05   Claude Opus 4 + Extended Thinking: 当前最强编码推理模型

Anthropic的设计哲学与OpenAI不同:
  OpenAI o1/o3: 思考过程完全隐藏 → 用户只看到"正在思考..."
  Claude ET:    思考过程可见(thinking block可返回给开发者)
               → 更透明、更可调试、更符合Anthropic的安全理念

Extended Thinking工作原理

API调用方式:
  设置 thinking.type = "enabled"
  设置 thinking.budget_tokens = 10000  ← 控制思考预算

响应结构:
  {
    "content": [
      {
        "type": "thinking",           ← 思考过程(可见!)
        "thinking": "Let me analyze this step by step...
                     First, I need to consider...
                     Wait, that approach has a flaw because...
                     Let me try a different angle..."
      },
      {
        "type": "text",               ← 最终回复
        "text": "The answer is..."
      }
    ]
  }

关键设计决策:
  1. Thinking token可见性
     → 开发者可以看到完整思考过程
     → 用于调试、审计、理解模型推理
     → 但thinking block有使用限制(不能直接缓存/修改后喂回)

  2. Budget控制
     → 用户可以设置thinking的token上限
     → budget_tokens: 1024 → 简单思考
     → budget_tokens: 32768 → 深度推理
     → 让用户在速度/成本/质量之间权衡

  3. 流式输出
     → thinking内容也支持streaming
     → 用户能实时看到模型的思考过程
     → 减少等待焦虑("至少知道它在认真想")

与o1/R1的关键差异

┌──────────────┬──────────────┬──────────────┬──────────────┐
│              │ OpenAI o3    │ DeepSeek R1  │ Claude ET    │
├──────────────┼──────────────┼──────────────┼──────────────┤
│ 思考可见性    │ 隐藏(摘要) │ 完全可见     │ 开发者可见   │
│ 思考控制     │ low/med/high │ 不可控       │ budget_tokens│
│ 训练方法     │ RL on CoT    │ 纯RL(GRPO)  │ 未公开       │
│ 开源         │ 否           │ 是(MIT)      │ 否           │
│ 切换模式     │ 独立模型     │ 独立模型     │ 同模型开关   │
│ 非推理任务   │ 需用GPT-4   │ 需用V3      │ 关闭ET即可   │
│ 编码能力     │ 极强         │ 强           │ 极强(Opus4) │
├──────────────┼──────────────┼──────────────┼──────────────┤
│ 核心优势     │ 数学/科学最强│ 开源/可部署  │ 编码/透明    │
│ 核心劣势     │ 贵/黑箱     │ 格式偶有问题 │ 思考较保守   │
└──────────────┴──────────────┴──────────────┴──────────────┘

Claude ET的独特定位:
  不是一个独立的"推理模型" → 而是给已有模型加上"深度思考模式"
  → 同一个Claude Opus 4:
      关闭ET → 快速响应日常问答(System 1)
      开启ET → 深度推理复杂问题(System 2)
  → 用户体验更统一,不需要在不同模型间切换

实际使用体验

Claude Opus 4 + Extended Thinking在以下场景表现卓越:

1. 复杂代码生成与调试
   → SWE-bench Verified: 72%+ → 当前最强
   → 能理解大型代码库上下文后修复bug
   → 思考过程展示架构分析 → 开发者能验证推理逻辑

2. 数学与逻辑推理
   → AIME 2024: ~80%+
   → 思考过程清晰展示解题步骤
   → 中间步骤可审计 → 适合教育/考试场景

3. 长文档分析
   → 结合1M上下文窗口 + Extended Thinking
   → 先"阅读"海量材料 → 再"深度思考"分析
   → 金融场景: 10-K年报分析+推理 → 投资建议

4. 多约束优化
   → "设计一个满足X、Y、Z约束的系统"
   → 思考过程中逐个检查约束 → 不遗漏
   → 架构设计/产品方案 → 比直接输出更全面

知识点5: Reasoning模型全面对比

2025-2026主流Reasoning模型对比

┌──────────────────────────────────────────────────────────────────────────────┐
│                     Reasoning模型全面对比 (2026年4月)                         │
├────────────┬──────────┬──────────┬───────────┬──────────┬──────────────────┤
│ 模型        │ o3       │ o4-mini  │ R1(671B)  │Claude ET │ Gemini 2.5 Pro │
│ 公司        │ OpenAI   │ OpenAI   │ DeepSeek  │Anthropic │ Google          │
├────────────┼──────────┼──────────┼───────────┼──────────┼──────────────────┤
│ AIME 2024  │ ~88%     │ ~77%     │ ~80%      │ ~80%     │ ~82%            │
│ GPQA Dia.  │ ~88%     │ ~72%     │ ~72%      │ ~77%     │ ~80%            │
│ SWE-bench  │ ~69%     │ ~65%     │ ~50%      │ ~72%     │ ~64%            │
│ Codeforces │ ~2700    │ ~2100    │ ~2000     │ ~2300    │ ~2200           │
├────────────┼──────────┼──────────┼───────────┼──────────┼──────────────────┤
│ 输入价格    │ $10/M    │ $1.10/M  │ 开源免费   │ $15/M   │ $1.25/M         │
│ 输出价格    │ $40/M    │ $4.40/M  │ 开源免费   │ $75/M   │ $10/M           │
│ 思考Token   │ 隐藏     │ 隐藏     │ 可见      │ 可见     │ 可见             │
│ 典型延迟    │ 15-120s  │ 5-30s   │ 10-60s    │ 10-90s  │ 5-45s           │
├────────────┼──────────┼──────────┼───────────┼──────────┼──────────────────┤
│ 开源        │ ✗        │ ✗        │ ✓(MIT)    │ ✗        │ ✗               │
│ 本地部署    │ ✗        │ ✗        │ ✓         │ ✗        │ ✗               │
│ 工具调用    │ ✓        │ ✓(强)    │ 有限      │ ✓        │ ✓               │
│ 多模态推理  │ ✓(图+文) │ ✓(图+文) │ ✗(纯文本) │ ✓(图+文)│ ✓(图+音+视)     │
├────────────┼──────────┼──────────┼───────────┼──────────┼──────────────────┤
│ 最佳场景    │ 数学     │ 性价比   │ 自部署    │ 编码     │ 多模态推理      │
│            │ 科学     │ 工具调用 │ 研究      │ 分析     │ 长上下文推理    │
│            │ 竞赛     │ Agent    │ 隐私      │ 调试     │ 综合任务       │
└────────────┴──────────┴──────────┴───────────┴──────────┴──────────────────┘

价格说明: R1开源权重,API价格参考DeepSeek官方API约为 $0.55/$2.19 每M tokens
         但本地部署的硬件成本需要8×H100(671B参数)或使用蒸馏版本

选型决策树

你的任务需要Reasoning模型吗?
│
├── 需要数学/科学精确推理 → o3 (最强) 或 R1 (开源)
│
├── 需要修复复杂代码bug → Claude Opus 4 + ET (SWE-bench最强)
│
├── 需要Agent工具调用 → o4-mini (工具调用+推理兼顾)
│
├── 需要本地部署/数据隐私 → R1 或 R1-Distill
│
├── 需要多模态推理(图表分析) → Gemini 2.5 Pro
│
├── 预算有限但需要推理 → o4-mini 或 R1-Distill-32B
│
├── 简单任务/日常问答 → 不要用Reasoning模型!
│   → GPT-4o / Claude Sonnet / Gemini Flash 更快更便宜
│
└── 不确定 → 先用Claude Sonnet试,不够好再开Extended Thinking

知识点6: 过程奖励 vs 结果奖励(PRM vs ORM)

核心概念

训练Reasoning模型时,如何给奖励?

结果奖励模型 (ORM - Outcome Reward Model):
  只看最终答案对不对
  → 答案 = 42 → 正确 → +1
  → 答案 = 38 → 错误 → -1
  → 不关心中间推理过程

过程奖励模型 (PRM - Process Reward Model):
  评估每一步推理是否正确
  → 步骤1: 设x=问题中的未知数 → ✓ +0.1
  → 步骤2: 列方程 2x+3=9   → ✓ +0.1
  → 步骤3: 解得 x=4        → ✗ -0.1 (应该是x=3)
  → 步骤4: 所以答案是4      → ✗ -0.1

  金融类比:
    ORM = 只看贷款最终是否违约 → 结果导向
    PRM = 审查审批过程每个环节是否合规 → 过程导向

Let's Verify Step by Step (OpenAI, 2023)

这篇论文是PRM的里程碑,核心发现:

实验设置:
  任务: MATH数据集(高中/竞赛数学)
  对比: ORM vs PRM 在Best-of-N采样中的效果

  Best-of-N: 生成N个解法 → 用奖励模型选最好的
  (这就是Test-Time Compute的一种形式)

核心结果:
  ┌──────────────────────────────────────────────┐
  │ N=1       ORM: 50%    PRM: 50%    (相同)     │
  │ N=10      ORM: 65%    PRM: 70%    (PRM领先)  │
  │ N=100     ORM: 72%    PRM: 78%    (差距加大)  │
  │ N=1000    ORM: 74%    PRM: 83%    (PRM显著优) │
  └──────────────────────────────────────────────┘

  → 采样越多,PRM优势越大
  → ORM在N很大时"饱和" → 因为它只看答案,无法区分"碰巧对"和"推理对"
  → PRM能持续提升 → 因为它能识别推理过程的质量

为什么PRM更好?
  1. 信用分配更精确
     ORM: 答案错了 → 但不知道是哪一步错了
     PRM: 精确定位 → 步骤3出错 → 模型学会避免类似错误

  2. 防止"侥幸正确"
     ORM: 推理过程全错但答案碰巧对 → 还是给+1
     PRM: 过程错了就扣分 → 不鼓励错误的推理习惯

  3. 更好的泛化
     学会"正确推理方法" vs 学会"凑答案"
     前者能迁移到新问题,后者不能

PRM的挑战

PRM听起来很好,但有巨大的标注成本问题:

ORM标注: 只需要答案 → 数学题有标准答案 → 可自动验证 → 几乎零成本
PRM标注: 需要每一步的正确性判断 → 需要数学专家逐步审查 → 极其昂贵

OpenAI的方案:
  雇人标注了约80万个推理步骤
  每个步骤标记: positive / negative / neutral
  → 成本高昂,不可大规模扩展

后续改进 (2024-2025):
  1. Math-Shepherd: 用蒙特卡洛方法自动估计步骤正确性
     → 从每步开始生成多个continuation → 看最终答案正确率
     → 正确率高 → 这步大概率对 → 自动标注

  2. OmegaPRM (DeepSeek): 用树搜索自动构建PRM训练数据
     → 大幅降低标注成本

  3. Self-Rewarding: 让模型自己评估自己的推理步骤
     → 2025年的趋势: 用强模型标注弱模型

实际应用中:
  DeepSeek R1: 主要用ORM(答案正确性)→ 因为开源社区标注PRM太贵
  OpenAI o3: 推测使用PRM → 有资源做大规模步骤标注
  趋势: 自动PRM方法成熟后,PRM将成为主流

Test-Time Compute Scaling — 第二条Scaling Law

传统Scaling Law (Kaplan et al., 2020):
  性能 ∝ 参数量^α × 数据量^β × 计算量^γ
  → 更大模型 + 更多数据 + 更多训练计算 = 更好
  → 但这是训练时(Train-Time)的规律

Test-Time Compute Scaling (2024-2025新发现):
  推理时投入更多计算 → 性能也能提升!

  形式1: Best-of-N采样 → 生成N个答案选最好的
  形式2: 思考Token → 让模型"想"更久
  形式3: 树搜索/MCTS → 系统性探索解空间

  ┌────────────────────────────────────────────────┐
  │   性能 ∝ f(模型大小, 训练数据, 推理计算)       │
  │                                   ↑ 新维度!    │
  │                                                │
  │   推理计算可以"弥补"模型大小的不足              │
  │   → 小模型 + 大量推理计算 ≈ 大模型 + 少量推理   │
  └────────────────────────────────────────────────┘

  实际意义:
    训练一个1T参数模型 → 需要$100M+ → 一次性巨额投入
    推理时多花10倍计算 → 按需付费 → 灵活、可控

    金融类比:
      Train-Time Scaling = 花10年培养一个天才分析师(固定成本高)
      Test-Time Scaling = 给普通分析师更多时间做分析(按需付费)
      两者结合效果最好: 好的分析师 + 充足的分析时间

知识点7: Reasoning模型的产品影响

什么任务该用Reasoning模型

高价值场景 ✓ (用Reasoning模型):
┌─────────────────────────────────────────────────────────────┐
│ 场景                          │ 为什么需要推理            │
├───────────────────────────────┼──────────────────────────┤
│ 数学/统计计算                  │ 多步计算,一步错全错     │
│ 代码bug修复                   │ 需要理解上下文+推理因果  │
│ 法律/合规分析                  │ 多条款交叉引用+逻辑推演  │
│ 金融建模/估值                  │ 多假设+多步计算+敏感性   │
│ 复杂架构设计                   │ 多约束优化+trade-off    │
│ 科学研究问题                   │ 假设→推导→验证          │
│ 竞赛/考试题                   │ 需要创造性解题策略       │
│ 多步Agent规划                  │ 长期规划+条件分支        │
└───────────────────────────────┴──────────────────────────┘

低价值场景 ✗ (不要用Reasoning模型):
┌─────────────────────────────────────────────────────────────┐
│ 场景                          │ 为什么不需要             │
├───────────────────────────────┼──────────────────────────┤
│ 简单问答/知识检索              │ 检索比推理更高效         │
│ 翻译                          │ 模式匹配,不需要推理     │
│ 创意写作/营销文案              │ 需要发散思维而非逻辑推理 │
│ 闲聊/客服                     │ 需要快速响应+情感共鸣    │
│ 简单的代码生成                 │ 直接生成即可             │
│ 数据格式转换                   │ 规则明确,无需推理       │
│ 摘要/改写                     │ 理解+压缩,非推理        │
└───────────────────────────────┴──────────────────────────┘

经验法则:
  如果人类需要"想一想"才能回答 → 用Reasoning模型
  如果人类能"脱口而出" → 用普通模型

"Think Budget"概念

2025年出现的重要产品概念: Think Budget / Reasoning Budget

问题: Reasoning模型不区分问题难度,简单问题也"深度思考"
  → "1+1=?" → 模型可能花5000 tokens思考 → 浪费

解决方案:

1. OpenAI的Reasoning Effort参数
   reasoning_effort: "low"    → 快速,少量思考
   reasoning_effort: "medium" → 平衡
   reasoning_effort: "high"   → 深度推理

   用户根据任务复杂度选择 → 但需要用户判断

2. Claude Extended Thinking的budget_tokens
   budget_tokens: 1024   → 简单推理
   budget_tokens: 8192   → 中等推理
   budget_tokens: 32768  → 深度推理
   budget_tokens: 128000 → 极限推理

   更精细的控制 → 但也需要用户设定

3. 自适应思考(2025-2026趋势)
   模型自动判断问题难度 → 动态分配思考量
   简单问题 → 50 thinking tokens
   复杂问题 → 50000 thinking tokens

   o4-mini在这方面有所改进 → 简单问题速度明显加快
   但还没有完全解决

产品设计建议:
  不要让用户选"思考深度" → 用户不知道怎么选
  → 先用快速模型回答
  → 检测到不确定/复杂时自动升级到推理模型
  → "渐进式推理"模式: 先快后深

对Agent系统的影响

Reasoning模型是Agent系统的"大脑升级":

传统Agent (GPT-4 + ReAct):
  观察 → 快速决定下一步 → 行动 → 观察 → ...
  问题: 每步决策都是"快思考" → 复杂场景容易走偏

  类比: 实习生执行任务 → 一步一步问主管

Reasoning Agent (o3/R1 + ReAct):
  观察 → [深度思考: 考虑3种方案,评估每种后果] → 选最优行动 → ...
  优势: 规划能力大幅提升 → 减少无效步骤

  类比: 资深员工自己制定计划 → 关键节点汇报

实际影响:
  1. 更少的工具调用次数
     传统: 可能试错10次才找到正确方法
     推理: 先"想清楚",3-5次就搞定
     → Agent效率提升 + 成本反而可能更低(减少API调用)

  2. 更复杂的任务可自动化
     编写+测试+调试代码 → Devin/Claude Code等"AI程序员"
     多步金融分析 → 自动尽职调查Agent

  3. 但延迟是问题
     Agent每步都要"思考"15-60秒 → 整个流程可能需要数分钟
     → 需要异步架构 + 进度反馈UI

  4. o4-mini的工具调用优势
     2025年 o4-mini专门优化了推理+工具调用
     → 在Agent场景中成为高性价比选择

对RAG系统的影响

Reasoning模型让RAG系统更"聪明":

传统RAG:
  检索 → 拼接context → 模型直接生成答案
  问题: 多个文档片段可能矛盾 → 模型不知道该信谁

Reasoning-enhanced RAG:
  检索 → 拼接context → 模型推理:
    "文档A说X,文档B说Y"
    "它们矛盾的原因可能是..."
    "根据时间顺序,B更新所以更可信"
    "结论: Y is correct"
  → 能处理矛盾信息、做交叉验证

金融应用:
  信贷审批RAG:
    传统: 检索到申请人收入信息 → 直接判断
    推理: 检索到收入+负债+征信+行业信息 → 交叉分析
          → "收入高但行业为夕阳产业 → 未来偿付能力存疑"
          → 更深入的风险分析

代价:
  推理模型处理RAG context更慢更贵
  → 适合低频高价值场景(贷款审批、法律分析)
  → 不适合高频简单检索(客服FAQ)

对代码生成的影响

Reasoning模型在编码领域的影响最为直接:

2024年之前:
  AI编码助手 = 自动补全 + 简单函数生成
  → GitHub Copilot本质上是"智能Tab"

2025年 Reasoning + 编码:
  AI编码 = 理解需求 → 设计方案 → 编写代码 → 自我审查 → 修复bug

  Claude Opus 4 + ET:
    → SWE-bench 72%: 能修复真实开源项目bug
    → 理解整个代码库上下文后做修改
    → 思考过程展示架构分析和方案权衡

  o3/o4-mini:
    → Codeforces 2700+: 竞赛级算法编程
    → 能处理复杂数据结构和算法问题

产品形态演进:
  2023: Copilot补全 → 代码片段级
  2024: Cursor/Aider → 文件级编辑
  2025: Claude Code/Devin → 项目级理解+多文件修改
  2026: AI Software Engineer → 从需求到部署的全流程?

关键洞察:
  Reasoning模型让"AI程序员"从玩具变成生产工具
  → 但目前最适合: 明确需求的实现、bug修复、代码重构
  → 仍然弱于人类: 模糊需求理解、架构创新、跨团队协作

成本优化策略

Reasoning模型很贵 → 产品设计需要精细的成本管理:

策略1: 路由分层 (Router Pattern)
  ┌─────────┐     简单任务     ┌─────────────┐
  │ 用户请求 │ ──────────────→ │ GPT-4o/Sonnet│ → 快速响应
  │         │                 └─────────────┘
  │ 分类器   │     复杂任务     ┌─────────────┐
  │         │ ──────────────→ │ o3/Claude ET │ → 深度推理
  └─────────┘                 └─────────────┘

  分类器可以是: 规则/小模型/关键词匹配
  → 80%请求走快速通道,20%走推理通道
  → 整体成本降低60-70%

策略2: 渐进式推理 (Progressive Reasoning)
  Step 1: 先用快模型回答
  Step 2: 自动检测答案置信度
  Step 3: 低置信度 → 自动升级到推理模型重新回答
  → 只在需要时才"升级"

策略3: 缓存思考结果 (Thinking Cache)
  同类问题的推理模式可以缓存
  "如何计算IRR" → 推理过程第一次记录 → 类似问题复用
  → 减少重复推理

策略4: 蒸馏专用模型 (Distillation)
  用R1/o3处理特定领域1000道题 → 生成高质量CoT数据
  → Fine-tune一个7B小模型做该领域的推理
  → R1-Distill方法论已经验证了可行性
  → 推理成本降低100倍

金融场景的成本权衡:
  一笔$10M贷款审批: 用o3分析花$5 → 值得
  一笔$100消费贷审批: 用o3花$5 → 不值得 → 用规则引擎+快模型
  → 推理模型成本必须与决策价值匹配

今日思考

思考1: Reasoning模型是否意味着AGI更近了?

正方观点:
  - R1-Zero证明推理能力可以从简单奖励信号中涌现
  - o3在ARC-AGI上首次接近人类基准 → AGI benchmark突破
  - Test-Time Compute提供了新的性能提升维度
  - 推理+工具使用+长上下文 → 越来越接近"通用问题解决者"

反方观点:
  - 数学推理 ≠ 通用智能(常识推理仍然薄弱)
  - 模型"推理"的本质是否真正理解,还是模式匹配的高级形式?
  - 创造力、情感理解、具身认知 → 目前Reasoning模型不涵盖
  - "Aha moment"可能只是RL训练出的统计特征,不是真正的理解

我的观点:
  Reasoning模型是通往AGI的重要一步,但不是最后一步。
  它解决了"逻辑推理"这块拼图,但AGI还需要:
  → 持续学习(不只是推理时间的计算)
  → 真实世界交互(不只是文本推理)
  → 目标设定(不只是回答问题)

  金融PM视角:
  短期(1-2年): Reasoning模型让AI在高价值决策场景真正可用
  中期(3-5年): Reasoning+Agent+工具 → AI金融分析师
  长期: AGI → 完全自主的投资/风控决策 → 但监管和信任是更大障碍

思考2: 开源R1 vs 闭源o3 — 长期谁会赢?

DeepSeek R1开源的影响:
  1. 打破技术垄断 → 证明Reasoning不是OpenAI独有
  2. 加速研究 → 全球研究者可以在R1基础上改进
  3. 降低门槛 → 企业可以本地部署推理能力
  4. 蒸馏方法 → 小团队也能构建专用推理模型

OpenAI闭源的优势:
  1. 更多资源 → 持续投入PRM/RLHF等昂贵训练
  2. 更多数据 → ChatGPT用户反馈形成飞轮
  3. 产品整合 → 与GPT Store/API生态深度绑定
  4. 安全控制 → 闭源更容易做安全对齐

趋势判断:
  2025-2026: 开源+闭源共存
  → 研究和隐私场景 → R1/R1-Distill
  → 极致性能场景 → o3/Claude
  → 通用场景 → 性价比决定(o4-mini/Gemini Flash)

  开源推理模型的技术差距在快速缩小:
  2024.09: o1发布,没有开源对手
  2025.01: R1发布,4个月追平 → 追赶速度惊人
  2025下半年: 预计更多开源Reasoning模型(Llama/Qwen系列)

思考3: Reasoning模型如何改变金融产品设计?

短期可实现的金融应用:

1. 智能贷款审批助手
   传统: 规则引擎 + 评分卡 → 机械判断
   推理增强:
     输入全部材料 → 模型推理:
     "申请人收入稳定但行业集中度高"
     "近期有大额消费但未影响偿付比"
     "综合评估: 建议批准但额度降低20%,原因如下..."
   → 不是替代审批,是给审批员一个"思考过程可见"的分析报告

2. 合规审查AI
   监管条款: 100+页
   业务方案: 50+页
   推理模型: 逐条检查方案是否触发监管条款
   → 思考过程可审计 → 合规部门可以检查AI的推理是否正确
   → Extended Thinking的透明性在这里至关重要

3. 投资分析Agent
   输入: 年报、行业报告、新闻、链上数据
   推理模型:
     "收入增长20%但应收账款增长50% → 可能是激进确收"
     "与竞品对比: 毛利率偏低3% → 定价能力弱"
     "链上数据显示大户在减持 → 市场信心不足"
   → 多源数据交叉推理 → 人类分析师级别的洞察

4. 风控异常分析
   传统: 规则触发 → 告警 → 人工分析
   推理增强: 规则触发 → AI深度分析 → 给出可能原因和建议
   "大额跨境转账告警 → 分析: 收款方为已知供应商,
    历史有类似交易,金额在正常波动范围,
    建议: 正常放行,非洗钱风险"
   → 减少误报的人工处理成本

面试表达

"请解释什么是Reasoning模型,与传统LLM有什么区别?"

30秒版本:
  Reasoning模型是通过强化学习训练LLM在回答前进行显式多步推理的新范式。
  传统LLM像经验丰富的柜员凭直觉快速判断,
  Reasoning模型像后台分析团队逐步推演后给出结论。
  核心差异是引入了"思考Token"——模型在输出答案前先进行内部推理,
  代价是更慢更贵,但在数学、编码、复杂分析上准确率提升30-50%。

2分钟版本:
  补充: CoT演进史(2022-2025), o1/o3/R1/Claude ET四大方案,
  PRM vs ORM, Test-Time Compute Scaling作为第二条Scaling Law,
  以及产品选型考量(什么时候该用/不该用)。

追问准备:
  Q: DeepSeek R1为什么这么重要?
  A: 三点——性能匹敌o1/成本极低(纯RL+GRPO)/完全开源(MIT)。
     R1-Zero还证明推理能力可以在没有人工CoT标注的情况下从RL涌现,
     "Aha moment"现象暗示推理是可涌现的能力而非必须显式教授的。

  Q: 在金融场景中你会如何应用Reasoning模型?
  A: 按价值分层路由——高价值决策(并购分析/合规审查)用o3/Claude ET,
     日常业务(账户查询/简单客服)用普通模型,
     用Router模式自动分类。核心是推理成本与决策价值匹配。

  Q: 你怎么看Reasoning模型的成本问题?
  A: 四个策略——路由分层(80%走快通道)/渐进式推理(按需升级)/
     思考缓存(同类问题复用)/蒸馏专模型(R1-Distill方法论验证了可行性)。
     关键insight: 小模型+蒸馏的推理数据可以达到大推理模型80%的效果,
     成本降低100倍。

学习资源

必读论文

技术博客与文章

视频教程


明日预告

Day 12: Agent框架 — ReAct / Tool Use / Planning

核心问题:
  Reasoning模型学会了"思考" → 但只能"想" → 不能"做"
  如何让AI不只是回答问题,而是自主使用工具完成任务?

  金融场景:
    "帮我分析这只股票" → 查财报API + 跑估值模型 + 搜新闻 + 写报告
    → AI Agent需要规划步骤 → 调用多个工具 → 整合结果

预习: ReAct框架(Reasoning+Acting) → Tool Use协议
     → Planning策略(单步/多步/自适应) → Agent架构模式

与今日关系:
  Day 11 Reasoning  → AI学会深度思考(大脑升级)
  Day 12 Agent      → AI学会使用工具和执行动作(加上手脚)
  组合 = Reasoning Agent: 能想清楚 + 能做到
       → 2025-2026最热门的AI应用范式

Day 11 总结: Reasoning模型是2025年AI领域最重要的突破——从2022年Wei的Chain-of-Thought提示到2024年OpenAI o1的商用化,再到2025年DeepSeek R1的开源震撼和Claude Extended Thinking的透明化设计,AI学会了"深度思考"。核心机制是Test-Time Compute Scaling——通过在推理阶段投入更多计算(thinking tokens),以时间和成本换取准确率的大幅提升。这不是渐进改进,而是范式转变:从"一步到位快速回答"到"多步推理慢思考"。R1证明推理能力可以从简单的RL奖励信号中涌现(Aha moment),PRM证明过程监督优于结果监督。但产品设计需要精细权衡——简单任务用Reasoning模型是杀鸡用牛刀,路由分层和渐进式推理是成本控制的关键。对金融行业,Reasoning模型让AI在高价值决策场景(信贷分析/合规审查/投资研究)中真正可用,思考过程的可见性和可审计性解决了"AI黑箱"的信任问题。