返回 Papers
AI 底层逻辑 / 经典论文

Tree of Thoughts:规划搜索与复杂推理

Tree of Thoughts 的关键不是“让模型多想一会儿”。它把推理过程从一条链扩展成多条候选路径,再用评估和搜索选择更可靠的路径。

363ai-foundations/papers/19-tree-of-thoughts-planning-search.md

Tree of Thoughts / Planning Search 解读

面向对象: AI PM / AI BA / AI Architect / Agent Product Manager。 核心问题: LLM 不只是一次性生成答案,也可以把中间思路拆成可搜索、可评估、可回溯的 thought state。 学习目标: 能解释 Tree of Thoughts 为什么影响复杂任务、Agent workflow、审批链、评测和金融零售 AI 产品设计。


Source Anchors

SourceLink用途
Tree of Thoughts: Deliberate Problem Solving with Large Language Modelshttps://arxiv.org/abs/2305.10601理解 thought decomposition、search、self-evaluation、BFS/DFS 等核心机制
Chain-of-Thought Promptinghttps://arxiv.org/abs/2201.11903对比线性推理和树状搜索
Self-Consistency Improves Chain of Thought Reasoninghttps://arxiv.org/abs/2203.11171理解多路径采样和 majority / score selection
ReActhttps://arxiv.org/abs/2210.03629将 reasoning trace 和 action / observation 结合到 agent workflow

Tree of Thoughts 的关键不是“让模型多想一会儿”。它把推理过程从一条链扩展成多条候选路径,再用评估和搜索选择更可靠的路径。


1. 从 CoT 到 ToT 的变化

Chain-of-Thought 通常是线性的:

Problem -> step 1 -> step 2 -> step 3 -> answer

Tree of Thoughts 把每一步变成多个候选:

Problem
  -> thought A
      -> thought A1
      -> thought A2
  -> thought B
      -> thought B1
      -> thought B2
  -> thought C
      -> thought C1
      -> thought C2

核心差异:

维度Chain-of-ThoughtTree of Thoughts
推理结构单路径多路径树
错误恢复早期错误会传递可回退、换路径
评估方式通常只看最终答案可评估中间 thought
计算成本较低更高
适用任务直接问答、简单推理规划、组合、复杂分析、策略选择
产品含义模型给一个 rationale系统管理候选方案和选择过程

ToT 对 PM/BA/架构师的价值在于:

复杂 AI 系统不能只要“一个答案”,而要管理候选方案、评估标准、搜索预算、停止条件和人工选择点。


2. ToT 的四个组件

2.1 Thought Generator

生成下一步候选 thought。

金融零售例子:

用户问:

这个 AML alert 应该优先调查哪些证据?

可能的 thought:

Thought含义
A先看交易对手和制裁名单
B先看交易模式是否符合 structuring
C先看客户 KYC profile 是否解释得通
D先看历史 alert 和 previous disposition

2.2 State Evaluator

给候选 thought 打分。

评分可以来自:

  • LLM judge。
  • 规则。
  • 检索证据覆盖度。
  • 风险分。
  • 人工 reviewer。

2.3 Search Controller

决定用 BFS、DFS、beam search 还是 best-first。

搜索方式适合场景风险
BFS想广泛比较多个方案成本高
DFS想快速深挖一条线可能陷入错误路径
Beam Search每层保留 Top-K依赖评分质量
Best-first总是扩展最高分节点可能过早收敛

2.4 Stop Rule

决定什么时候停止。

企业 AI 不能无限搜索,需要明确:

  • 最大 thought 数。
  • 最大工具调用数。
  • 最大成本。
  • 最大延迟。
  • 证据不足时停止。
  • 高风险时转人工。
  • 分数差距足够大时停止。

3. 为什么 ToT 对 Agent 很重要

Agent 不是只执行一次工具调用。真实任务经常需要:

  1. 分解目标。
  2. 形成候选计划。
  3. 检索证据。
  4. 评估计划。
  5. 调整路径。
  6. 执行低风险动作。
  7. 请求高风险审批。

ToT 提供的是 agent planning 的基础心智模型。

Agent Workflow 映射

ToT 概念Agent 系统组件
Thoughtplan step / investigation hypothesis / action candidate
State当前证据、工具结果、风险状态
Evaluatorpolicy checker、risk scorer、LLM judge、human reviewer
Searchplanner / orchestrator
Backtrackingfallback path / retry / escalation
Stopcost/latency/risk/quality gate

4. 金融零售案例

4.1 AML Alert Investigation

问题:

一个客户出现多笔接近报告阈值的现金存入,AI 应该如何协助调查?

ToT 化:

LevelCandidate thoughts
Hypothesisstructuring / legitimate cash business / account takeover / mule activity
Evidence pathtransaction history / KYC profile / occupation / counterparty / branch pattern
Evaluationtypology match、evidence completeness、false positive likelihood
Outputinvestigation summary、missing evidence list、reviewer recommendation

上线控制:

  • AI 可以生成 investigation plan。
  • AI 可以汇总证据。
  • AI 不自动关闭 alert。
  • AI 不自动提交 SAR。
  • 高风险路径必须 supervisor review。

4.2 Credit Underwriting Assistant

ToT 候选路径:

  • 从收入稳定性分析。
  • 从 debt-to-income 分析。
  • 从 collateral / LTV 分析。
  • 从 policy exception 分析。
  • 从 adverse action risk 分析。

关键点:

ToT 不是让模型自己决定贷款,而是帮助 underwriter 系统性检查多个政策路径,并暴露缺失证据。

4.3 Payment Dispute Assistant

候选路径:

  • merchant evidence path。
  • customer claim path。
  • network rule path。
  • fraud signal path。
  • SLA / regulatory deadline path。

ToT 可以减少漏看路径,但每条路径都要保留证据和评分原因。


5. PM 视角: ToT 产品设计

AI PM 要问:

问题产品决策
用户需要一个答案还是多个候选方案?单答 / 多方案比较
用户是否需要看到推理路径?显示摘要 / 显示 evidence map / 隐藏内部 trace
哪些 thought 可以自动展开?低风险任务可自动
哪些 thought 必须人工选择?高风险决策路径
如何控制成本和延迟?Top-K、budget、timeout
如何防止看似合理的错误路径?evidence requirement、red-team eval

Product Pattern: Candidate Plan Review

适合金融场景的 UI 不应展示全部模型 token,而应展示:

UI 区域内容
Candidate plans2-4 个调查/处理方案
Evidence coverage每个方案已有/缺失证据
Risk score法规、客户影响、操作风险
Recommended next stepAI 建议,但不是最终决定
Human actionapprove path / ask for more evidence / override / escalate

6. BA 视角: Requirements-to-ToT

BA 要把业务流程转成可搜索的 thought space。

需求模板

RequirementToT mapping
系统应支持多个调查假设thought generator 生成候选 hypothesis
系统应优先覆盖高风险证据evaluator 加权 regulatory / fraud evidence
系统应说明证据缺口state 包含 missing evidence
系统不得自动作出客户影响决策stop rule + human approval
系统应保留路径选择理由audit trail 记录 thought summary / score / selected path

BA 需要特别写清:

  • 什么是一个有效 thought。
  • thought 之间是否互斥。
  • 哪些 thought 必须基于证据。
  • 哪些 thought 只是探索性假设。
  • thought 何时转成 action。

7. 架构师视角: ToT Runtime

参考架构

Task Intake
  -> Thought Generator
  -> Evidence Retriever / Tool Gateway
  -> State Builder
  -> Thought Evaluator
  -> Search Controller
  -> Policy Gate
  -> Human Review if needed
  -> Final Draft / Action Recommendation
  -> Trace Store / Eval Store

关键架构决策

DecisionOptions推荐
thought 是否持久化不存 / 存摘要 / 存完整 trace高风险场景存摘要和评分,不存敏感推理细节
evaluator 类型LLM / rules / hybrid / humanhybrid + human sampling
搜索预算固定 / 按风险动态按任务风险和价值动态分配
工具调用thought 中自由调用 / gateway 控制tool gateway + policy
trace 用途debug / audit / eval / training分权限隔离

8. Eval 设计

ToT 的评测不能只看最终答案。

Eval layer指标
Thought relevance候选 thought 是否覆盖合理路径
Evidence groundingthought 是否引用正确证据
Search quality是否保留了关键候选路径
Early error recovery初始路径错误时能否回退
Cost/latency搜索预算是否可接受
Safety是否探索或建议禁止动作
Human usefulnessreviewer 是否觉得候选方案有帮助

Golden Set 样例

CaseExpected thought coverage
AML structuring alert至少覆盖 KYC、transaction pattern、counterparty、history
KYC policy conflict覆盖地区政策、客户类型、document exception
Payment dispute覆盖 merchant evidence、customer claim、network rule、SLA
Credit exception覆盖 policy、risk rationale、adverse action、human approval

9. 风险和边界

风险说明控制
Bad thought looks plausible错误路径包装得很专业evidence required + SME eval
Search amplifies bias高分路径反映历史偏差fairness / counterfactual cases
Cost explosion多路径推理成本高budget and timeout
Trace leakagethought 可能含敏感信息trace minimization + access control
Automation bias用户过度相信推荐路径UI 显示 uncertainty and alternatives
Over-explanation展示太多内部推理造成噪音展示 structured rationale, not raw chain

10. 作品集输出

完成本文后,做 5 个 artifact:

Artifact内容
Thought Space Map为 AML 或 payment dispute 定义候选路径
Search Controller ADR说明用 beam search / best-first / fixed candidates 的理由
Human Review UI Spec展示候选路径、证据覆盖、风险和 override
ToT Eval Matrix评估 thought relevance、grounding、search quality
Cost/Safety Gate定义搜索预算和高风险停止条件

11. 面试表达

30 秒版本

Tree of Thoughts 把 LLM 推理从一条链变成可搜索的多路径结构。对企业 AI 来说,它的价值不是让模型展示更多思考,而是让系统管理候选方案、证据、评估、搜索预算、停止条件和人工选择点。

2 分钟版本

CoT 通常是一条线,早期错误会传递。ToT 会在每一步生成多个 candidate thoughts,再用 evaluator 和 search controller 选择路径。金融场景里,我会把 thought 映射成调查假设、证据路径或行动候选。例如 AML alert 可以同时考虑 structuring、legitimate cash business、mule activity 和 KYC mismatch。系统应该展示候选路径和证据覆盖,但不让 AI 自动关闭 alert 或提交 SAR。架构上需要 thought generator、retriever/tool gateway、state builder、evaluator、search controller、policy gate、human review 和 trace store。评测也要覆盖 thought relevance、evidence grounding、search quality、cost、latency 和 safety。

CTO 深挖

我不会把 ToT 做成无限制的内部推理。生产环境要有固定 search budget、tool permission、trace minimization、evaluator calibration 和 fallback。高风险路径需要 human approval,trace 只保留可审计摘要和关键评分,不暴露敏感原始推理。

PM 深挖

ToT 对产品最重要的是 candidate plan review。用户不是看模型长篇思考,而是看到 2-4 个可行动方案、每个方案的证据、风险和下一步。这样既降低 automation bias,也让专家保留决策权。


12. 复习问题

  1. ToT 和 CoT 的本质差异是什么?
  2. 哪些金融零售任务适合多路径搜索?
  3. ToT 的 evaluator 应该评估什么?
  4. 为什么不应该直接展示完整 raw chain-of-thought?
  5. 如何把 ToT 的搜索过程变成 audit evidence?
  6. 如何设置 cost / latency / safety stop rule?
  7. ToT 如何和 HITL、tool gateway、EvalOps 连接?