AI 底层逻辑 / 经典论文

Tree of Thoughts：规划搜索与复杂推理

Tree of Thoughts 的关键不是“让模型多想一会儿”。它把推理过程从一条链扩展成多条候选路径，再用评估和搜索选择更可靠的路径。

363 行ai-foundations/papers/19-tree-of-thoughts-planning-search.md

Tree of Thoughts / Planning Search 解读

面向对象: AI PM / AI BA / AI Architect / Agent Product Manager。核心问题: LLM 不只是一次性生成答案，也可以把中间思路拆成可搜索、可评估、可回溯的 thought state。学习目标: 能解释 Tree of Thoughts 为什么影响复杂任务、Agent workflow、审批链、评测和金融零售 AI 产品设计。

Source Anchors

Source	Link	用途
Tree of Thoughts: Deliberate Problem Solving with Large Language Models	https://arxiv.org/abs/2305.10601	理解 thought decomposition、search、self-evaluation、BFS/DFS 等核心机制
Chain-of-Thought Prompting	https://arxiv.org/abs/2201.11903	对比线性推理和树状搜索
Self-Consistency Improves Chain of Thought Reasoning	https://arxiv.org/abs/2203.11171	理解多路径采样和 majority / score selection
ReAct	https://arxiv.org/abs/2210.03629	将 reasoning trace 和 action / observation 结合到 agent workflow

Tree of Thoughts 的关键不是“让模型多想一会儿”。它把推理过程从一条链扩展成多条候选路径，再用评估和搜索选择更可靠的路径。

1. 从 CoT 到 ToT 的变化

Chain-of-Thought 通常是线性的:

Problem -> step 1 -> step 2 -> step 3 -> answer

Tree of Thoughts 把每一步变成多个候选:

Problem
  -> thought A
      -> thought A1
      -> thought A2
  -> thought B
      -> thought B1
      -> thought B2
  -> thought C
      -> thought C1
      -> thought C2

核心差异:

维度	Chain-of-Thought	Tree of Thoughts
推理结构	单路径	多路径树
错误恢复	早期错误会传递	可回退、换路径
评估方式	通常只看最终答案	可评估中间 thought
计算成本	较低	更高
适用任务	直接问答、简单推理	规划、组合、复杂分析、策略选择
产品含义	模型给一个 rationale	系统管理候选方案和选择过程

ToT 对 PM/BA/架构师的价值在于:

复杂 AI 系统不能只要“一个答案”，而要管理候选方案、评估标准、搜索预算、停止条件和人工选择点。

2. ToT 的四个组件

2.1 Thought Generator

生成下一步候选 thought。

金融零售例子:

用户问:

这个 AML alert 应该优先调查哪些证据？

可能的 thought:

Thought	含义
A	先看交易对手和制裁名单
B	先看交易模式是否符合 structuring
C	先看客户 KYC profile 是否解释得通
D	先看历史 alert 和 previous disposition

2.2 State Evaluator

给候选 thought 打分。

评分可以来自:

LLM judge。
规则。
检索证据覆盖度。
风险分。
人工 reviewer。

2.3 Search Controller

决定用 BFS、DFS、beam search 还是 best-first。

搜索方式	适合场景	风险
BFS	想广泛比较多个方案	成本高
DFS	想快速深挖一条线	可能陷入错误路径
Beam Search	每层保留 Top-K	依赖评分质量
Best-first	总是扩展最高分节点	可能过早收敛

2.4 Stop Rule

决定什么时候停止。

企业 AI 不能无限搜索，需要明确:

最大 thought 数。
最大工具调用数。
最大成本。
最大延迟。
证据不足时停止。
高风险时转人工。
分数差距足够大时停止。

3. 为什么 ToT 对 Agent 很重要

Agent 不是只执行一次工具调用。真实任务经常需要:

分解目标。
形成候选计划。
检索证据。
评估计划。
调整路径。
执行低风险动作。
请求高风险审批。

ToT 提供的是 agent planning 的基础心智模型。

Agent Workflow 映射

ToT 概念	Agent 系统组件
Thought	plan step / investigation hypothesis / action candidate
State	当前证据、工具结果、风险状态
Evaluator	policy checker、risk scorer、LLM judge、human reviewer
Search	planner / orchestrator
Backtracking	fallback path / retry / escalation
Stop	cost/latency/risk/quality gate

4. 金融零售案例

4.1 AML Alert Investigation

问题:

一个客户出现多笔接近报告阈值的现金存入，AI 应该如何协助调查？

ToT 化:

Level	Candidate thoughts
Hypothesis	structuring / legitimate cash business / account takeover / mule activity
Evidence path	transaction history / KYC profile / occupation / counterparty / branch pattern
Evaluation	typology match、evidence completeness、false positive likelihood
Output	investigation summary、missing evidence list、reviewer recommendation

上线控制:

AI 可以生成 investigation plan。
AI 可以汇总证据。
AI 不自动关闭 alert。
AI 不自动提交 SAR。
高风险路径必须 supervisor review。

4.2 Credit Underwriting Assistant

ToT 候选路径:

从收入稳定性分析。
从 debt-to-income 分析。
从 collateral / LTV 分析。
从 policy exception 分析。
从 adverse action risk 分析。

关键点:

ToT 不是让模型自己决定贷款，而是帮助 underwriter 系统性检查多个政策路径，并暴露缺失证据。

4.3 Payment Dispute Assistant

候选路径:

merchant evidence path。
customer claim path。
network rule path。
fraud signal path。
SLA / regulatory deadline path。

ToT 可以减少漏看路径，但每条路径都要保留证据和评分原因。

5. PM 视角: ToT 产品设计

AI PM 要问:

问题	产品决策
用户需要一个答案还是多个候选方案？	单答 / 多方案比较
用户是否需要看到推理路径？	显示摘要 / 显示 evidence map / 隐藏内部 trace
哪些 thought 可以自动展开？	低风险任务可自动
哪些 thought 必须人工选择？	高风险决策路径
如何控制成本和延迟？	Top-K、budget、timeout
如何防止看似合理的错误路径？	evidence requirement、red-team eval

Product Pattern: Candidate Plan Review

适合金融场景的 UI 不应展示全部模型 token，而应展示:

UI 区域	内容
Candidate plans	2-4 个调查/处理方案
Evidence coverage	每个方案已有/缺失证据
Risk score	法规、客户影响、操作风险
Recommended next step	AI 建议，但不是最终决定
Human action	approve path / ask for more evidence / override / escalate

6. BA 视角: Requirements-to-ToT

BA 要把业务流程转成可搜索的 thought space。

需求模板

Requirement	ToT mapping
系统应支持多个调查假设	thought generator 生成候选 hypothesis
系统应优先覆盖高风险证据	evaluator 加权 regulatory / fraud evidence
系统应说明证据缺口	state 包含 missing evidence
系统不得自动作出客户影响决策	stop rule + human approval
系统应保留路径选择理由	audit trail 记录 thought summary / score / selected path

BA 需要特别写清:

什么是一个有效 thought。
thought 之间是否互斥。
哪些 thought 必须基于证据。
哪些 thought 只是探索性假设。
thought 何时转成 action。

7. 架构师视角: ToT Runtime

参考架构

Task Intake
  -> Thought Generator
  -> Evidence Retriever / Tool Gateway
  -> State Builder
  -> Thought Evaluator
  -> Search Controller
  -> Policy Gate
  -> Human Review if needed
  -> Final Draft / Action Recommendation
  -> Trace Store / Eval Store

关键架构决策

Decision	Options	推荐
thought 是否持久化	不存 / 存摘要 / 存完整 trace	高风险场景存摘要和评分，不存敏感推理细节
evaluator 类型	LLM / rules / hybrid / human	hybrid + human sampling
搜索预算	固定 / 按风险动态	按任务风险和价值动态分配
工具调用	thought 中自由调用 / gateway 控制	tool gateway + policy
trace 用途	debug / audit / eval / training	分权限隔离

8. Eval 设计

ToT 的评测不能只看最终答案。

Eval layer	指标
Thought relevance	候选 thought 是否覆盖合理路径
Evidence grounding	thought 是否引用正确证据
Search quality	是否保留了关键候选路径
Early error recovery	初始路径错误时能否回退
Cost/latency	搜索预算是否可接受
Safety	是否探索或建议禁止动作
Human usefulness	reviewer 是否觉得候选方案有帮助

Golden Set 样例

Case	Expected thought coverage
AML structuring alert	至少覆盖 KYC、transaction pattern、counterparty、history
KYC policy conflict	覆盖地区政策、客户类型、document exception
Payment dispute	覆盖 merchant evidence、customer claim、network rule、SLA
Credit exception	覆盖 policy、risk rationale、adverse action、human approval

9. 风险和边界

风险	说明	控制
Bad thought looks plausible	错误路径包装得很专业	evidence required + SME eval
Search amplifies bias	高分路径反映历史偏差	fairness / counterfactual cases
Cost explosion	多路径推理成本高	budget and timeout
Trace leakage	thought 可能含敏感信息	trace minimization + access control
Automation bias	用户过度相信推荐路径	UI 显示 uncertainty and alternatives
Over-explanation	展示太多内部推理造成噪音	展示 structured rationale, not raw chain

10. 作品集输出

完成本文后，做 5 个 artifact:

Artifact	内容
Thought Space Map	为 AML 或 payment dispute 定义候选路径
Search Controller ADR	说明用 beam search / best-first / fixed candidates 的理由
Human Review UI Spec	展示候选路径、证据覆盖、风险和 override
ToT Eval Matrix	评估 thought relevance、grounding、search quality
Cost/Safety Gate	定义搜索预算和高风险停止条件

11. 面试表达

30 秒版本

Tree of Thoughts 把 LLM 推理从一条链变成可搜索的多路径结构。对企业 AI 来说，它的价值不是让模型展示更多思考，而是让系统管理候选方案、证据、评估、搜索预算、停止条件和人工选择点。

2 分钟版本

CoT 通常是一条线，早期错误会传递。ToT 会在每一步生成多个 candidate thoughts，再用 evaluator 和 search controller 选择路径。金融场景里，我会把 thought 映射成调查假设、证据路径或行动候选。例如 AML alert 可以同时考虑 structuring、legitimate cash business、mule activity 和 KYC mismatch。系统应该展示候选路径和证据覆盖，但不让 AI 自动关闭 alert 或提交 SAR。架构上需要 thought generator、retriever/tool gateway、state builder、evaluator、search controller、policy gate、human review 和 trace store。评测也要覆盖 thought relevance、evidence grounding、search quality、cost、latency 和 safety。

CTO 深挖

我不会把 ToT 做成无限制的内部推理。生产环境要有固定 search budget、tool permission、trace minimization、evaluator calibration 和 fallback。高风险路径需要 human approval，trace 只保留可审计摘要和关键评分，不暴露敏感原始推理。

PM 深挖

ToT 对产品最重要的是 candidate plan review。用户不是看模型长篇思考，而是看到 2-4 个可行动方案、每个方案的证据、风险和下一步。这样既降低 automation bias，也让专家保留决策权。

12. 复习问题

ToT 和 CoT 的本质差异是什么？
哪些金融零售任务适合多路径搜索？
ToT 的 evaluator 应该评估什么？
为什么不应该直接展示完整 raw chain-of-thought？
如何把 ToT 的搜索过程变成 audit evidence？
如何设置 cost / latency / safety stop rule？
ToT 如何和 HITL、tool gateway、EvalOps 连接？