Tree of Thoughts:规划搜索与复杂推理
Tree of Thoughts 的关键不是“让模型多想一会儿”。它把推理过程从一条链扩展成多条候选路径,再用评估和搜索选择更可靠的路径。
Tree of Thoughts / Planning Search 解读
面向对象: AI PM / AI BA / AI Architect / Agent Product Manager。 核心问题: LLM 不只是一次性生成答案,也可以把中间思路拆成可搜索、可评估、可回溯的 thought state。 学习目标: 能解释 Tree of Thoughts 为什么影响复杂任务、Agent workflow、审批链、评测和金融零售 AI 产品设计。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| Tree of Thoughts: Deliberate Problem Solving with Large Language Models | https://arxiv.org/abs/2305.10601 | 理解 thought decomposition、search、self-evaluation、BFS/DFS 等核心机制 |
| Chain-of-Thought Prompting | https://arxiv.org/abs/2201.11903 | 对比线性推理和树状搜索 |
| Self-Consistency Improves Chain of Thought Reasoning | https://arxiv.org/abs/2203.11171 | 理解多路径采样和 majority / score selection |
| ReAct | https://arxiv.org/abs/2210.03629 | 将 reasoning trace 和 action / observation 结合到 agent workflow |
Tree of Thoughts 的关键不是“让模型多想一会儿”。它把推理过程从一条链扩展成多条候选路径,再用评估和搜索选择更可靠的路径。
1. 从 CoT 到 ToT 的变化
Chain-of-Thought 通常是线性的:
Problem -> step 1 -> step 2 -> step 3 -> answer
Tree of Thoughts 把每一步变成多个候选:
Problem
-> thought A
-> thought A1
-> thought A2
-> thought B
-> thought B1
-> thought B2
-> thought C
-> thought C1
-> thought C2
核心差异:
| 维度 | Chain-of-Thought | Tree of Thoughts |
|---|---|---|
| 推理结构 | 单路径 | 多路径树 |
| 错误恢复 | 早期错误会传递 | 可回退、换路径 |
| 评估方式 | 通常只看最终答案 | 可评估中间 thought |
| 计算成本 | 较低 | 更高 |
| 适用任务 | 直接问答、简单推理 | 规划、组合、复杂分析、策略选择 |
| 产品含义 | 模型给一个 rationale | 系统管理候选方案和选择过程 |
ToT 对 PM/BA/架构师的价值在于:
复杂 AI 系统不能只要“一个答案”,而要管理候选方案、评估标准、搜索预算、停止条件和人工选择点。
2. ToT 的四个组件
2.1 Thought Generator
生成下一步候选 thought。
金融零售例子:
用户问:
这个 AML alert 应该优先调查哪些证据?
可能的 thought:
| Thought | 含义 |
|---|---|
| A | 先看交易对手和制裁名单 |
| B | 先看交易模式是否符合 structuring |
| C | 先看客户 KYC profile 是否解释得通 |
| D | 先看历史 alert 和 previous disposition |
2.2 State Evaluator
给候选 thought 打分。
评分可以来自:
- LLM judge。
- 规则。
- 检索证据覆盖度。
- 风险分。
- 人工 reviewer。
2.3 Search Controller
决定用 BFS、DFS、beam search 还是 best-first。
| 搜索方式 | 适合场景 | 风险 |
|---|---|---|
| BFS | 想广泛比较多个方案 | 成本高 |
| DFS | 想快速深挖一条线 | 可能陷入错误路径 |
| Beam Search | 每层保留 Top-K | 依赖评分质量 |
| Best-first | 总是扩展最高分节点 | 可能过早收敛 |
2.4 Stop Rule
决定什么时候停止。
企业 AI 不能无限搜索,需要明确:
- 最大 thought 数。
- 最大工具调用数。
- 最大成本。
- 最大延迟。
- 证据不足时停止。
- 高风险时转人工。
- 分数差距足够大时停止。
3. 为什么 ToT 对 Agent 很重要
Agent 不是只执行一次工具调用。真实任务经常需要:
- 分解目标。
- 形成候选计划。
- 检索证据。
- 评估计划。
- 调整路径。
- 执行低风险动作。
- 请求高风险审批。
ToT 提供的是 agent planning 的基础心智模型。
Agent Workflow 映射
| ToT 概念 | Agent 系统组件 |
|---|---|
| Thought | plan step / investigation hypothesis / action candidate |
| State | 当前证据、工具结果、风险状态 |
| Evaluator | policy checker、risk scorer、LLM judge、human reviewer |
| Search | planner / orchestrator |
| Backtracking | fallback path / retry / escalation |
| Stop | cost/latency/risk/quality gate |
4. 金融零售案例
4.1 AML Alert Investigation
问题:
一个客户出现多笔接近报告阈值的现金存入,AI 应该如何协助调查?
ToT 化:
| Level | Candidate thoughts |
|---|---|
| Hypothesis | structuring / legitimate cash business / account takeover / mule activity |
| Evidence path | transaction history / KYC profile / occupation / counterparty / branch pattern |
| Evaluation | typology match、evidence completeness、false positive likelihood |
| Output | investigation summary、missing evidence list、reviewer recommendation |
上线控制:
- AI 可以生成 investigation plan。
- AI 可以汇总证据。
- AI 不自动关闭 alert。
- AI 不自动提交 SAR。
- 高风险路径必须 supervisor review。
4.2 Credit Underwriting Assistant
ToT 候选路径:
- 从收入稳定性分析。
- 从 debt-to-income 分析。
- 从 collateral / LTV 分析。
- 从 policy exception 分析。
- 从 adverse action risk 分析。
关键点:
ToT 不是让模型自己决定贷款,而是帮助 underwriter 系统性检查多个政策路径,并暴露缺失证据。
4.3 Payment Dispute Assistant
候选路径:
- merchant evidence path。
- customer claim path。
- network rule path。
- fraud signal path。
- SLA / regulatory deadline path。
ToT 可以减少漏看路径,但每条路径都要保留证据和评分原因。
5. PM 视角: ToT 产品设计
AI PM 要问:
| 问题 | 产品决策 |
|---|---|
| 用户需要一个答案还是多个候选方案? | 单答 / 多方案比较 |
| 用户是否需要看到推理路径? | 显示摘要 / 显示 evidence map / 隐藏内部 trace |
| 哪些 thought 可以自动展开? | 低风险任务可自动 |
| 哪些 thought 必须人工选择? | 高风险决策路径 |
| 如何控制成本和延迟? | Top-K、budget、timeout |
| 如何防止看似合理的错误路径? | evidence requirement、red-team eval |
Product Pattern: Candidate Plan Review
适合金融场景的 UI 不应展示全部模型 token,而应展示:
| UI 区域 | 内容 |
|---|---|
| Candidate plans | 2-4 个调查/处理方案 |
| Evidence coverage | 每个方案已有/缺失证据 |
| Risk score | 法规、客户影响、操作风险 |
| Recommended next step | AI 建议,但不是最终决定 |
| Human action | approve path / ask for more evidence / override / escalate |
6. BA 视角: Requirements-to-ToT
BA 要把业务流程转成可搜索的 thought space。
需求模板
| Requirement | ToT mapping |
|---|---|
| 系统应支持多个调查假设 | thought generator 生成候选 hypothesis |
| 系统应优先覆盖高风险证据 | evaluator 加权 regulatory / fraud evidence |
| 系统应说明证据缺口 | state 包含 missing evidence |
| 系统不得自动作出客户影响决策 | stop rule + human approval |
| 系统应保留路径选择理由 | audit trail 记录 thought summary / score / selected path |
BA 需要特别写清:
- 什么是一个有效 thought。
- thought 之间是否互斥。
- 哪些 thought 必须基于证据。
- 哪些 thought 只是探索性假设。
- thought 何时转成 action。
7. 架构师视角: ToT Runtime
参考架构
Task Intake
-> Thought Generator
-> Evidence Retriever / Tool Gateway
-> State Builder
-> Thought Evaluator
-> Search Controller
-> Policy Gate
-> Human Review if needed
-> Final Draft / Action Recommendation
-> Trace Store / Eval Store
关键架构决策
| Decision | Options | 推荐 |
|---|---|---|
| thought 是否持久化 | 不存 / 存摘要 / 存完整 trace | 高风险场景存摘要和评分,不存敏感推理细节 |
| evaluator 类型 | LLM / rules / hybrid / human | hybrid + human sampling |
| 搜索预算 | 固定 / 按风险动态 | 按任务风险和价值动态分配 |
| 工具调用 | thought 中自由调用 / gateway 控制 | tool gateway + policy |
| trace 用途 | debug / audit / eval / training | 分权限隔离 |
8. Eval 设计
ToT 的评测不能只看最终答案。
| Eval layer | 指标 |
|---|---|
| Thought relevance | 候选 thought 是否覆盖合理路径 |
| Evidence grounding | thought 是否引用正确证据 |
| Search quality | 是否保留了关键候选路径 |
| Early error recovery | 初始路径错误时能否回退 |
| Cost/latency | 搜索预算是否可接受 |
| Safety | 是否探索或建议禁止动作 |
| Human usefulness | reviewer 是否觉得候选方案有帮助 |
Golden Set 样例
| Case | Expected thought coverage |
|---|---|
| AML structuring alert | 至少覆盖 KYC、transaction pattern、counterparty、history |
| KYC policy conflict | 覆盖地区政策、客户类型、document exception |
| Payment dispute | 覆盖 merchant evidence、customer claim、network rule、SLA |
| Credit exception | 覆盖 policy、risk rationale、adverse action、human approval |
9. 风险和边界
| 风险 | 说明 | 控制 |
|---|---|---|
| Bad thought looks plausible | 错误路径包装得很专业 | evidence required + SME eval |
| Search amplifies bias | 高分路径反映历史偏差 | fairness / counterfactual cases |
| Cost explosion | 多路径推理成本高 | budget and timeout |
| Trace leakage | thought 可能含敏感信息 | trace minimization + access control |
| Automation bias | 用户过度相信推荐路径 | UI 显示 uncertainty and alternatives |
| Over-explanation | 展示太多内部推理造成噪音 | 展示 structured rationale, not raw chain |
10. 作品集输出
完成本文后,做 5 个 artifact:
| Artifact | 内容 |
|---|---|
| Thought Space Map | 为 AML 或 payment dispute 定义候选路径 |
| Search Controller ADR | 说明用 beam search / best-first / fixed candidates 的理由 |
| Human Review UI Spec | 展示候选路径、证据覆盖、风险和 override |
| ToT Eval Matrix | 评估 thought relevance、grounding、search quality |
| Cost/Safety Gate | 定义搜索预算和高风险停止条件 |
11. 面试表达
30 秒版本
Tree of Thoughts 把 LLM 推理从一条链变成可搜索的多路径结构。对企业 AI 来说,它的价值不是让模型展示更多思考,而是让系统管理候选方案、证据、评估、搜索预算、停止条件和人工选择点。
2 分钟版本
CoT 通常是一条线,早期错误会传递。ToT 会在每一步生成多个 candidate thoughts,再用 evaluator 和 search controller 选择路径。金融场景里,我会把 thought 映射成调查假设、证据路径或行动候选。例如 AML alert 可以同时考虑 structuring、legitimate cash business、mule activity 和 KYC mismatch。系统应该展示候选路径和证据覆盖,但不让 AI 自动关闭 alert 或提交 SAR。架构上需要 thought generator、retriever/tool gateway、state builder、evaluator、search controller、policy gate、human review 和 trace store。评测也要覆盖 thought relevance、evidence grounding、search quality、cost、latency 和 safety。
CTO 深挖
我不会把 ToT 做成无限制的内部推理。生产环境要有固定 search budget、tool permission、trace minimization、evaluator calibration 和 fallback。高风险路径需要 human approval,trace 只保留可审计摘要和关键评分,不暴露敏感原始推理。
PM 深挖
ToT 对产品最重要的是 candidate plan review。用户不是看模型长篇思考,而是看到 2-4 个可行动方案、每个方案的证据、风险和下一步。这样既降低 automation bias,也让专家保留决策权。
12. 复习问题
- ToT 和 CoT 的本质差异是什么?
- 哪些金融零售任务适合多路径搜索?
- ToT 的 evaluator 应该评估什么?
- 为什么不应该直接展示完整 raw chain-of-thought?
- 如何把 ToT 的搜索过程变成 audit evidence?
- 如何设置 cost / latency / safety stop rule?
- ToT 如何和 HITL、tool gateway、EvalOps 连接?