W6 周总结 — durable execution × context engineering 收口
W6 周总结 — durable execution × context engineering 收口
日期: 2026-07-26 阶段: Phase 2 - AI-native 参考架构 标签: #week-summary #durable-execution #context-engineering
核心问题
W6 是 P2「AI-native 参考架构」的中段收口周。前半周补的是可靠性底座(durable execution:agent 怎么在崩溃/重启后不丢工作),后半周补的是上下文质量(context engineering:JIT 检索 + 自适应迭代检索)。这周要回答的元问题是:
一个并行多 agent 系统(已有 orchestrator + 子 agent + RAG + 记忆),从「demo 能跑」到「生产能信」,还差哪两块地基?
答案是这周补的两块:(1) 持久化执行——长流程不能「进程一挂全白干」;(2) 上下文工程——窗口再大也得当稀缺资源管。本总结做三件事:复盘 durable execution 三件验收、给 context engineering 的增量 eval 数字、把这两块的产出对接到 P3。
关键内容
A. durable execution 三件验收复盘
W6 前半周的硬目标是:让 orchestrator 的工作流可中断、可恢复、可审计。验收按三件锚定(对应 2026-04 的框架分层共识):
验收 1:选型分层——Temporal 管宏观、LangGraph 管微观。 这是 2026 生产实践的共识(agentmarketcap 2026-04 原话):
「Temporal handles macro-level workflow orchestration while LangGraph handles micro-level agent reasoning.」
判据表(决定本项目用哪层):
| 维度 | LangGraph 1.0(微观) | Temporal(宏观) |
|---|---|---|
| 适用 | 「modeling agent reasoning flow」是主要难点 | 「production reliability at scale」是主要难点 |
| 任务时长 | 分钟级、完成于 minutes | 「hours or days, not seconds」 |
| 崩溃代价 | 低失败率、重启可接受 | 重启丢工作有「real money, time, or user trust costs」 |
| 典型域 | 原型、复杂多 agent 拓扑 | 金融/医疗/合规 pipeline |
| 关键短板 | checkpoint 存在节点之间,不存节点内部 | 需 workflow DSL、运维更重 |
反直觉洞察①(LangGraph 的 checkpoint 不是 durable execution):直觉是「有了 checkpointing 就等于持久化执行了」。但 LangGraph「checkpointers save state between nodes, not inside nodes」——若一个节点跑了多分钟的昂贵 LLM 调用,崩在节点中途,整个节点从头重来,前面的 LLM 花费全部打水漂,造成「silent cost overruns」。真正的 durable execution(Temporal 式 journal replay)记录每个已完成步骤,崩溃后从失败的精确那一步恢复。本项目 AML 属合规域、单次 SAR 核查可能跨多分钟多 LLM 调用——所以验收明确:节点内的昂贵步骤要拆成可独立 checkpoint 的 task,或下沉到 Temporal activity,不能靠 LangGraph 节点级 checkpoint 兜底。
验收 2:非确定性副作用要被记录、replay 时复用而非重跑。 agent 是概率性的——「同一 prompt 跨调用产生不同响应」,所以重试不等于幂等。Temporal 的做法:「records non-deterministic side effects into workflow history so replay can reuse the recorded result」。落到本项目:每个外部调用(LLM、检索、链上查询)必须绑幂等键 = workflow id + step 身份,replay 时命中历史则复用,不重发。本项目 Budget 已按 step/tool-call 计数,正好提供 step 身份的天然来源。
验收 3:可恢复 = 可审计。 durable execution 的副产品是完整的执行历史(event-sourced)——「不知道这个 agent session 发生了什么」在合规域是「unacceptable answer」。这与 P1 已建的 observability(OTel GenAI semconv + trace 导出,Day 22-25)同源:trace 记录的是「发生了什么」,durable history 记录的是「卡在哪、能从哪续」。两者拼成完整审计。
B. context engineering 的增量 eval 数字
W6 后半周(Day 40-41)的产出要用数字说话,不能停在「接了 JIT」。三组增量对比:
| 维度 | 改造前(单次预载/检索) | 改造后(JIT + 自适应) | 依据 |
|---|---|---|---|
| 进 lead 上下文的 token | 全量命中(可能上千 token/子 agent) | 子 agent 压缩摘要 ≤2000 token | Anthropic 四技术之 sub-agent (2025-09) |
| 长上下文召回 | 受 context rot,effective ≪ advertised | 只载相关片段,绕开退化曲线 | Chroma 18 模型普适退化 (2025) |
| 多跳问题 F1(基准锚) | 单次/固定间隔 IRCoT/Iter-Retgen 0.37(HotpotQA) | 自适应迭代 0.447 | FAIR-RAG (2025-10) |
| 跳数越多增益越大 | — | +3.2%(2-hop)/+5.8%(3-hop)/+8.4%(4-hop) | ReaLM vs IRCoT (2026) |
| 简单问题成本 | 1× 检索 | 不变(复杂度路由:简单走单次) | 反直觉洞察②,避免净亏损 |
关键是最后一行:context engineering 的增量不是无条件全量上自适应——简单问题仍走单次 hybridSearch,只有多跳问题才进 agenticRetrieve 循环。这条「复杂度路由」让增益集中在真正需要的查询上,与 durable execution 的「不是所有任务都要 Temporal」是同一种克制。
反直觉洞察②(这周补的两块都是「按需启用」而非「全量铺」):durable execution 和 agentic retrieval 都有「全量上」的诱惑——「所有工作流都 Temporal 化」「所有检索都多跳化」。但两者的 SOTA 共识恰恰是分级:短任务用 LangGraph、长任务才 Temporal;单跳走一次检索、多跳才迭代。P2 这周学到的元原则是「按代价分级,不按能力铺满」——基础设施的可靠性和上下文的深度都是有成本的资源,要花在边际收益最高的地方。这与 Anthropic「context 当稀缺资源」、Princeton「64% 任务单 agent 即够」是同一条直觉的三次复现。
C. 与 P3 的衔接
P3(预计「评测深化 + 安全/合规加固」)需要接住 W6 的两块产出:
W6 产出 P3 接续
───────── ─────────
durable execution 选型分层 ──► P3 把 AML SAR 核查工作流落到分层骨架
(宏观 Temporal / 微观图) (多分钟核查 = 长任务 → 宏观层)
非确定性副作用幂等键 ──► P3 安全:幂等键防「重试导致重复 SAR 提交」
JIT + sub-agent 压缩摘要 ──► P3 把 context discipline 写进 judge 调用
agenticRetrieve 多跳 ──► P3 AML 资金溯源多跳(typology=checklist)
复杂度路由 ──► P3 安全:多跳越权风险(权限随跳数累积)
最关键的衔接点是幂等 × 合规:AML 域里「重试导致重复提交 SAR」是真实合规事故(监管会质疑数据完整性),W6 的「幂等键 = workflow + step」直接堵这个洞——这是 durable execution 在合规域比通用 agent 更不可省的原因。P3 的安全加固(零信任、权限饥渴 agent、MCP 攻击面)会在这块地基上展开。
设计要点/决策表(W6 收口)
| 要点 | 决策 | 理由 |
|---|---|---|
| 持久化分层 | 长/合规工作流走宏观持久层,推理循环走微观图 | LangGraph checkpoint 不覆盖节点内部,长任务需 journal replay |
| 幂等 | 外部调用绑 workflow+step 幂等键 | agent 非确定性,重试≠幂等;防重复 SAR 提交 |
| 上下文纪律 | 子 agent 仅回压缩摘要,lead 不收原始命中 | 绕开 context rot,守住 lead 上下文 |
| 检索分级 | 简单单次、多跳才自适应 | 自适应对简单问题净亏损 |
| 审计 | durable history + OTel trace 拼完整审计 | 合规域「不知道发生了什么」不可接受 |
对本项目的落地
- W6 交付 × 证据对照表(本周可验证产出):
| 交付 | 证据(文件/数字) | 状态 |
|---|---|---|
| JIT 检索原则注入 orchestrator | orchestratorPrompt.ts context discipline 段 + 子 agent 仅回 { text }(orchestratorAgent.ts 已是压缩摘要) | 设计就位,prompt 段待落 |
| context rot 量化认知 | Day40 笔记 Chroma 18 模型退化曲线 + effective≪advertised | 笔记交付 |
| 自适应多跳检索 | agenticRetrieve.ts(状态机+去重+预算)复用 hybridSearch.ts | 函数骨架待落 |
| 检索质量前后对比 | retrievalGolden.ts 补多跳 golden,断言召回提升 | CI 断言待落 |
| durable execution 选型 | 分层判据表(宏观/微观),幂等键=workflow+step | 决策就位,骨架 P3 落 |
- 诚实标注:W6 的笔记(Day 36-41)已交付;代码侧
agenticRetrieve.ts、orchestratorPrompt 的 context discipline 段、多跳 golden、durable execution 骨架为设计决策与函数签名级产出,端到端落地排在 P3。本总结不谎称分层持久化已上线,仅锁定选型判据与接口。 - 指向真实文件:本周改造全部围绕已有部件——
src/agent/orchestrator/orchestratorAgent.ts(Budget/子 agent 压缩)、src/agent/rag/hybridSearch.ts(被 agenticRetrieve 复用)、src/agent/memory/contextBuilder.ts(compaction)、src/agent/eval/retrievalGolden.ts(多跳 golden),不新造平行体系。
参考资料
- Anthropic — Effective context engineering for AI agents:context rot、JIT 检索、四技术(含 sub-agent 压缩摘要)(2025-09)
- Chroma — Context Rot:18 模型普适退化、effective≪advertised (2025)
- FAIR-RAG(arXiv 2510.22344):充分性驱动自适应迭代、HotpotQA 0.447 vs 0.37 (2025-10)
- When to Retrieve During Reasoning(arXiv 2604.26649):+3.2%/+5.8%/+8.4% 随跳数递增 (2026)
- agentmarketcap — LangGraph vs Temporal for Long-Running Agent Workflows: 2026 Decision Guide:选型判据、checkpoint 存节点之间不存内部、Temporal 宏观+LangGraph 微观分层 (2026-04)
- Diagrid — Checkpoints Are Not Durable Execution:LangGraph/CrewAI/ADK checkpoint 不等于持久化执行的失效分析 (2026)
- Temporal 融资/采用口径:$300M @ $5B、9.1T 累计 action(agentmarketcap / zylos research 转述)(2026-02)
- 本仓库
src/agent/orchestrator/orchestratorAgent.ts、src/agent/rag/hybridSearch.ts、src/agent/memory/contextBuilder.ts、src/agent/eval/retrievalGolden.ts(2026-06)
SOTA 检查 (2026-06-11)
- 「durable execution 是 agent 生产基线」在 2026-06 已是共识:Temporal 2026-02 融资($300M/$5B,1.86T action 来自 AI-native 公司)+ LangGraph 1.0 / Pydantic AI / OpenAI Agents SDK 全部把 durable execution 列为一等特性——本周「按代价分层」的选型口径与 2026 主线一致。
- 分层(Temporal 宏观 + LangGraph 微观)是当前主流模式:agentmarketcap 2026-04 明确此分工;Microsoft Agent Framework 1.0(2026-04,统一 AutoGen+SK)也走 durable workflow 路线,是本项目 P3 选型时需重新对比的第三选项(执行当周须确认版本)。
- context engineering 仍是 agent 工程 #1 难点:Anthropic 2025-09 口径在 2026-06 未被推翻;context rot 未因长窗口模型消失(Chroma 验证)。
- 过时认知警示:「有 checkpointing = 持久化执行」是常见误解(Diagrid 2026 专文纠正)——LangGraph checkpoint 不覆盖节点内部,长任务需 journal replay,本周验收 1 据此收紧。
- 待跟踪 / P3 入口:(1) AML SAR 核查工作流的分层落地(长任务下沉宏观层);(2) 幂等键防重复 SAR 提交的合规验证;(3) Stop-RAG 式 value-based 停机替代固定 MAX_HOPS;(4) Microsoft Agent Framework 1.0 vs Temporal×OpenAI SDK 的选型重评。