返回 AIPA 笔记
AIPA Day 42

W6 周总结 — durable execution × context engineering 收口

W6 周总结 — durable execution × context engineering 收口

2026-07-26
week-summarydurable-executioncontext-engineering

日期: 2026-07-26 阶段: Phase 2 - AI-native 参考架构 标签: #week-summary #durable-execution #context-engineering

核心问题

W6 是 P2「AI-native 参考架构」的中段收口周。前半周补的是可靠性底座(durable execution:agent 怎么在崩溃/重启后不丢工作),后半周补的是上下文质量(context engineering:JIT 检索 + 自适应迭代检索)。这周要回答的元问题是:

一个并行多 agent 系统(已有 orchestrator + 子 agent + RAG + 记忆),从「demo 能跑」到「生产能信」,还差哪两块地基?

答案是这周补的两块:(1) 持久化执行——长流程不能「进程一挂全白干」;(2) 上下文工程——窗口再大也得当稀缺资源管。本总结做三件事:复盘 durable execution 三件验收、给 context engineering 的增量 eval 数字、把这两块的产出对接到 P3。

关键内容

A. durable execution 三件验收复盘

W6 前半周的硬目标是:让 orchestrator 的工作流可中断、可恢复、可审计。验收按三件锚定(对应 2026-04 的框架分层共识):

验收 1:选型分层——Temporal 管宏观、LangGraph 管微观。 这是 2026 生产实践的共识(agentmarketcap 2026-04 原话):

「Temporal handles macro-level workflow orchestration while LangGraph handles micro-level agent reasoning.」

判据表(决定本项目用哪层):

维度LangGraph 1.0(微观)Temporal(宏观)
适用「modeling agent reasoning flow」是主要难点「production reliability at scale」是主要难点
任务时长分钟级、完成于 minutes「hours or days, not seconds」
崩溃代价低失败率、重启可接受重启丢工作有「real money, time, or user trust costs」
典型域原型、复杂多 agent 拓扑金融/医疗/合规 pipeline
关键短板checkpoint 存在节点之间,不存节点内部需 workflow DSL、运维更重

反直觉洞察①(LangGraph 的 checkpoint 不是 durable execution):直觉是「有了 checkpointing 就等于持久化执行了」。但 LangGraph「checkpointers save state between nodes, not inside nodes」——若一个节点跑了多分钟的昂贵 LLM 调用,崩在节点中途,整个节点从头重来,前面的 LLM 花费全部打水漂,造成「silent cost overruns」。真正的 durable execution(Temporal 式 journal replay)记录每个已完成步骤,崩溃后从失败的精确那一步恢复。本项目 AML 属合规域、单次 SAR 核查可能跨多分钟多 LLM 调用——所以验收明确:节点内的昂贵步骤要拆成可独立 checkpoint 的 task,或下沉到 Temporal activity,不能靠 LangGraph 节点级 checkpoint 兜底。

验收 2:非确定性副作用要被记录、replay 时复用而非重跑。 agent 是概率性的——「同一 prompt 跨调用产生不同响应」,所以重试不等于幂等。Temporal 的做法:「records non-deterministic side effects into workflow history so replay can reuse the recorded result」。落到本项目:每个外部调用(LLM、检索、链上查询)必须绑幂等键 = workflow id + step 身份,replay 时命中历史则复用,不重发。本项目 Budget 已按 step/tool-call 计数,正好提供 step 身份的天然来源。

验收 3:可恢复 = 可审计。 durable execution 的副产品是完整的执行历史(event-sourced)——「不知道这个 agent session 发生了什么」在合规域是「unacceptable answer」。这与 P1 已建的 observability(OTel GenAI semconv + trace 导出,Day 22-25)同源:trace 记录的是「发生了什么」,durable history 记录的是「卡在哪、能从哪续」。两者拼成完整审计。

B. context engineering 的增量 eval 数字

W6 后半周(Day 40-41)的产出要用数字说话,不能停在「接了 JIT」。三组增量对比:

维度改造前(单次预载/检索)改造后(JIT + 自适应)依据
进 lead 上下文的 token全量命中(可能上千 token/子 agent)子 agent 压缩摘要 ≤2000 tokenAnthropic 四技术之 sub-agent (2025-09)
长上下文召回受 context rot,effective ≪ advertised只载相关片段,绕开退化曲线Chroma 18 模型普适退化 (2025)
多跳问题 F1(基准锚)单次/固定间隔 IRCoT/Iter-Retgen 0.37(HotpotQA)自适应迭代 0.447FAIR-RAG (2025-10)
跳数越多增益越大+3.2%(2-hop)/+5.8%(3-hop)/+8.4%(4-hop)ReaLM vs IRCoT (2026)
简单问题成本1× 检索不变(复杂度路由:简单走单次)反直觉洞察②,避免净亏损

关键是最后一行:context engineering 的增量不是无条件全量上自适应——简单问题仍走单次 hybridSearch,只有多跳问题才进 agenticRetrieve 循环。这条「复杂度路由」让增益集中在真正需要的查询上,与 durable execution 的「不是所有任务都要 Temporal」是同一种克制。

反直觉洞察②(这周补的两块都是「按需启用」而非「全量铺」):durable execution 和 agentic retrieval 都有「全量上」的诱惑——「所有工作流都 Temporal 化」「所有检索都多跳化」。但两者的 SOTA 共识恰恰是分级:短任务用 LangGraph、长任务才 Temporal;单跳走一次检索、多跳才迭代。P2 这周学到的元原则是「按代价分级,不按能力铺满」——基础设施的可靠性和上下文的深度都是有成本的资源,要花在边际收益最高的地方。这与 Anthropic「context 当稀缺资源」、Princeton「64% 任务单 agent 即够」是同一条直觉的三次复现。

C. 与 P3 的衔接

P3(预计「评测深化 + 安全/合规加固」)需要接住 W6 的两块产出:

   W6 产出                          P3 接续
   ─────────                        ─────────
   durable execution 选型分层  ──►  P3 把 AML SAR 核查工作流落到分层骨架
   (宏观 Temporal / 微观图)         (多分钟核查 = 长任务 → 宏观层)
   非确定性副作用幂等键        ──►  P3 安全:幂等键防「重试导致重复 SAR 提交」
   JIT + sub-agent 压缩摘要    ──►  P3 把 context discipline 写进 judge 调用
   agenticRetrieve 多跳        ──►  P3 AML 资金溯源多跳(typology=checklist)
   复杂度路由                  ──►  P3 安全:多跳越权风险(权限随跳数累积)

最关键的衔接点是幂等 × 合规:AML 域里「重试导致重复提交 SAR」是真实合规事故(监管会质疑数据完整性),W6 的「幂等键 = workflow + step」直接堵这个洞——这是 durable execution 在合规域比通用 agent 更不可省的原因。P3 的安全加固(零信任、权限饥渴 agent、MCP 攻击面)会在这块地基上展开。

设计要点/决策表(W6 收口)

要点决策理由
持久化分层长/合规工作流走宏观持久层,推理循环走微观图LangGraph checkpoint 不覆盖节点内部,长任务需 journal replay
幂等外部调用绑 workflow+step 幂等键agent 非确定性,重试≠幂等;防重复 SAR 提交
上下文纪律子 agent 仅回压缩摘要,lead 不收原始命中绕开 context rot,守住 lead 上下文
检索分级简单单次、多跳才自适应自适应对简单问题净亏损
审计durable history + OTel trace 拼完整审计合规域「不知道发生了什么」不可接受

对本项目的落地

  • W6 交付 × 证据对照表(本周可验证产出):
交付证据(文件/数字)状态
JIT 检索原则注入 orchestratororchestratorPrompt.ts context discipline 段 + 子 agent 仅回 { text }orchestratorAgent.ts 已是压缩摘要)设计就位,prompt 段待落
context rot 量化认知Day40 笔记 Chroma 18 模型退化曲线 + effective≪advertised笔记交付
自适应多跳检索agenticRetrieve.ts(状态机+去重+预算)复用 hybridSearch.ts函数骨架待落
检索质量前后对比retrievalGolden.ts 补多跳 golden,断言召回提升CI 断言待落
durable execution 选型分层判据表(宏观/微观),幂等键=workflow+step决策就位,骨架 P3 落
  • 诚实标注:W6 的笔记(Day 36-41)已交付;代码侧 agenticRetrieve.ts、orchestratorPrompt 的 context discipline 段、多跳 golden、durable execution 骨架为设计决策与函数签名级产出,端到端落地排在 P3。本总结不谎称分层持久化已上线,仅锁定选型判据与接口。
  • 指向真实文件:本周改造全部围绕已有部件——src/agent/orchestrator/orchestratorAgent.ts(Budget/子 agent 压缩)、src/agent/rag/hybridSearch.ts(被 agenticRetrieve 复用)、src/agent/memory/contextBuilder.ts(compaction)、src/agent/eval/retrievalGolden.ts(多跳 golden),不新造平行体系。

参考资料

  1. Anthropic — Effective context engineering for AI agents:context rot、JIT 检索、四技术(含 sub-agent 压缩摘要)(2025-09)
  2. Chroma — Context Rot:18 模型普适退化、effective≪advertised (2025)
  3. FAIR-RAG(arXiv 2510.22344):充分性驱动自适应迭代、HotpotQA 0.447 vs 0.37 (2025-10)
  4. When to Retrieve During Reasoning(arXiv 2604.26649):+3.2%/+5.8%/+8.4% 随跳数递增 (2026)
  5. agentmarketcap — LangGraph vs Temporal for Long-Running Agent Workflows: 2026 Decision Guide:选型判据、checkpoint 存节点之间不存内部、Temporal 宏观+LangGraph 微观分层 (2026-04)
  6. Diagrid — Checkpoints Are Not Durable Execution:LangGraph/CrewAI/ADK checkpoint 不等于持久化执行的失效分析 (2026)
  7. Temporal 融资/采用口径:$300M @ $5B、9.1T 累计 action(agentmarketcap / zylos research 转述)(2026-02)
  8. 本仓库 src/agent/orchestrator/orchestratorAgent.tssrc/agent/rag/hybridSearch.tssrc/agent/memory/contextBuilder.tssrc/agent/eval/retrievalGolden.ts(2026-06)

SOTA 检查 (2026-06-11)

  • 「durable execution 是 agent 生产基线」在 2026-06 已是共识:Temporal 2026-02 融资($300M/$5B,1.86T action 来自 AI-native 公司)+ LangGraph 1.0 / Pydantic AI / OpenAI Agents SDK 全部把 durable execution 列为一等特性——本周「按代价分层」的选型口径与 2026 主线一致。
  • 分层(Temporal 宏观 + LangGraph 微观)是当前主流模式:agentmarketcap 2026-04 明确此分工;Microsoft Agent Framework 1.0(2026-04,统一 AutoGen+SK)也走 durable workflow 路线,是本项目 P3 选型时需重新对比的第三选项(执行当周须确认版本)。
  • context engineering 仍是 agent 工程 #1 难点:Anthropic 2025-09 口径在 2026-06 未被推翻;context rot 未因长窗口模型消失(Chroma 验证)。
  • 过时认知警示:「有 checkpointing = 持久化执行」是常见误解(Diagrid 2026 专文纠正)——LangGraph checkpoint 不覆盖节点内部,长任务需 journal replay,本周验收 1 据此收紧。
  • 待跟踪 / P3 入口:(1) AML SAR 核查工作流的分层落地(长任务下沉宏观层);(2) 幂等键防重复 SAR 提交的合规验证;(3) Stop-RAG 式 value-based 停机替代固定 MAX_HOPS;(4) Microsoft Agent Framework 1.0 vs Temporal×OpenAI SDK 的选型重评。