AIPA Day 42

W6 周总结 — durable execution × context engineering 收口

2026-07-26

week-summarydurable-executioncontext-engineering

日期: 2026-07-26 阶段: Phase 2 - AI-native 参考架构标签: #week-summary #durable-execution #context-engineering

核心问题

W6 是 P2「AI-native 参考架构」的中段收口周。前半周补的是可靠性底座（durable execution：agent 怎么在崩溃/重启后不丢工作），后半周补的是上下文质量（context engineering：JIT 检索 + 自适应迭代检索）。这周要回答的元问题是：

一个并行多 agent 系统（已有 orchestrator + 子 agent + RAG + 记忆），从「demo 能跑」到「生产能信」，还差哪两块地基？

答案是这周补的两块：(1) 持久化执行——长流程不能「进程一挂全白干」；(2) 上下文工程——窗口再大也得当稀缺资源管。本总结做三件事：复盘 durable execution 三件验收、给 context engineering 的增量 eval 数字、把这两块的产出对接到 P3。

关键内容

A. durable execution 三件验收复盘

W6 前半周的硬目标是：让 orchestrator 的工作流可中断、可恢复、可审计。验收按三件锚定（对应 2026-04 的框架分层共识）：

验收 1：选型分层——Temporal 管宏观、LangGraph 管微观。 这是 2026 生产实践的共识（agentmarketcap 2026-04 原话）：

「Temporal handles macro-level workflow orchestration while LangGraph handles micro-level agent reasoning.」

判据表（决定本项目用哪层）：

维度	LangGraph 1.0（微观）	Temporal（宏观）
适用	「modeling agent reasoning flow」是主要难点	「production reliability at scale」是主要难点
任务时长	分钟级、完成于 minutes	「hours or days, not seconds」
崩溃代价	低失败率、重启可接受	重启丢工作有「real money, time, or user trust costs」
典型域	原型、复杂多 agent 拓扑	金融/医疗/合规 pipeline
关键短板	checkpoint 存在节点之间，不存节点内部	需 workflow DSL、运维更重

反直觉洞察①（LangGraph 的 checkpoint 不是 durable execution）：直觉是「有了 checkpointing 就等于持久化执行了」。但 LangGraph「checkpointers save state between nodes, not inside nodes」——若一个节点跑了多分钟的昂贵 LLM 调用，崩在节点中途，整个节点从头重来，前面的 LLM 花费全部打水漂，造成「silent cost overruns」。真正的 durable execution（Temporal 式 journal replay）记录每个已完成步骤，崩溃后从失败的精确那一步恢复。本项目 AML 属合规域、单次 SAR 核查可能跨多分钟多 LLM 调用——所以验收明确：节点内的昂贵步骤要拆成可独立 checkpoint 的 task，或下沉到 Temporal activity，不能靠 LangGraph 节点级 checkpoint 兜底。

验收 2：非确定性副作用要被记录、replay 时复用而非重跑。 agent 是概率性的——「同一 prompt 跨调用产生不同响应」，所以重试不等于幂等。Temporal 的做法：「records non-deterministic side effects into workflow history so replay can reuse the recorded result」。落到本项目：每个外部调用（LLM、检索、链上查询）必须绑幂等键 = workflow id + step 身份，replay 时命中历史则复用，不重发。本项目 Budget 已按 step/tool-call 计数，正好提供 step 身份的天然来源。

验收 3：可恢复 = 可审计。 durable execution 的副产品是完整的执行历史（event-sourced）——「不知道这个 agent session 发生了什么」在合规域是「unacceptable answer」。这与 P1 已建的 observability（OTel GenAI semconv + trace 导出，Day 22-25）同源：trace 记录的是「发生了什么」，durable history 记录的是「卡在哪、能从哪续」。两者拼成完整审计。

B. context engineering 的增量 eval 数字

W6 后半周（Day 40-41）的产出要用数字说话，不能停在「接了 JIT」。三组增量对比：

维度	改造前（单次预载/检索）	改造后（JIT + 自适应）	依据
进 lead 上下文的 token	全量命中（可能上千 token/子 agent）	子 agent 压缩摘要 ≤2000 token	Anthropic 四技术之 sub-agent (2025-09)
长上下文召回	受 context rot，effective ≪ advertised	只载相关片段，绕开退化曲线	Chroma 18 模型普适退化 (2025)
多跳问题 F1（基准锚）	单次/固定间隔 IRCoT/Iter-Retgen 0.37（HotpotQA）	自适应迭代 0.447	FAIR-RAG (2025-10)
跳数越多增益越大	—	+3.2%(2-hop)/+5.8%(3-hop)/+8.4%(4-hop)	ReaLM vs IRCoT (2026)
简单问题成本	1× 检索	不变（复杂度路由：简单走单次）	反直觉洞察②，避免净亏损

关键是最后一行：context engineering 的增量不是无条件全量上自适应——简单问题仍走单次 hybridSearch，只有多跳问题才进 agenticRetrieve 循环。这条「复杂度路由」让增益集中在真正需要的查询上，与 durable execution 的「不是所有任务都要 Temporal」是同一种克制。

反直觉洞察②（这周补的两块都是「按需启用」而非「全量铺」）：durable execution 和 agentic retrieval 都有「全量上」的诱惑——「所有工作流都 Temporal 化」「所有检索都多跳化」。但两者的 SOTA 共识恰恰是分级：短任务用 LangGraph、长任务才 Temporal；单跳走一次检索、多跳才迭代。P2 这周学到的元原则是「按代价分级，不按能力铺满」——基础设施的可靠性和上下文的深度都是有成本的资源，要花在边际收益最高的地方。这与 Anthropic「context 当稀缺资源」、Princeton「64% 任务单 agent 即够」是同一条直觉的三次复现。

C. 与 P3 的衔接

P3（预计「评测深化 + 安全/合规加固」）需要接住 W6 的两块产出：

   W6 产出                          P3 接续
   ─────────                        ─────────
   durable execution 选型分层  ──►  P3 把 AML SAR 核查工作流落到分层骨架
   （宏观 Temporal / 微观图）         （多分钟核查 = 长任务 → 宏观层）
   非确定性副作用幂等键        ──►  P3 安全：幂等键防「重试导致重复 SAR 提交」
   JIT + sub-agent 压缩摘要    ──►  P3 把 context discipline 写进 judge 调用
   agenticRetrieve 多跳        ──►  P3 AML 资金溯源多跳（typology=checklist）
   复杂度路由                  ──►  P3 安全：多跳越权风险（权限随跳数累积）

最关键的衔接点是幂等 × 合规：AML 域里「重试导致重复提交 SAR」是真实合规事故（监管会质疑数据完整性），W6 的「幂等键 = workflow + step」直接堵这个洞——这是 durable execution 在合规域比通用 agent 更不可省的原因。P3 的安全加固（零信任、权限饥渴 agent、MCP 攻击面）会在这块地基上展开。

设计要点/决策表（W6 收口）

要点	决策	理由
持久化分层	长/合规工作流走宏观持久层，推理循环走微观图	LangGraph checkpoint 不覆盖节点内部，长任务需 journal replay
幂等	外部调用绑 workflow+step 幂等键	agent 非确定性，重试≠幂等；防重复 SAR 提交
上下文纪律	子 agent 仅回压缩摘要，lead 不收原始命中	绕开 context rot，守住 lead 上下文
检索分级	简单单次、多跳才自适应	自适应对简单问题净亏损
审计	durable history + OTel trace 拼完整审计	合规域「不知道发生了什么」不可接受

对本项目的落地

W6 交付 × 证据对照表（本周可验证产出）：

交付	证据（文件/数字）	状态
JIT 检索原则注入 orchestrator	`orchestratorPrompt.ts` context discipline 段 + 子 agent 仅回 `{ text }`（`orchestratorAgent.ts` 已是压缩摘要）	设计就位，prompt 段待落
context rot 量化认知	Day40 笔记 Chroma 18 模型退化曲线 + effective≪advertised	笔记交付
自适应多跳检索	`agenticRetrieve.ts`（状态机+去重+预算）复用 `hybridSearch.ts`	函数骨架待落
检索质量前后对比	`retrievalGolden.ts` 补多跳 golden，断言召回提升	CI 断言待落
durable execution 选型	分层判据表（宏观/微观），幂等键=workflow+step	决策就位，骨架 P3 落

诚实标注：W6 的笔记（Day 36-41）已交付；代码侧 agenticRetrieve.ts、orchestratorPrompt 的 context discipline 段、多跳 golden、durable execution 骨架为设计决策与函数签名级产出，端到端落地排在 P3。本总结不谎称分层持久化已上线，仅锁定选型判据与接口。
指向真实文件：本周改造全部围绕已有部件——src/agent/orchestrator/orchestratorAgent.ts（Budget/子 agent 压缩）、src/agent/rag/hybridSearch.ts（被 agenticRetrieve 复用）、src/agent/memory/contextBuilder.ts（compaction）、src/agent/eval/retrievalGolden.ts（多跳 golden），不新造平行体系。

参考资料

Anthropic — Effective context engineering for AI agents：context rot、JIT 检索、四技术（含 sub-agent 压缩摘要）(2025-09)
Chroma — Context Rot：18 模型普适退化、effective≪advertised (2025)
FAIR-RAG（arXiv 2510.22344）：充分性驱动自适应迭代、HotpotQA 0.447 vs 0.37 (2025-10)
When to Retrieve During Reasoning（arXiv 2604.26649）：+3.2%/+5.8%/+8.4% 随跳数递增 (2026)
agentmarketcap — LangGraph vs Temporal for Long-Running Agent Workflows: 2026 Decision Guide：选型判据、checkpoint 存节点之间不存内部、Temporal 宏观+LangGraph 微观分层 (2026-04)
Diagrid — Checkpoints Are Not Durable Execution：LangGraph/CrewAI/ADK checkpoint 不等于持久化执行的失效分析 (2026)
Temporal 融资/采用口径：$300M @ $5B、9.1T 累计 action（agentmarketcap / zylos research 转述）(2026-02)
本仓库 src/agent/orchestrator/orchestratorAgent.ts、src/agent/rag/hybridSearch.ts、src/agent/memory/contextBuilder.ts、src/agent/eval/retrievalGolden.ts(2026-06)

SOTA 检查 (2026-06-11)

「durable execution 是 agent 生产基线」在 2026-06 已是共识：Temporal 2026-02 融资（$300M/$5B，1.86T action 来自 AI-native 公司）+ LangGraph 1.0 / Pydantic AI / OpenAI Agents SDK 全部把 durable execution 列为一等特性——本周「按代价分层」的选型口径与 2026 主线一致。
分层（Temporal 宏观 + LangGraph 微观）是当前主流模式：agentmarketcap 2026-04 明确此分工；Microsoft Agent Framework 1.0（2026-04，统一 AutoGen+SK）也走 durable workflow 路线，是本项目 P3 选型时需重新对比的第三选项（执行当周须确认版本）。
context engineering 仍是 agent 工程 #1 难点：Anthropic 2025-09 口径在 2026-06 未被推翻；context rot 未因长窗口模型消失（Chroma 验证）。
过时认知警示：「有 checkpointing = 持久化执行」是常见误解（Diagrid 2026 专文纠正）——LangGraph checkpoint 不覆盖节点内部，长任务需 journal replay，本周验收 1 据此收紧。
待跟踪 / P3 入口：(1) AML SAR 核查工作流的分层落地（长任务下沉宏观层）；(2) 幂等键防重复 SAR 提交的合规验证；(3) Stop-RAG 式 value-based 停机替代固定 MAX_HOPS；(4) Microsoft Agent Framework 1.0 vs Temporal×OpenAI SDK 的选型重评。