返回 AIPA 笔记
AIPA Day 28

P1 阶段总结 — 尺子先于引擎,证据先于声明

P1 阶段总结 — 尺子先于引擎,证据先于声明

2026-07-12
phase-summaryevals-firstsota-checkp2-prep

日期: 2026-07-12 阶段: Phase 1 - 产品定义×评测×可观测底座 标签: #phase-summary #evals-first #sota-check #p2-prep

核心问题

P1(D1-28,四周)只为证明一个命题:在写任何 LLM 代码之前,「尺子」可以先就位——产品定义(PRD/JTBD)、金标数据、规则基线、三类 evals、CI 阻断门、tracing、失败归因面板,这一整套度量与观测底座,能在产品的「智能引擎」(LLM 调用)尚未接入时全部建好并跑起来。这个次序不是洁癖,是 2026 的工程事实标准:OpenAI eval-driven development 明言「evaluate early and often,不是事后补」,「评测真正的价值在它跑在每次 commit 上」(OpenAI Developers, 2026)。

P1 阶段总结回答四件事:(A) 「先建尺子」命题的证据链——eval 确实在 LLM 之前就位了吗?(B) P1 交付清单逐项对照计划,可链接性如何;(C) eval 与成本的数字汇总(带诚实限定语);(D) P2 开工预检——MCP 07-28 倒计时、RC 状态、阻断项。

关键内容

A. 「先建尺子」命题的回顾与证据(eval 在 LLM 之前就位)

命题的强形式:存在一个时间点 T,此时项目有可运行、进 CI 的 eval,但还没有任何 LLM 推理代码。P1 提供了这个 T 的物证——下表按「资产入仓时是否依赖 LLM」分类,证明度量底座完全建立在确定性代码之上:

度量/观测资产入仓位置依赖 LLM?证据性质
合成金标数据集(66 案)src/aml/generator.ts(seed aipa-golden-v1❌ 确定性 PRNG数据先于模型
类型学规则基线(6 规则)src/aml/typology.ts❌ 纯规则引擎雏形非 LLM
规则基线评测器src/aml/evalBaseline.ts❌ 标签比对尺子非 LLM
recall@k 检索框架(23 golden)src/agent/eval/retrievalGolden.ts + runRetrievalEval.ts❌ BM25 词法检索尺子非 LLM
CI 阻断门vitest + CI 断言质量门先于引擎
tracing 底座src/agent/trace/useTraceStore.ts + types.ts❌ 纯记录观测先于被观测对象
失败归因面板(设计)src/agent/eval/(拟新增 attributeFailure.ts)+ Day 26部分(v1 代码型)归因先于 LLM 失败

「先建尺子」的反直觉点:度量底座不需要被度量对象存在就能建好,而且应该先建好。直觉是「先有产品才能测产品」,但 AI 产品里这是倒的——LLM 输出是概率分布,「好」的定义本身就是产品定义(Day 3)。若先接 LLM 再补 eval,你会用「demo 看起来对」来定义好,而 Shreya(2026)证明这条路必崩:直接把 trace 丢给 ChatGPT 问「对不对」,它会说「对」却漏掉所有 nuance。先建尺子 = 先把「好」钉死成可断言的代码,而非事后用感觉追认。P1 的全部价值就是把这个倒序坐实成入仓物证。

B. P1 交付清单对照计划(含可链接性)

交付物计划阶段实际状态位置/证据可链接 URL
一页纸 PRD(成功指标=eval)W1docs/AML_COPILOT_PRD.mdlearn track
合成金标(66>计划60)W1-2✅ 提前src/aml/generator.ts
规则基线 + 评测器W2-3 隐含✅ 提前src/aml/typology.ts + evalBaseline.ts
三类 evals suiteW3代码型(evalBaseline.ts)+judge(设计)+人工抽检
CI 阻断 eval gateW3vitest + CI 断言(recall/FPR 入回归)
tracing(OTel semconv + Langfuse 设计)W4✅ 底座 + 设计src/agent/trace/ + Day 26/27/agent-lab trace 视图
失败归因面板W4(Day 26)✅ 设计 + 数据底座就位trace/types.ts 三字段 + Day 26 决策树/agent-lab
长文#1《recall@k→生产级 evals》W4(Day 27)✅ 定稿docs/aipa/longform/learn track
三屏可点击原型W1app/aml-copilot/ + src/components/aml/(5 组件,186 测试)/aml-copilot
学习笔记 28 篇每日docs/aipa/day1~28-*.mdlearn track

可链接性结论:作品②(AML copilot)的度量与观测侧已全部入仓且可演示/aml-copilot 三屏 + /agent-lab trace/归因视图);智能引擎侧(LLM 接入)按计划留到 P2 之后——这正是命题 A 要的「尺子先于引擎」的可见形态。

C. eval 与成本数字汇总(带诚实限定语)

数字单一真相源为 evalRuleBaseline(getGoldenDataset()) 实测(src/aml/evalBaseline.ts),非门槛值:

指标实测CI 门槛余量诚实限定语
structuring recall1.00(n=18)≥0.85+0.15口径一致性,非性能
layering recall1.00(n=15)≥0.80+0.20同源数据,外推无依据
mule_network recall1.00(n=15)≥0.80+0.20同上
normal FPR0.0556(1/18)≤0.15余 0.094唯一 FP 为刻意保留
$/案件(端到端 token 成本)未实测待 P2 gatewaygen_ai.usage.*_tokens 聚合,semconv client span 维度可直采

数字汇总的口径陷阱:recall 全 1.0 不是「准确率 100%」。生成器(generator.ts)与规则引擎(typology.ts)同源、共享窗口语义,满分主要证明「数据-规则定义对齐、无 off-by-one」。$/案件尚无实测值——P1 建好了成本聚合的底座(semconv token 属性 + tracing 成本累加 useTraceStore.addCost),但真实成本数字要等 P2 接入 LLM gateway 后才有。把「底座就位」误报成「成本已优化」是同类夸大,禁止。

D. P2 开工预检(MCP 07-28 倒计时 + 阻断项)

P2 主题为 agent 与 MCP 集成,开工硬依赖 MCP 规范状态。预检结论:

预检项状态(2026-06-11 核实)对 P2 的含义
MCP 2026-07-28 规范RC 已于 2026-05-21 锁定终版 2026-07-28 发布(launch 以来最大改版)P2 开工日(07-28,本笔记日历后约两周)恰逢终版落地——按终版 2026-07-28 而非 RC 写代码
10 周验证窗05-21 RC → 07-28 终版,给 SDK/客户端实现方对真实负载验证本项目作为客户端实现方,应在窗口内拿 RC 跑通最小集成,07-28 切终版
无状态协议核取消 initialize/initialized 握手与 Mcp-Session-Id可部署在标准轮询负载均衡后,无需 sticky session——简化本项目 agent 服务部署
Extensions 框架 + TasksTasks 从实验性核特性迁为扩展,按无状态重设计长任务(如多步 AML 调查)走 Tasks 扩展,opt-in
MCP Apps服务端渲染沙箱 HTML UI + 安全审查AML copilot 工作台屏未来可作为 MCP App 暴露
弃用政策Roots/Sampling/Logging 进入弃用,≥12 个月窗口不要在新集成里依赖这三者
缓存头 ttlMs/cacheScopetools/list 等结果带新鲜度与跨用户共享标记工具列表可缓存,降本——接 $/案件成本控制

P2 阻断项:(1) MCP 终版 07-28 才发布,P2 第一周只能基于 RC 验证,正式集成须等终版——计划已对齐,无冲突;(2) semconv agent span 仍 development(Day 27 复查),agent 维度埋点须保留独立映射层,不可直采;(3) 失败归因面板 v2(embedding 版 findSupport)依赖 judge 校准,须先达 Day 3 人工一致率门槛 ≥0.8。

设计要点/决策表

要点决策与朴素做法差异
命题用入仓物证证明按「是否依赖 LLM」分类资产口头声称「我们先做了 eval」无物证
可链接性是交付标准/aml-copilot + /agent-lab 可演示「数据层完成」掩盖不可演示
数字汇总强制带限定语recall 1.0 = 口径一致性裸数字 = 阶1 诚信止血对象
$/案件分「底座」与「实测」底座就位 ≠ 成本已优化把底座误报成成果
P2 按 MCP 终版 07-28 写RC 仅供窗口内验证按 RC 写 → 终版破坏性改动返工
agent span 留映射层仍 development,不直采直采 → 规范变动即埋点失效

对本项目的落地

  • 进度回写docs/daily/AIPA_PROGRESS.md P1 全四周行的交付列与 SOTA✓ 列按 B/D 节更新;P1 结项标记,P2(07-28 起)开工行预填 MCP 终版依赖。
  • 作品②状态:「三大杀手作品」表中 AML copilot 的度量观测侧填可链接 URL /aml-copilot(三屏)+ /agent-lab(trace/归因);智能引擎侧标「P2 接入」,不虚标已完成。
  • 单一真相源纪律延续:所有对外展示(作品集首页、演示页)引用的 eval 数字必须来自 src/aml/evalBaseline.ts 实测输出,过 Day 27 C 节「危险/诚实」对照表自查;$/案件在 P2 实测前一律标「待实测」。
  • P2 集成切口:MCP 客户端集成拟在 src/agent/ 下新增 mcp 适配层;无状态协议核意味着可复用现有 agent 服务部署形态(无需 sticky session);Tasks 扩展承载多步 AML 调查的长任务。tracing 侧 useTraceStore 的 step/toolCall 结构天然映射 MCP tool 调用,归因面板(Day 26)可直接消费 MCP tool 的 error/result。
  • 失败归因接续:P1 留下的 attributeFailure.ts(设计)在 P2 接入真实 LLM + MCP 工具后获得第一批真实失败 trace,三桶归因从「设计」转「实测」,补齐 Day 26 的 v2(embedding findSupport,须先校准 judge)。

参考资料

  • The 2026-07-28 MCP Specification Release Candidate — Model Context Protocol Blog:RC 锁定 2026-05-21、终版 2026-07-28;无状态协议核、Extensions、Tasks、MCP Apps、授权加固、弃用政策、ttlMs/cacheScope;10 周验证窗
  • The 2026 MCP Roadmap — Model Context Protocol Blog(2026):扩展模型与前向兼容
  • Testing Agent Skills Systematically with Evals / Evaluation best practices — OpenAI Developers(2026):eval-driven development;50-200 例黄金集起步;Evals CLI 非零退出码接 CI gate
  • Demystifying evals for AI agents — Anthropic Engineering(2026):agent eval 实践
  • Hamel Husain & Shreya Shankar — LLM Evals: Everything You Need to Know(hamel.dev, 2026-01-15):先看 trace 再写 judge;直接 dump trace 给 LLM 漏 nuance
  • OpenAI CPO —「PM 最重要的技能是写 evals」(2025-08)
  • 本仓物证:src/aml/(generator/typology/evalBaseline)、src/agent/eval/retrievalGolden.tssrc/agent/trace/useTraceStore.tsapp/aml-copilot/、Day 26/27 笔记

SOTA 检查 (2026-06-11)

  • MCP 时间线已硬核实:RC 2026-05-21 锁定,终版 2026-07-28 发布(官方博客)——P2 开工与终版落地对齐,「按终版写、RC 仅供窗口内验证」决策成立。这是 launch 以来最大改版(无状态核 + Extensions),破坏性变更要求严格按终版而非 RC。
  • eval-first 是 2026 工程共识:OpenAI(eval-driven development、CI 非零退出门)、Anthropic(demystifying agent evals)、Hamel/Shreya(先 trace 后 judge)三方一致——P1「先建尺子」命题与行业主线同向,无被替代风险。
  • 诚实纪律无松动:recall 1.0 必带「口径一致性、非性能」限定;$/案件分「底座就位」与「实测」——P2 接 LLM 后才有真实成本,禁止提前声明成本已优化。
  • 过时认知警示:(1) MCP 不可再引 2025-11-25 版做新集成——2026-07-28 是 P2 基准;(2) 不可把「tracing 底座就位」等同「可观测性完成」——agent span semconv 仍 development(Day 27),$/案件未实测。
  • 待跟踪:MCP 终版 07-28 是否准时发布(P2 第一周硬依赖);semconv agent span stable 时间表(影响是否拆映射层);τ²-bench pass^k(2025-06 / 2026-04 更新 38 模型)作为 P2 agent 可靠性指标候选,开工前复查其是否仍为 SOTA agent 评测基准;HAL 评测基础设施(Princeton 2025-10)作为 agent eval 编排参考。