AIPA Day 120

收官日 — 知识图谱、能力验证对照与 Q4 移交清单

2026-10-12

capstoneknowledge-graphhandover

日期: 2026-10-12 阶段: Phase 4 - 自建 Agent 平台×求职冲刺标签: #capstone #knowledge-graph #handover

核心问题

AIPA-120（AI Platform Architect 120 天计划）今天收官。这不是一篇普通笔记，是整个计划的「合上书」——把 120 天的内功、三大作品、八篇阶段长文织成一张可复述的知识图谱，对照立项时的能力验证标准逐条打勾，并把不能在 120 天内闭环的「活变量」（平台 GA 状态、规范稳定、监管时间表、认证）整理成 Q4 移交清单交给未来的自己。三个问题：

120 天学了什么的全景？ 用文字版知识图谱把 4 个 Phase × 三大作品 × 8 长文的依赖关系画出来——证明这不是 120 篇孤立笔记，是一个有主线的体系。
能力到位了吗？ 对照立项的能力验证标准（八域 / build-vs-buy / 私有化 / roleplay 全覆盖），逐条自评，诚实标注哪些是 shipped、哪些是演练量级。
哪些变量要继续跟？ 本计划大量引用的平台/规范/监管口径是月级变动，必须列清单移交，避免半年后拿过期认知去面试。

关键内容

A. 120 天知识图谱：四阶段 × 三作品 × 八长文的全景

AIPA-120 不是线性时间轴，是一张以「自建 agent 平台 + 求职冲刺」为根的依赖图。文字版全景结构（→ 表依赖，⇒ 表产出）：

AIPA-120 根目标：自建 agent 平台内功 + 拿下远程 AI SA/Architect
│
├─ Phase 1【产品定义 × 评测 × 可观测底座】(D1-30)
│   ├─ AML Copilot 产品定义（PRD/用户/合规底线）
│   ├─ eval 体系 ⇒ evalBaseline.ts（规则基线 recall/FPR）
│   ├─ judge 工程 ⇒ judge 四段式 prompt + Cohen's κ 校准(Day17)
│   │     └─→ 是 L1 LangChain SA「eval 框架显式职责」的护城河
│   └─ 可观测底座 ⇒ trace/OTel GenAI semconv（→ Q4 跟 stable）
│        ⇒ 长文①：评测驱动的 agent 产品方法论
│
├─ Phase 2【agent 内核：编排 / 记忆 / 工具 / 持久化】(D31-60)
│   ├─ orchestrator ⇒ src/agent/orchestrator/
│   ├─ durable ⇒ checkpointMachine.ts（reflection bounded 检查点）
│   ├─ memory + RAG ⇒ src/agent/memory/ + rag/ + retrievalGolden.ts
│   ├─ gateway ⇒ semanticCache（成本）；mcp ⇒ toolRegistry（参数校验）
│   │     └─→ 喂给 Day117 八域的「工具沙箱 / 记忆」war story
│        ⇒ 长文②③：agent 编排状态机 / 记忆与 RAG 工程
│
├─ Phase 3【AML Copilot 落地 × 合规 × 成本】(D61-90)
│   ├─ AML 逻辑层 ⇒ src/aml/（完整 Copilot）+ 多屏 UI
│   ├─ 成本 ⇒ Budget / CostMeter（单位成本 $X/案）
│   ├─ 合规 ⇒ SAR 质检 + judge κ 准入门（合规底线）
│   │     └─→ 是 L2 Citi GenAI Architect 的金融合规弹药
│        ⇒ 长文④⑤：合规级 agent 落地 / 单位成本工程
│
└─ Phase 4【自建 vs 平台 × 私有化 × 求职冲刺】(D91-120)
    ├─ build-vs-buy ⇒ AgentCore/Foundry/Vertex 选型(Day116)
    ├─ 私有化 ⇒ vLLM/NIM on K8s + VPC（→ Q4 跟合规）
    ├─ 面试三件套 ⇒ 八域白板(Day117) + 作品集三件套(Day118)
    │              + 三层投递 JD-能力映射(Day119)
    └─ 收官 ⇒ 本日：知识图谱 + 能力对照 + Q4 移交
         ⇒ 长文⑥⑦⑧：平台选型 / 私有化架构 / 求职作战手册

三大作品在图谱中的角色分工清晰：AML Copilot 是「深度作品」（产品结果+eval+成本三件套全），agent-arch lab 与 dsdb-lab 是「广度+教学作品」（交互装置，面试道具）。八篇长文是 Phase 边界的「凝结核」，把零散笔记收敛成可投递的写作样本。

反直觉洞察①（120 天的价值不在笔记数，在依赖图的连通性）：合上书时本能想数「写了多少篇」。但这张图谱真正的价值是连通性——Phase 1 的 judge κ 校准直接成为 Phase 4 求职的 L1 护城河；Phase 2 的 toolRegistry 参数校验直接成为 Day117 的工具沙箱 war story；Phase 3 的 CostMeter 直接成为 Day118 作品集的单位成本数字。一个孤立的笔记是零，一条贯穿四个 Phase 的主线才是简历卖点。 招聘经理问「你这个 eval 框架怎么来的」，能从 Phase 1 一路讲到 L1 JD 命中点，这才是 120 天的真正产出——不是 120 篇，是一条能讲 30 分钟不断线的主线。

B. 能力验证对照表：逐条自评（诚实标注 shipped vs 演练）

对照 AIPA-120 立项的能力验证标准，逐条自评。诚实是底线——标清哪些是真 shipped、哪些是演练/示意量级（投递前 W4 用实测回填）：

能力验证标准	自评	证据 / 真实文件	状态诚实标注
能做 agentic 系统设计八域白板	✅	Day117 八域速查 + agent-arch lab 演示	shipped（演示装置）
能讲清 build-vs-buy（自建 vs 平台）	✅	Day116 AgentCore/Foundry/Vertex 决策表	shipped（口径 2026-06，当周复核）
能设计私有化/air-gapped 方案	✅	vLLM/NIM on K8s + VPC/PrivateLink	方案级（未实跑全离线）
能过 customer roleplay（异议处理）	✅	Day117 ATAM 移植 playbook	方法级（需实战检验）
能设计 comprehensive eval 框架	✅	judge κ 准入门 + 规则基线 + trajectory	shipped（κ 阈值 v1，真实标注 W4 回填）
能报作品的产品结果+eval+单位成本	✅	AML Copilot 三件套	eval/成本部分为演练量级，W4 实测回填
能做合规级 agent 落地	✅	AML SAR 质检 + 合规底线	shipped（66 案可演示）
能做 agent 成本工程	✅	Budget/CostMeter + prefill/decode 分离	shipped（CostMeter 实测口径）
能做三层投递 + JD-能力映射	✅	Day119 三层 JD-能力表	shipped（JD 口径 2026-06，当周复核）
能讲 agent 内核（编排/记忆/工具/持久化）	✅	src/agent/ 全套	shipped（代码在仓库）

自评结论：10/10 能力点覆盖，但其中 eval 数字与单位成本为演练量级，投递前 W4 必须用 AML Copilot 实测回填。这是收官时最重要的诚实——能力框架完整，但「对外作品集的数字必须是实测」这条铁律不能因为收官而松动。

反直觉洞察②（收官不是终点，是「活变量」交接点）：合上书时本能想「全做完了」。但本计划引用的平台 GA/规范/监管/认证全是月级到季度级变动的活变量——AgentCore Policy 仍 preview、OTel GenAI semconv 仍 experimental、EU Digital Omnibus 刚 2026-05-07 临时达成。「做完」是假象，真实状态是「能力定型 + 一批变量进入跟踪期」。 把这些变量列成移交清单交给未来的自己，比假装「全部闭环」诚实得多——也是 SA/Architect 这种岗位的核心素养：永远知道自己的知识哪部分会过期，并主动设跟踪点。

C. Q4 移交清单：6 个活变量 + 跟踪动作

把不能在 120 天内闭环的活变量整理成移交清单（截至 2026-06，状态须执行当周重新确认）：

移交项	2026-06 状态	影响	Q4 跟踪动作
NIST CAISI / AI 安全框架	美国 AI 安全口径演进中	影响 L2 金融合规叙事	查 CAISI 是否出 agent 安全指引，回填合规章节
OTel GenAI semconv	experimental（invoke_agent/chat/execute_tool 三 span，gen_ai.* 仍 Development badge，可不破坏版本改名）	影响可观测底座是否锁定	查是否转 stable；stable 后锁定 trace 属性命名
AgentCore Policy / Evaluations	preview（非 GA）	影响 Day116 build-vs-buy 表	查转 GA + 定价；GA 后重算自建 vs buy 平衡点
EU AI Act Digital Omnibus	2026-05-07 临时达成；Annex III HRAIS 义务延至 2027-12（推迟 16 月）；2026-12 起新增禁止项	影响欧盟客户合规时间表	查正式通过文本；回填 AML Copilot 合规驻留章节
ML Engineer Associate 类认证	云厂商认证体系演进	投递信号补充（非主力）	评估是否值得考（shipped > 证书，低优先）
ThoughtWorks Radar Vol 35	Vol 34（2026-04）含 spec-driven development	影响方法论叙事	查 Vol 35 是否新增 agentic 架构条目

移交清单的使用纪律：每条都绑定一个「回填位置」（哪篇笔记的哪段），不是空跟踪。例：OTel semconv 转 stable → 回填 Phase 1 可观测底座笔记的 trace 属性命名；AgentCore Policy GA → 回填 Day116 决策表 + Day118 作品集成本叙事。跟踪不落到回填位置等于没跟踪。

量化对照（移交清单各项的变动节奏与跟踪频率）：

移交项	变动节奏	跟踪频率	过期代价
AgentCore Policy/Evaluations	季度级（preview→GA）	每月	中（build-vs-buy 失准）
AgentCore 定价	月级	投递当周	高（成本叙事被当场戳穿）
OTel GenAI semconv	季度级（→stable）	每季	低（命名可能微调）
EU AI Act Omnibus	季度级（立法进程）	每季	中（合规时间表错）
Radar / 认证	半年级	每半年	低（方法论补充）

设计要点/决策表

要点	决策	理由
收官产出	知识图谱（连通性）> 笔记计数	主线连通才是简历卖点，孤立笔记是零
能力自评	逐条对照 + 诚实标注 shipped/演练	数字铁律不因收官松动，W4 实测回填
活变量处理	列移交清单，每条绑回填位置	平台/规范/监管月级变动，假装闭环=自欺
跟踪频率	定价投递当周、preview 项每月、立法每季	按变动节奏与过期代价分级
三作品角色	AML Copilot 深度 + 两 lab 广度/道具	深度三件 > 浅度十件（呼应 Day118）
投递前必做	用 AML 实测回填全部对外数字	演练量级数字禁止进对外作品集

对本项目的落地

新建 docs/aipa/CAPSTONE.md（计划收官主页）：把 A 节文字版知识图谱做成可点击索引（每个节点链到对应笔记/真实文件），B 节能力对照表 + C 节 Q4 移交清单全量收录。这是 AIPA-120 对外展示的「单一入口」，与 Day118 作品集三件套主页（three-piece-narrative.md）互链——一个讲「学了什么的全景」，一个讲「能 ship 什么的证据」。
知识图谱节点指向真实文件：图谱里每个 ⇒ 产出节点指仓库实路径——src/aml/（AML 逻辑）、src/agent/orchestrator|durable|memory|rag|gateway|mcp/（agent 内核）、src/components/agent-arch/ 与 src/dsdb-lab/（教学装置）、src/lib/Budget+CostMeter（成本）。证明图谱不是 PPT，是 shipped 代码的索引。
Q4 移交清单做成可勾选 + 绑回填位置：docs/aipa/CAPSTONE.md 的移交清单每条附「WebSearch query 模板 + 待核 URL + 回填位置（哪篇笔记哪段）」。复用 Day119 的 sota-recheck-checklist.md 机制，但 CAPSTONE 是季度级长跟踪、Day119 是投递当周短复核，两者分工。
能力对照表喂回投递：B 节 10 条能力点 ↔ Day119 三层 JD-能力映射表交叉引用——能力对照证明「我有这些能力」，JD 映射证明「这些能力命中你们的 JD」。面试时两表合用，形成「能力 → 证据 → JD 命中」闭环。
诚实标注（收官铁律）：本笔记所有 eval 数字、单位成本、薪资带、平台 GA 状态均为 2026-06 演练/调研量级；对外作品集与投递前，必须（1）用 AML Copilot 实测回填 eval 与成本，（2）当周重核平台 GA/定价/版本/监管，（3）roleplay/私有化方案标注「方案级、未全实跑」。收官不等于数字可以松——恰恰相反，收官是「把所有占位数字标红、等实测回填」的最后检查点。

参考资料

OpenTelemetry — Inside the LLM Call: GenAI Observability with OpenTelemetry（opentelemetry.io 2026）：定义 invoke_agent/chat/execute_tool 三 span + gen_ai.request.model/usage.input_tokens/output_tokens 属性 + gen_ai.client.operation.duration/token.usage 指标；「already in use today and under active development」，pre-stable but production-ready；Claude Code trace 支持 beta (2026)
OpenTelemetry semconv（v1.41 口径 / DEV / Greptime 2026-05）：agent/workflow/tool/model span + 延迟/token 指标已定义；gen_ai.* 多数仍 Development stability badge，属性名可不破坏版本变更；2026 全年向 stable 收敛 (2026)
White & Case / Inside Privacy — EU Digital Omnibus on AI（2026-05-07 临时达成）：AI Act 自 2024-06 来首次修订；Annex III HRAIS（use-based）义务从 2026-08-02 推迟至 2027-12（推迟 16 月）；synthetic content 标记义务推迟 4 月至 2026-12；2026-12-02 起新增禁止非自愿亲密影像/CSAM 生成 (2026-05)
LangChain SA JD（eval 框架显式职责）/ Citi GenAI Architect VP JD（金融合规）口径（2026-06）：B 节能力对照与 L1/L2 投递的 JD 命中依据 (2026-06)
本仓库 src/aml/ / src/agent/{orchestrator,durable,memory,rag,gateway,mcp}/ / src/components/agent-arch/ / src/dsdb-lab/ / src/lib/{Budget,CostMeter}（知识图谱节点与能力证据落点）(2026-06)

SOTA 检查 (2026-06-11)

OTel GenAI semconv 截至 2026-06 仍 experimental（非 stable）：invoke_agent/chat/execute_tool 三 span 与 token/延迟指标已定义、生产可用，但 gen_ai.* 多数属性仍带 Development badge、命名可变；「转 stable」是 Q4 头号跟踪项，stable 后回填可观测底座笔记。
EU AI Act 进入「延期 + 简化」窗口：Digital Omnibus 2026-05-07 临时达成，HRAIS 义务延至 2027-12——这对 AML Copilot 的欧盟合规叙事是利好（时间表放宽），但 2026-12 新增 CSAM/非自愿亲密影像禁止项须纳入 guardrail 设计；正式文本通过前为临时状态。
AgentCore Policy/Evaluations 仍 preview：Day116 build-vs-buy 表的「评估成熟度」维度仍是「AgentCore preview vs Foundry Evaluations GA vs Snowflake GPA」——转 GA 会移动自建 vs buy 平衡点，每月跟踪。
过时认知警示（收官特别提醒）：本计划所有平台 GA/定价/版本/薪资/监管口径均为 2026-06 快照，半年后大概率部分过期——收官不等于这些数字永久有效。投递/面试前当周必须按 C 节移交清单逐项重核；拿 2026-06 旧数字进 2026-Q4 面试是硬伤。
能力定型，数字待实测：10/10 能力点覆盖，但 eval 与单位成本为演练量级；这是收官时最诚实的状态——框架完整 ≠ 数字可对外，W4 用 AML Copilot 实测回填是投递前不可跳过的最后一步。
待跟踪（移交未来的自己）：NIST CAISI agent 安全指引 / OTel semconv stable / AgentCore Policy GA / EU Omnibus 正式文本 / Radar Vol 35 / ML Engineer Associate 认证价值——六项进入 Q4 季度跟踪，每项绑回填位置，跟踪不落到回填等于没跟踪。