收官日 — 知识图谱、能力验证对照与 Q4 移交清单
收官日 — 知识图谱、能力验证对照与 Q4 移交清单
日期: 2026-10-12 阶段: Phase 4 - 自建 Agent 平台×求职冲刺 标签: #capstone #knowledge-graph #handover
核心问题
AIPA-120(AI Platform Architect 120 天计划)今天收官。这不是一篇普通笔记,是整个计划的「合上书」——把 120 天的内功、三大作品、八篇阶段长文织成一张可复述的知识图谱,对照立项时的能力验证标准逐条打勾,并把不能在 120 天内闭环的「活变量」(平台 GA 状态、规范稳定、监管时间表、认证)整理成 Q4 移交清单交给未来的自己。三个问题:
- 120 天学了什么的全景? 用文字版知识图谱把 4 个 Phase × 三大作品 × 8 长文的依赖关系画出来——证明这不是 120 篇孤立笔记,是一个有主线的体系。
- 能力到位了吗? 对照立项的能力验证标准(八域 / build-vs-buy / 私有化 / roleplay 全覆盖),逐条自评,诚实标注哪些是 shipped、哪些是演练量级。
- 哪些变量要继续跟? 本计划大量引用的平台/规范/监管口径是月级变动,必须列清单移交,避免半年后拿过期认知去面试。
关键内容
A. 120 天知识图谱:四阶段 × 三作品 × 八长文的全景
AIPA-120 不是线性时间轴,是一张以「自建 agent 平台 + 求职冲刺」为根的依赖图。文字版全景结构(→ 表依赖,⇒ 表产出):
AIPA-120 根目标:自建 agent 平台内功 + 拿下远程 AI SA/Architect
│
├─ Phase 1【产品定义 × 评测 × 可观测底座】(D1-30)
│ ├─ AML Copilot 产品定义(PRD/用户/合规底线)
│ ├─ eval 体系 ⇒ evalBaseline.ts(规则基线 recall/FPR)
│ ├─ judge 工程 ⇒ judge 四段式 prompt + Cohen's κ 校准(Day17)
│ │ └─→ 是 L1 LangChain SA「eval 框架显式职责」的护城河
│ └─ 可观测底座 ⇒ trace/OTel GenAI semconv(→ Q4 跟 stable)
│ ⇒ 长文①:评测驱动的 agent 产品方法论
│
├─ Phase 2【agent 内核:编排 / 记忆 / 工具 / 持久化】(D31-60)
│ ├─ orchestrator ⇒ src/agent/orchestrator/
│ ├─ durable ⇒ checkpointMachine.ts(reflection bounded 检查点)
│ ├─ memory + RAG ⇒ src/agent/memory/ + rag/ + retrievalGolden.ts
│ ├─ gateway ⇒ semanticCache(成本);mcp ⇒ toolRegistry(参数校验)
│ │ └─→ 喂给 Day117 八域的「工具沙箱 / 记忆」war story
│ ⇒ 长文②③:agent 编排状态机 / 记忆与 RAG 工程
│
├─ Phase 3【AML Copilot 落地 × 合规 × 成本】(D61-90)
│ ├─ AML 逻辑层 ⇒ src/aml/(完整 Copilot)+ 多屏 UI
│ ├─ 成本 ⇒ Budget / CostMeter(单位成本 $X/案)
│ ├─ 合规 ⇒ SAR 质检 + judge κ 准入门(合规底线)
│ │ └─→ 是 L2 Citi GenAI Architect 的金融合规弹药
│ ⇒ 长文④⑤:合规级 agent 落地 / 单位成本工程
│
└─ Phase 4【自建 vs 平台 × 私有化 × 求职冲刺】(D91-120)
├─ build-vs-buy ⇒ AgentCore/Foundry/Vertex 选型(Day116)
├─ 私有化 ⇒ vLLM/NIM on K8s + VPC(→ Q4 跟合规)
├─ 面试三件套 ⇒ 八域白板(Day117) + 作品集三件套(Day118)
│ + 三层投递 JD-能力映射(Day119)
└─ 收官 ⇒ 本日:知识图谱 + 能力对照 + Q4 移交
⇒ 长文⑥⑦⑧:平台选型 / 私有化架构 / 求职作战手册
三大作品在图谱中的角色分工清晰:AML Copilot 是「深度作品」(产品结果+eval+成本三件套全),agent-arch lab 与 dsdb-lab 是「广度+教学作品」(交互装置,面试道具)。八篇长文是 Phase 边界的「凝结核」,把零散笔记收敛成可投递的写作样本。
反直觉洞察①(120 天的价值不在笔记数,在依赖图的连通性):合上书时本能想数「写了多少篇」。但这张图谱真正的价值是连通性——Phase 1 的 judge κ 校准直接成为 Phase 4 求职的 L1 护城河;Phase 2 的 toolRegistry 参数校验直接成为 Day117 的工具沙箱 war story;Phase 3 的 CostMeter 直接成为 Day118 作品集的单位成本数字。一个孤立的笔记是零,一条贯穿四个 Phase 的主线才是简历卖点。 招聘经理问「你这个 eval 框架怎么来的」,能从 Phase 1 一路讲到 L1 JD 命中点,这才是 120 天的真正产出——不是 120 篇,是一条能讲 30 分钟不断线的主线。
B. 能力验证对照表:逐条自评(诚实标注 shipped vs 演练)
对照 AIPA-120 立项的能力验证标准,逐条自评。诚实是底线——标清哪些是真 shipped、哪些是演练/示意量级(投递前 W4 用实测回填):
| 能力验证标准 | 自评 | 证据 / 真实文件 | 状态诚实标注 |
|---|---|---|---|
| 能做 agentic 系统设计八域白板 | ✅ | Day117 八域速查 + agent-arch lab 演示 | shipped(演示装置) |
| 能讲清 build-vs-buy(自建 vs 平台) | ✅ | Day116 AgentCore/Foundry/Vertex 决策表 | shipped(口径 2026-06,当周复核) |
| 能设计私有化/air-gapped 方案 | ✅ | vLLM/NIM on K8s + VPC/PrivateLink | 方案级(未实跑全离线) |
| 能过 customer roleplay(异议处理) | ✅ | Day117 ATAM 移植 playbook | 方法级(需实战检验) |
| 能设计 comprehensive eval 框架 | ✅ | judge κ 准入门 + 规则基线 + trajectory | shipped(κ 阈值 v1,真实标注 W4 回填) |
| 能报作品的产品结果+eval+单位成本 | ✅ | AML Copilot 三件套 | eval/成本部分为演练量级,W4 实测回填 |
| 能做合规级 agent 落地 | ✅ | AML SAR 质检 + 合规底线 | shipped(66 案可演示) |
| 能做 agent 成本工程 | ✅ | Budget/CostMeter + prefill/decode 分离 | shipped(CostMeter 实测口径) |
| 能做三层投递 + JD-能力映射 | ✅ | Day119 三层 JD-能力表 | shipped(JD 口径 2026-06,当周复核) |
| 能讲 agent 内核(编排/记忆/工具/持久化) | ✅ | src/agent/ 全套 | shipped(代码在仓库) |
自评结论:10/10 能力点覆盖,但其中 eval 数字与单位成本为演练量级,投递前 W4 必须用 AML Copilot 实测回填。这是收官时最重要的诚实——能力框架完整,但「对外作品集的数字必须是实测」这条铁律不能因为收官而松动。
反直觉洞察②(收官不是终点,是「活变量」交接点):合上书时本能想「全做完了」。但本计划引用的平台 GA/规范/监管/认证全是月级到季度级变动的活变量——AgentCore Policy 仍 preview、OTel GenAI semconv 仍 experimental、EU Digital Omnibus 刚 2026-05-07 临时达成。「做完」是假象,真实状态是「能力定型 + 一批变量进入跟踪期」。 把这些变量列成移交清单交给未来的自己,比假装「全部闭环」诚实得多——也是 SA/Architect 这种岗位的核心素养:永远知道自己的知识哪部分会过期,并主动设跟踪点。
C. Q4 移交清单:6 个活变量 + 跟踪动作
把不能在 120 天内闭环的活变量整理成移交清单(截至 2026-06,状态须执行当周重新确认):
| 移交项 | 2026-06 状态 | 影响 | Q4 跟踪动作 |
|---|---|---|---|
| NIST CAISI / AI 安全框架 | 美国 AI 安全口径演进中 | 影响 L2 金融合规叙事 | 查 CAISI 是否出 agent 安全指引,回填合规章节 |
| OTel GenAI semconv | experimental(invoke_agent/chat/execute_tool 三 span,gen_ai.* 仍 Development badge,可不破坏版本改名) | 影响可观测底座是否锁定 | 查是否转 stable;stable 后锁定 trace 属性命名 |
| AgentCore Policy / Evaluations | preview(非 GA) | 影响 Day116 build-vs-buy 表 | 查转 GA + 定价;GA 后重算自建 vs buy 平衡点 |
| EU AI Act Digital Omnibus | 2026-05-07 临时达成;Annex III HRAIS 义务延至 2027-12(推迟 16 月);2026-12 起新增禁止项 | 影响欧盟客户合规时间表 | 查正式通过文本;回填 AML Copilot 合规驻留章节 |
| ML Engineer Associate 类认证 | 云厂商认证体系演进 | 投递信号补充(非主力) | 评估是否值得考(shipped > 证书,低优先) |
| ThoughtWorks Radar Vol 35 | Vol 34(2026-04)含 spec-driven development | 影响方法论叙事 | 查 Vol 35 是否新增 agentic 架构条目 |
移交清单的使用纪律:每条都绑定一个「回填位置」(哪篇笔记的哪段),不是空跟踪。例:OTel semconv 转 stable → 回填 Phase 1 可观测底座笔记的 trace 属性命名;AgentCore Policy GA → 回填 Day116 决策表 + Day118 作品集成本叙事。跟踪不落到回填位置等于没跟踪。
量化对照(移交清单各项的变动节奏与跟踪频率):
| 移交项 | 变动节奏 | 跟踪频率 | 过期代价 |
|---|---|---|---|
| AgentCore Policy/Evaluations | 季度级(preview→GA) | 每月 | 中(build-vs-buy 失准) |
| AgentCore 定价 | 月级 | 投递当周 | 高(成本叙事被当场戳穿) |
| OTel GenAI semconv | 季度级(→stable) | 每季 | 低(命名可能微调) |
| EU AI Act Omnibus | 季度级(立法进程) | 每季 | 中(合规时间表错) |
| Radar / 认证 | 半年级 | 每半年 | 低(方法论补充) |
设计要点/决策表
| 要点 | 决策 | 理由 |
|---|---|---|
| 收官产出 | 知识图谱(连通性)> 笔记计数 | 主线连通才是简历卖点,孤立笔记是零 |
| 能力自评 | 逐条对照 + 诚实标注 shipped/演练 | 数字铁律不因收官松动,W4 实测回填 |
| 活变量处理 | 列移交清单,每条绑回填位置 | 平台/规范/监管月级变动,假装闭环=自欺 |
| 跟踪频率 | 定价投递当周、preview 项每月、立法每季 | 按变动节奏与过期代价分级 |
| 三作品角色 | AML Copilot 深度 + 两 lab 广度/道具 | 深度三件 > 浅度十件(呼应 Day118) |
| 投递前必做 | 用 AML 实测回填全部对外数字 | 演练量级数字禁止进对外作品集 |
对本项目的落地
- 新建
docs/aipa/CAPSTONE.md(计划收官主页):把 A 节文字版知识图谱做成可点击索引(每个节点链到对应笔记/真实文件),B 节能力对照表 + C 节 Q4 移交清单全量收录。这是 AIPA-120 对外展示的「单一入口」,与 Day118 作品集三件套主页(three-piece-narrative.md)互链——一个讲「学了什么的全景」,一个讲「能 ship 什么的证据」。 - 知识图谱节点指向真实文件:图谱里每个 ⇒ 产出节点指仓库实路径——
src/aml/(AML 逻辑)、src/agent/orchestrator|durable|memory|rag|gateway|mcp/(agent 内核)、src/components/agent-arch/与src/dsdb-lab/(教学装置)、src/lib/Budget+CostMeter(成本)。证明图谱不是 PPT,是 shipped 代码的索引。 - Q4 移交清单做成可勾选 + 绑回填位置:
docs/aipa/CAPSTONE.md的移交清单每条附「WebSearch query 模板 + 待核 URL + 回填位置(哪篇笔记哪段)」。复用 Day119 的sota-recheck-checklist.md机制,但 CAPSTONE 是季度级长跟踪、Day119 是投递当周短复核,两者分工。 - 能力对照表喂回投递:B 节 10 条能力点 ↔ Day119 三层 JD-能力映射表交叉引用——能力对照证明「我有这些能力」,JD 映射证明「这些能力命中你们的 JD」。面试时两表合用,形成「能力 → 证据 → JD 命中」闭环。
- 诚实标注(收官铁律):本笔记所有 eval 数字、单位成本、薪资带、平台 GA 状态均为 2026-06 演练/调研量级;对外作品集与投递前,必须(1)用 AML Copilot 实测回填 eval 与成本,(2)当周重核平台 GA/定价/版本/监管,(3)roleplay/私有化方案标注「方案级、未全实跑」。收官不等于数字可以松——恰恰相反,收官是「把所有占位数字标红、等实测回填」的最后检查点。
参考资料
- OpenTelemetry — Inside the LLM Call: GenAI Observability with OpenTelemetry(opentelemetry.io 2026):定义 invoke_agent/chat/execute_tool 三 span + gen_ai.request.model/usage.input_tokens/output_tokens 属性 + gen_ai.client.operation.duration/token.usage 指标;「already in use today and under active development」,pre-stable but production-ready;Claude Code trace 支持 beta (2026)
- OpenTelemetry semconv(v1.41 口径 / DEV / Greptime 2026-05):agent/workflow/tool/model span + 延迟/token 指标已定义;gen_ai.* 多数仍 Development stability badge,属性名可不破坏版本变更;2026 全年向 stable 收敛 (2026)
- White & Case / Inside Privacy — EU Digital Omnibus on AI(2026-05-07 临时达成):AI Act 自 2024-06 来首次修订;Annex III HRAIS(use-based)义务从 2026-08-02 推迟至 2027-12(推迟 16 月);synthetic content 标记义务推迟 4 月至 2026-12;2026-12-02 起新增禁止非自愿亲密影像/CSAM 生成 (2026-05)
- LangChain SA JD(eval 框架显式职责)/ Citi GenAI Architect VP JD(金融合规)口径(2026-06):B 节能力对照与 L1/L2 投递的 JD 命中依据 (2026-06)
- 本仓库
src/aml//src/agent/{orchestrator,durable,memory,rag,gateway,mcp}//src/components/agent-arch//src/dsdb-lab//src/lib/{Budget,CostMeter}(知识图谱节点与能力证据落点)(2026-06)
SOTA 检查 (2026-06-11)
- OTel GenAI semconv 截至 2026-06 仍 experimental(非 stable):invoke_agent/chat/execute_tool 三 span 与 token/延迟指标已定义、生产可用,但 gen_ai.* 多数属性仍带 Development badge、命名可变;「转 stable」是 Q4 头号跟踪项,stable 后回填可观测底座笔记。
- EU AI Act 进入「延期 + 简化」窗口:Digital Omnibus 2026-05-07 临时达成,HRAIS 义务延至 2027-12——这对 AML Copilot 的欧盟合规叙事是利好(时间表放宽),但 2026-12 新增 CSAM/非自愿亲密影像禁止项须纳入 guardrail 设计;正式文本通过前为临时状态。
- AgentCore Policy/Evaluations 仍 preview:Day116 build-vs-buy 表的「评估成熟度」维度仍是「AgentCore preview vs Foundry Evaluations GA vs Snowflake GPA」——转 GA 会移动自建 vs buy 平衡点,每月跟踪。
- 过时认知警示(收官特别提醒):本计划所有平台 GA/定价/版本/薪资/监管口径均为 2026-06 快照,半年后大概率部分过期——收官不等于这些数字永久有效。投递/面试前当周必须按 C 节移交清单逐项重核;拿 2026-06 旧数字进 2026-Q4 面试是硬伤。
- 能力定型,数字待实测:10/10 能力点覆盖,但 eval 与单位成本为演练量级;这是收官时最诚实的状态——框架完整 ≠ 数字可对外,W4 用 AML Copilot 实测回填是投递前不可跳过的最后一步。
- 待跟踪(移交未来的自己):NIST CAISI agent 安全指引 / OTel semconv stable / AgentCore Policy GA / EU Omnibus 正式文本 / Radar Vol 35 / ML Engineer Associate 认证价值——六项进入 Q4 季度跟踪,每项绑回填位置,跟踪不落到回填等于没跟踪。