AI 扩展计划 / Playbooks

AIPROD-90：AI 数据×生产化×实战 90 天计划

Data Contract Specification（datacontract.com）作主线 → 已并入 ODCS，只作历史对照

150 行AIPROD_90_PLAN.md

AIPROD-90：AI 数据×生产化×实战 90 天计划

Date: 2026-07-01 ｜ Status: active, review-by: 2026-10-01 定位：内容生产线——AI 每日产出 1 篇论文精读级学习笔记（docs/aiprod/dayN-*.md）+ 按节奏产出实战增量（代码/评测数字/部署）；学习方式与节奏完全由本人自定，本计划只约束内容产出方，不给学习者设打卡义务。 选题依据：不重复既有 7 条学习线；专打 2026-07-01 能力基线审计（docs/daily/AIROAD_PROGRESS.md）确认的四个缺口——C9 数据产品（唯一 2 分）、C7 评测生产闭环、C5 威胁建模/回滚、C13 defend 叙事。 实战原则：全部落在已有资产上做可度量增量（/aml-copilot、/agent-platform、真实 eval 管线、435 个测试），KPI = 可链接资产 + eval 数字 + 单位成本（继承 AIPA 纪律）；不删除任何旧内容。 进度文件：docs/daily/AIPROD_PROGRESS.md（追踪内容交付，不追踪学习进度）

1. 2026-07 基准资料表（写作前经 WebSearch 逐项核实，全部带日期）

主题	主线锚点	日期	状态要点
Data contracts	ODCS v3.1.0（Linux Foundation Bitol）	2025-12	事实标准：relationships/可执行 SLA/严格 schema；datacontract-cli 默认格式；datacontract.com 规范已并入生态（仅支持到 2026 底）
数据版本化	lakeFS 收购 DVC；Iceberg/Nessie catalog time-travel	2025-11	赛道整合后的两条主线
Feature→Context store	Databricks 收购 Tecton；Redis Iris 发布、Pinecone Nexus	2025-08 / 2026-05	独立 feature store 终结；governed context store 品类成型
数据就绪商业论据	Gartner：无 AI-ready data 的项目 60% 将被放弃；成功组织数据投入 4 倍	2025-02 / 2026-04	立项/评审 gate 的量化弹药
Labeling ops	标注转型 evaluation data ops（Scale AI vs Argilla 两极；IAA κ/α）	2026-01	label quality 即 eval quality
Eval 观测标准	OTel GenAI semconv 1.40：client spans stable / agent spans Development，独立仓库	2026-04	instrumentation 必须分层对齐
发布流水线	五门：lint→offline eval→cost budget→shadow（prod trace 双跑）→canary+auto-rollback	2026-04	2026 LLM 发布标准形态
Judge 校准	可靠性感知评估（arXiv 2604.27727）；κ≠ρ（ρ=0.95/κ=0.45 反例）；κ drift 告警	2026-04	judge 是需要运维的生产组件
Eval 平台格局	Braintrust（eval-first CI）/ Arize Phoenix（OTel 自托管）/ Langfuse（2026-05 Code Evaluators, judge MIT 开源）/ W&B Weave	2026-04/05	build-vs-buy 对标坐标
AI 事故范式	Anthropic《A postmortem of three recent issues》（16% 请求受影响、数周未检出）；Azure 2026-03「仪表盘全绿」事故；Replit agent 删库（2025-07）；Meta agent 越权（2026-03）	2025-09 起	静默质量退化 + action-level 事故是新事故类别
可靠性数据	Datadog State of AI Engineering：5% LLM span 报错、其中 60% 为限流	2026-02	rate limit 是一等故障类别
FinOps	TokenOps 学科化：cost-per-successful-output；杠杆栈 prompt caching（50-90%）→semantic cache→routing→batching→quantization	2026-05	单位经济从 per-token 转向 per-successful-output
Agent 安全总纲	OWASP Top 10 for Agentic Applications 2026（2025-12-09 发布）；Threats & Mitigations 分类法（2025-02）	2025-12	agent 主参考，LLM Top 10 仅作继承背景
注入防御	CaMeL（arXiv 2503.18813）；「Attacker Moves Second」12 种防御全部 >90% ASR 被击穿；Anthropic Opus 4.8 分 surface ASR 披露（无防护 31.5%→safeguards 0.5%，GUI 面 57.1%）	2025-03/10、2026-05	架构级纵深 + adaptive 评测是共识；注入不可根治为架构前提
Red-team 工具栈	AgentDojo（NeurIPS 2024）+ AgentDyn（2026）；PyRIT/garak/Inspect/DeepTeam	2026-06	进阶点 = red-team 做成 CI 门禁
MCP 规范	最终规范 2026-07-28 发布（RC 2026-05-21）：OAuth 2.1/OIDC、RFC 9728 PRM、RFC 8707 Resource Indicators、SEP-837、stateless 化	2026-07	自建 MCP server 必须迁移（硬日期复查点）
Agent 身份	IETF OBO 草案（sub/act 双身份）、Okta Cross App Access、WIMSE/SPIFFE	2026-04	多草案并行期，多跳委托未解
Permission-aware RAG	participant-aware 访问控制（arXiv 2509.14608）；授权下沉检索层为共识，后置过滤为反模式	2025-09 / 2026-05	企业 RAG 上不了生产的主因之一
Freshness 治理	stale retrieval rate、freshness SLA + 内容 owner、embedding 时间戳追溯	2026-04	40-60% 企业 RAG 卡在治理不在算法
GraphRAG	库 3.1.0 活跃（2026-05）；LazyGraphRAG（2024-11，索引成本 ≈ vector 的 0.1%）；按查询类型路由混合	2026-05	成本修正后非默认方案
Synthetic data	FCA×ICO×Turing privacy-utility-fidelity（2023-06 打底）；EDPB/NIST 已要求 MIA/AIA 攻击验证 + 血缘证明	2024-2026	「合成即合规」叙事作废

2. 禁用过时主线（黑名单，继承 CLAUDE.md/AIPA 并新增）

Data Contract Specification（datacontract.com）作主线 → 已并入 ODCS，只作历史对照
独立 feature store 选型专题（Tecton vs Hopsworks）→ 赛道已整合，学 context store 演进
naive RAG 管道（chunk→embed→top-k）作主线；后置权限过滤当正例；full GraphRAG 当默认
「prompt injection 可被某个检测器/prompt 技巧解决」；guardrail 分类器当唯一防线；静态攻击集一把梭
MCP 2025-03/06 旧版授权叙事（API key/自制 auth）→ 以 2026-07-28 规范为准
静态 golden set / offline benchmark 为终点的评测叙事；单一 judge 无 κ 校准
纯 APM（latency/uptime）观测叙事；GenAI drift 等同 tabular 特征漂移；vendor 私有 tracing 格式作唯一主线
OWASP LLM Top 10（2025 版）作 agent 场景主参考 → 用 Agentic Top 10 2026

3. 四阶段与逐日主题

笔记体例：每篇含今日导引（定位/前置/学完能做什么/一句话核心）+ 衔接（昨天→今天→明天）+ 带日期引用 + 文末 SOTA 检查（继承 AI_CONTENT_QUALITY_REVIEW_AND_REWRITE_STANDARD.md §8.1）。实战项标注 🔨；每个实战 = 代码+测试或实测数字入账，全部为对既有资产的增量。

P1（D1-22）AI 数据产品与知识治理 —— 补 C9（基线唯一 2 分）

天	主题	主线资料（日期）	实战/产出
1	开篇：为什么 2026 年 AI 系统的主要投资在数据侧	Gartner 60% 放弃率（2025-02）/4x 投入（2026-04）	🔨 `/learn/aiprod` 路由骨架（复用既有 learn track 模式）
2-3	Data contracts：ODCS v3.1.0 精读与 contract-as-code	ODCS v3.1.0（2025-12）、datacontract-cli	契约样例 + CI 契约测试 gate 设计
4-5	契约对象扩展到 AI 资产：eval 集/embedding/prompt；policy-as-code→agent 执行契约	Gartner 2026-03 预测	AML eval 数据集的 ODCS 契约草案
6-7	GenAI data readiness：从概念到可打分 scorecard	Gartner AI-ready data（2026-04）	🔨 AML Copilot data readiness pack 实填（templates/07，capstone P1 项）
8-9	非结构化→AI-ready 管线质量工程：parsing/chunking/enrichment 可测性	Databricks 方法论（2026-02）	retrieval eval 作为数据质量指标的映射表
10-11	Labeling ops = eval data ops：任务设计、IAA（κ/α）、Argilla 流水线	市场转型（2026-01）	标注-审核流水线设计 + IAA 计算样例
12-13	数据集版本化与可复现：lakeFS(+DVC) vs Iceberg/Nessie；eval snapshot 进 CI 与审计	lakeFS 收购 DVC（2025-11）	🔨 golden set 扩容 + 版本化（golden_YYYY_MM，从 66 案例起步）
14-15	Feature store→context store：演进史与 governed context store 设计	Tecton→Databricks（2025-08）、Redis Iris（2026-05）	mini-AgentCore 的 context store 接口设计
16-17	Permission-aware retrieval：ACL 预过滤/查询时策略/IAM 实时校验谱系；participant-aware	arXiv 2509.14608（2025-09）、工程共识（2026-05）	🔨 `/agent-platform` 策略引擎拦截扩展到检索层（代码+测试）
18	Freshness 治理：stale retrieval rate、重索引管道、freshness SLA + owner	实践系列（2026-04）	freshness 指标定义 + 度量方案
19-20	GraphRAG 成本修正选型：full vs LazyGraphRAG vs LightRAG；查询类型路由	GraphRAG 3.1.0（2026-05）、LazyGraphRAG（2024-11）	选型决策树 + AML 场景判定
21	Synthetic data 治理三角 + 金融域落地：MIA/AIA 验证、血缘	FCA×ICO×Turing（2023-06 打底）、EDPB/NIST（2024-2026）	AML 合成数据集的治理评估
22	P1 收敛 + SOTA 复查	—	🔨 检索层 permission/freshness eval 出数字入账

P2（D23-45）评测与发布的生产闭环 —— C7 从 offline 走向生产环

天	主题	主线资料（日期）	实战/产出
23-24	Golden set 工程闭环：生产失败驱动、版本化、饱和与污染	2026 实践共识	golden set 刷新协议
25-26	Judge 校准工程 I：κ vs ρ、gold set 标注协议	κ≠ρ 反例（2026-04）	🔨 真实 eval judge-κ 标注启动（用已有 cohensKappa 模块）
27-28	Judge 校准工程 II：position/verbosity bias、cross-family、prompt registry + κ drift 告警	arXiv 2604.27727（2026-04）	judge 运维手册
29-30	实战集中日	—	🔨 真实 eval 扩 N≥100 复跑 + κ 数字落账（承接 AICAP gated 项）
31-32	Eval-as-CI 统计工程：显著性、最小样本量、确定性 evaluator 分层	Langfuse Code Evaluators（2026-05）	eval gate 阈值的统计依据文档
33-34	OTel GenAI semconv 1.40 落地：stable/Development 分层、多后端可移植	semconv 1.40（2026-04）	🔨 自建平台 instrumentation 按 semconv 改造（代码+测试）
35-37	五门发布流水线与 shadow eval：双跑/采样/PII/成本控制/promotion criteria	五门流水线（2026-04）	🔨 shadow mode 最小装置（教学模拟+真实管线兼容）
38-39	Canary 的 SLO 门：offline→online proxies 映射、观察窗、auto-rollback	同上	canary 门设计文档
40-41	Online eval 抽样监控：10-20% 流量 judge 打分、行为漂移 vs 特征漂移	实践收敛（2026-04）	抽样评分方案
42-43	Eval 平台 build-vs-buy：Langfuse/Braintrust/Phoenix/Weave 八维矩阵	平台格局（2026-04/05）	对标矩阵 + 私有化结论
44	EDDO 参考架构整装：把 P2 组件组装成带反馈回路的架构	arXiv 2411.13768（2024-11 打底）	AML Copilot 的 EDDO 架构图
45	P2 收敛 + SOTA 复查	—	实战验收清单

P3（D46-68）可靠性×安全×成本 —— 补 C5（威胁建模/回滚）

天	主题	主线资料（日期）	实战/产出
46-47	AI 事故分类学：五层定位 + action-level 事故	Anthropic postmortem 精读（2025-09）、Replit 删库（2025-07）、Meta 越权（2026-03）	事故分类法 + 精读笔记
48-49	静默退化检测：「仪表盘全绿」问题、per-endpoint/tenant SLI	Azure 事故（2026-03）、Datadog 数据（2026-02）	静默退化检测清单
50-51	AI SLO/error budget：质量 SLI 入 SLO、限流一等故障、自治度分层 on-call	Datadog（2026-02）	🔨 `/aml-copilot` 质量 SLI 定义 + 监控面板增量
52-53	供应商韧性：multi-provider failover、brownout、混沌演练	AWS us-east-1 级联（2025-10）	依赖图 + 降级策略
54-55	实战集中日	—	🔨 incident runbook + AI postmortem 模板 + 一次 game day 演练记录
56-57	GenAI FinOps/TokenOps：cost-per-successful-output、杠杆栈量化	TokenOps（2026-05）	🔨 单位成本实测落账（用 P2 真实 eval 日志）
58-59	模型路由与级联：小模型分流、cascade、路由决策本身的 eval	2026 实践	路由策略 + 评测方案
60-61	OWASP Agentic Top 10 2026 逐条映射 mini-AgentCore 控制点	Top 10（2025-12）	映射矩阵（控制点/缺口）
62-63	架构级注入防御：CaMeL 最小复现；adaptive attacker 前提；lab 披露复算	CaMeL（2025-03）、Attacker Moves Second（2025-10）、Opus 4.8 ASR（2026-05）	🔨 CaMeL 式确定性策略层接入工具网关（代码+测试）
64-65	Red-team 做成 CI 门禁：AgentDojo/AgentDyn、PyRIT/garak/Inspect	工具栈综述（2026-06）	🔨 red-team 套件 + ASR 基线数字入账
66-67	MCP 2026-07-28 规范迁移 + agent 身份委托：OAuth 2.1/RFC 9728/8707；OBO/SPIFFE	最终规范（2026-07-28，硬日期）、IETF 草案（2026-04）	🔨 自建 MCP server 按最终规范迁移（代码+测试）
68	P3 收敛 + SOTA 复查 + memory 防投毒/blast radius 补章	OWASP T&M（2025-02）	实战验收清单

P4（D69-90）证据叙事与作品收敛 —— 补 C13（defend 叙事）

天	主题	产出
69-71	Threat model + rollback plan 成文（C5 缺口闭合）	AML Copilot/agent 平台威胁模型 + 回滚预案
72-74	架构评审包 v2：C4 图更新 + 数据层/评测层/安全层各 1 个 ADR	review pack
75-77	模拟答辩问答集（内容资产）：CTO/CRO/CFO 视角 30 问 + 参考应答叙事	30 问答集（可作自测材料）
78-80	多受众 memo：同一 flagship 的 CEO/CFO/Risk 三版本	memo ×3
81-84	长文 ×3：①数据就绪与知识治理 ②评测生产闭环（带真实数字）③agent 安全纵深	发布至 `/papers`
85-87	知识图谱 + capstone evidence pack 汇编	图谱 + evidence pack
88-89	全计划 SOTA 总复查 + 硬日期复查（MCP 迁移验收、Art.50 生效后检查）	复查记录
90	收官：对照 Day 0 基线的证据清单 + 移交清单	收官文档

4. 硬日期复查点

2026-07-28：MCP 最终规范发布 → D66-67 迁移必须以正式文本为准；同步复查 AI_AGENT_PROTOCOLS_MCP_A2A_PLAYBOOK.md 与 papers/16 SOTA 段
2026-08-02：EU AI Act Art.50(1)/(4) 生效 → P1 synthetic data/provenance 与 P4 合规叙事按生效后口径复查
OTel GenAI semconv：agent spans 处 Development 状态，D33-34 落地时按当周版本重验；每阶段末复查
每阶段末（D22/45/68/90）：SOTA 复查 + 2-3 天缓冲吸收滑期

5. KPI（硬性，全部外部可验证）

90 篇 guided-path 笔记（docs/aiprod/，带日期引用 + SOTA 段），/learn/aiprod 可浏览
≥12 个实战增量（🔨 项），每个 = 代码+测试或实测数字入账；测试套件全程保持绿
真实 eval N≥100 + judge-κ 数字、单位成本实测、red-team ASR 基线（三组数字必须落到 docs/daily/AIPROD_PROGRESS.md）
3 篇长文发布 /papers + 30 问答集 + capstone evidence pack
全程增量不删除；每篇笔记过质量标准 §8（含 §8.1 时效规则）stop rules

6. 与现有资产的关系

资产	关系
`AI_SYSTEMATIC_LEARNING_ROADMAP_2026.md`	配套阅读地图：其模块 2/4/8 与本计划 P1-P3 主题对应，自定节奏选读；不再作为对学习者的执行义务
`docs/daily/AIROAD_PROGRESS.md`	可选自测工具（rubric 基线已确认 2026-07-01；复评可在 D90 后自愿进行）
AIPA-120 / AICAP-180 产物	实战底座：/aml-copilot、/agent-platform、真实 eval 管线；AICAP 遗留 gated 项由 D29-30（N≥100+κ）、D56-57（成本）承接
ABPA-180	与 P4 的 memo/评审包产出互引不重做；ABPA block 时序不变（本计划完成后串行）
174 papers / 172 playbooks	深读池：每篇笔记文末给出配套深读链接

SOTA 检查 (2026-07-01)

本计划全部主线锚点经 2026-07-01 WebSearch 核实（5 主题研究，见第 1 节日期列）；快变主题（agent 安全/协议/eval 平台）半衰期 ~6 个月，按第 4 节复查点滚动重验。
已知的时间敏感项：MCP 最终规范（2026-07-28）、EU AI Act Art.50（2026-08-02）、OTel agent spans stable 化（时间未定）、IETF agent 授权草案收敛（多草案并行中）。
本文件每阶段末复查一次；下次整体复查 2026-10-01。