AI 扩展计划 / Playbooks
AIPROD-90:AI 数据×生产化×实战 90 天计划
Data Contract Specification(datacontract.com)作主线 → 已并入 ODCS,只作历史对照
150 行AIPROD_90_PLAN.md
AIPROD-90:AI 数据×生产化×实战 90 天计划
Date: 2026-07-01 | Status: active, review-by: 2026-10-01 定位:内容生产线——AI 每日产出 1 篇论文精读级学习笔记(
docs/aiprod/dayN-*.md)+ 按节奏产出实战增量(代码/评测数字/部署);学习方式与节奏完全由本人自定,本计划只约束内容产出方,不给学习者设打卡义务。 选题依据:不重复既有 7 条学习线;专打 2026-07-01 能力基线审计(docs/daily/AIROAD_PROGRESS.md)确认的四个缺口——C9 数据产品(唯一 2 分)、C7 评测生产闭环、C5 威胁建模/回滚、C13 defend 叙事。 实战原则:全部落在已有资产上做可度量增量(/aml-copilot、/agent-platform、真实 eval 管线、435 个测试),KPI = 可链接资产 + eval 数字 + 单位成本(继承 AIPA 纪律);不删除任何旧内容。 进度文件:docs/daily/AIPROD_PROGRESS.md(追踪内容交付,不追踪学习进度)
1. 2026-07 基准资料表(写作前经 WebSearch 逐项核实,全部带日期)
| 主题 | 主线锚点 | 日期 | 状态要点 |
|---|---|---|---|
| Data contracts | ODCS v3.1.0(Linux Foundation Bitol) | 2025-12 | 事实标准:relationships/可执行 SLA/严格 schema;datacontract-cli 默认格式;datacontract.com 规范已并入生态(仅支持到 2026 底) |
| 数据版本化 | lakeFS 收购 DVC;Iceberg/Nessie catalog time-travel | 2025-11 | 赛道整合后的两条主线 |
| Feature→Context store | Databricks 收购 Tecton;Redis Iris 发布、Pinecone Nexus | 2025-08 / 2026-05 | 独立 feature store 终结;governed context store 品类成型 |
| 数据就绪商业论据 | Gartner:无 AI-ready data 的项目 60% 将被放弃;成功组织数据投入 4 倍 | 2025-02 / 2026-04 | 立项/评审 gate 的量化弹药 |
| Labeling ops | 标注转型 evaluation data ops(Scale AI vs Argilla 两极;IAA κ/α) | 2026-01 | label quality 即 eval quality |
| Eval 观测标准 | OTel GenAI semconv 1.40:client spans stable / agent spans Development,独立仓库 | 2026-04 | instrumentation 必须分层对齐 |
| 发布流水线 | 五门:lint→offline eval→cost budget→shadow(prod trace 双跑)→canary+auto-rollback | 2026-04 | 2026 LLM 发布标准形态 |
| Judge 校准 | 可靠性感知评估(arXiv 2604.27727);κ≠ρ(ρ=0.95/κ=0.45 反例);κ drift 告警 | 2026-04 | judge 是需要运维的生产组件 |
| Eval 平台格局 | Braintrust(eval-first CI)/ Arize Phoenix(OTel 自托管)/ Langfuse(2026-05 Code Evaluators, judge MIT 开源)/ W&B Weave | 2026-04/05 | build-vs-buy 对标坐标 |
| AI 事故范式 | Anthropic《A postmortem of three recent issues》(16% 请求受影响、数周未检出);Azure 2026-03「仪表盘全绿」事故;Replit agent 删库(2025-07);Meta agent 越权(2026-03) | 2025-09 起 | 静默质量退化 + action-level 事故是新事故类别 |
| 可靠性数据 | Datadog State of AI Engineering:5% LLM span 报错、其中 60% 为限流 | 2026-02 | rate limit 是一等故障类别 |
| FinOps | TokenOps 学科化:cost-per-successful-output;杠杆栈 prompt caching(50-90%)→semantic cache→routing→batching→quantization | 2026-05 | 单位经济从 per-token 转向 per-successful-output |
| Agent 安全总纲 | OWASP Top 10 for Agentic Applications 2026(2025-12-09 发布);Threats & Mitigations 分类法(2025-02) | 2025-12 | agent 主参考,LLM Top 10 仅作继承背景 |
| 注入防御 | CaMeL(arXiv 2503.18813);「Attacker Moves Second」12 种防御全部 >90% ASR 被击穿;Anthropic Opus 4.8 分 surface ASR 披露(无防护 31.5%→safeguards 0.5%,GUI 面 57.1%) | 2025-03/10、2026-05 | 架构级纵深 + adaptive 评测是共识;注入不可根治为架构前提 |
| Red-team 工具栈 | AgentDojo(NeurIPS 2024)+ AgentDyn(2026);PyRIT/garak/Inspect/DeepTeam | 2026-06 | 进阶点 = red-team 做成 CI 门禁 |
| MCP 规范 | 最终规范 2026-07-28 发布(RC 2026-05-21):OAuth 2.1/OIDC、RFC 9728 PRM、RFC 8707 Resource Indicators、SEP-837、stateless 化 | 2026-07 | 自建 MCP server 必须迁移(硬日期复查点) |
| Agent 身份 | IETF OBO 草案(sub/act 双身份)、Okta Cross App Access、WIMSE/SPIFFE | 2026-04 | 多草案并行期,多跳委托未解 |
| Permission-aware RAG | participant-aware 访问控制(arXiv 2509.14608);授权下沉检索层为共识,后置过滤为反模式 | 2025-09 / 2026-05 | 企业 RAG 上不了生产的主因之一 |
| Freshness 治理 | stale retrieval rate、freshness SLA + 内容 owner、embedding 时间戳追溯 | 2026-04 | 40-60% 企业 RAG 卡在治理不在算法 |
| GraphRAG | 库 3.1.0 活跃(2026-05);LazyGraphRAG(2024-11,索引成本 ≈ vector 的 0.1%);按查询类型路由混合 | 2026-05 | 成本修正后非默认方案 |
| Synthetic data | FCA×ICO×Turing privacy-utility-fidelity(2023-06 打底);EDPB/NIST 已要求 MIA/AIA 攻击验证 + 血缘证明 | 2024-2026 | 「合成即合规」叙事作废 |
2. 禁用过时主线(黑名单,继承 CLAUDE.md/AIPA 并新增)
- Data Contract Specification(datacontract.com)作主线 → 已并入 ODCS,只作历史对照
- 独立 feature store 选型专题(Tecton vs Hopsworks)→ 赛道已整合,学 context store 演进
- naive RAG 管道(chunk→embed→top-k)作主线;后置权限过滤当正例;full GraphRAG 当默认
- 「prompt injection 可被某个检测器/prompt 技巧解决」;guardrail 分类器当唯一防线;静态攻击集一把梭
- MCP 2025-03/06 旧版授权叙事(API key/自制 auth)→ 以 2026-07-28 规范为准
- 静态 golden set / offline benchmark 为终点的评测叙事;单一 judge 无 κ 校准
- 纯 APM(latency/uptime)观测叙事;GenAI drift 等同 tabular 特征漂移;vendor 私有 tracing 格式作唯一主线
- OWASP LLM Top 10(2025 版)作 agent 场景主参考 → 用 Agentic Top 10 2026
3. 四阶段与逐日主题
笔记体例:每篇含 今日导引(定位/前置/学完能做什么/一句话核心)+ 衔接(昨天→今天→明天)+ 带日期引用 + 文末 SOTA 检查(继承
AI_CONTENT_QUALITY_REVIEW_AND_REWRITE_STANDARD.md§8.1)。 实战项标注 🔨;每个实战 = 代码+测试 或 实测数字入账,全部为对既有资产的增量。
P1(D1-22)AI 数据产品与知识治理 —— 补 C9(基线唯一 2 分)
| 天 | 主题 | 主线资料(日期) | 实战/产出 |
|---|---|---|---|
| 1 | 开篇:为什么 2026 年 AI 系统的主要投资在数据侧 | Gartner 60% 放弃率(2025-02)/4x 投入(2026-04) | 🔨 /learn/aiprod 路由骨架(复用既有 learn track 模式) |
| 2-3 | Data contracts:ODCS v3.1.0 精读与 contract-as-code | ODCS v3.1.0(2025-12)、datacontract-cli | 契约样例 + CI 契约测试 gate 设计 |
| 4-5 | 契约对象扩展到 AI 资产:eval 集/embedding/prompt;policy-as-code→agent 执行契约 | Gartner 2026-03 预测 | AML eval 数据集的 ODCS 契约草案 |
| 6-7 | GenAI data readiness:从概念到可打分 scorecard | Gartner AI-ready data(2026-04) | 🔨 AML Copilot data readiness pack 实填(templates/07,capstone P1 项) |
| 8-9 | 非结构化→AI-ready 管线质量工程:parsing/chunking/enrichment 可测性 | Databricks 方法论(2026-02) | retrieval eval 作为数据质量指标的映射表 |
| 10-11 | Labeling ops = eval data ops:任务设计、IAA(κ/α)、Argilla 流水线 | 市场转型(2026-01) | 标注-审核流水线设计 + IAA 计算样例 |
| 12-13 | 数据集版本化与可复现:lakeFS(+DVC) vs Iceberg/Nessie;eval snapshot 进 CI 与审计 | lakeFS 收购 DVC(2025-11) | 🔨 golden set 扩容 + 版本化(golden_YYYY_MM,从 66 案例起步) |
| 14-15 | Feature store→context store:演进史与 governed context store 设计 | Tecton→Databricks(2025-08)、Redis Iris(2026-05) | mini-AgentCore 的 context store 接口设计 |
| 16-17 | Permission-aware retrieval:ACL 预过滤/查询时策略/IAM 实时校验谱系;participant-aware | arXiv 2509.14608(2025-09)、工程共识(2026-05) | 🔨 /agent-platform 策略引擎拦截扩展到检索层(代码+测试) |
| 18 | Freshness 治理:stale retrieval rate、重索引管道、freshness SLA + owner | 实践系列(2026-04) | freshness 指标定义 + 度量方案 |
| 19-20 | GraphRAG 成本修正选型:full vs LazyGraphRAG vs LightRAG;查询类型路由 | GraphRAG 3.1.0(2026-05)、LazyGraphRAG(2024-11) | 选型决策树 + AML 场景判定 |
| 21 | Synthetic data 治理三角 + 金融域落地:MIA/AIA 验证、血缘 | FCA×ICO×Turing(2023-06 打底)、EDPB/NIST(2024-2026) | AML 合成数据集的治理评估 |
| 22 | P1 收敛 + SOTA 复查 | — | 🔨 检索层 permission/freshness eval 出数字入账 |
P2(D23-45)评测与发布的生产闭环 —— C7 从 offline 走向生产环
| 天 | 主题 | 主线资料(日期) | 实战/产出 |
|---|---|---|---|
| 23-24 | Golden set 工程闭环:生产失败驱动、版本化、饱和与污染 | 2026 实践共识 | golden set 刷新协议 |
| 25-26 | Judge 校准工程 I:κ vs ρ、gold set 标注协议 | κ≠ρ 反例(2026-04) | 🔨 真实 eval judge-κ 标注启动(用已有 cohensKappa 模块) |
| 27-28 | Judge 校准工程 II:position/verbosity bias、cross-family、prompt registry + κ drift 告警 | arXiv 2604.27727(2026-04) | judge 运维手册 |
| 29-30 | 实战集中日 | — | 🔨 真实 eval 扩 N≥100 复跑 + κ 数字落账(承接 AICAP gated 项) |
| 31-32 | Eval-as-CI 统计工程:显著性、最小样本量、确定性 evaluator 分层 | Langfuse Code Evaluators(2026-05) | eval gate 阈值的统计依据文档 |
| 33-34 | OTel GenAI semconv 1.40 落地:stable/Development 分层、多后端可移植 | semconv 1.40(2026-04) | 🔨 自建平台 instrumentation 按 semconv 改造(代码+测试) |
| 35-37 | 五门发布流水线与 shadow eval:双跑/采样/PII/成本控制/promotion criteria | 五门流水线(2026-04) | 🔨 shadow mode 最小装置(教学模拟+真实管线兼容) |
| 38-39 | Canary 的 SLO 门:offline→online proxies 映射、观察窗、auto-rollback | 同上 | canary 门设计文档 |
| 40-41 | Online eval 抽样监控:10-20% 流量 judge 打分、行为漂移 vs 特征漂移 | 实践收敛(2026-04) | 抽样评分方案 |
| 42-43 | Eval 平台 build-vs-buy:Langfuse/Braintrust/Phoenix/Weave 八维矩阵 | 平台格局(2026-04/05) | 对标矩阵 + 私有化结论 |
| 44 | EDDO 参考架构整装:把 P2 组件组装成带反馈回路的架构 | arXiv 2411.13768(2024-11 打底) | AML Copilot 的 EDDO 架构图 |
| 45 | P2 收敛 + SOTA 复查 | — | 实战验收清单 |
P3(D46-68)可靠性×安全×成本 —— 补 C5(威胁建模/回滚)
| 天 | 主题 | 主线资料(日期) | 实战/产出 |
|---|---|---|---|
| 46-47 | AI 事故分类学:五层定位 + action-level 事故 | Anthropic postmortem 精读(2025-09)、Replit 删库(2025-07)、Meta 越权(2026-03) | 事故分类法 + 精读笔记 |
| 48-49 | 静默退化检测:「仪表盘全绿」问题、per-endpoint/tenant SLI | Azure 事故(2026-03)、Datadog 数据(2026-02) | 静默退化检测清单 |
| 50-51 | AI SLO/error budget:质量 SLI 入 SLO、限流一等故障、自治度分层 on-call | Datadog(2026-02) | 🔨 /aml-copilot 质量 SLI 定义 + 监控面板增量 |
| 52-53 | 供应商韧性:multi-provider failover、brownout、混沌演练 | AWS us-east-1 级联(2025-10) | 依赖图 + 降级策略 |
| 54-55 | 实战集中日 | — | 🔨 incident runbook + AI postmortem 模板 + 一次 game day 演练记录 |
| 56-57 | GenAI FinOps/TokenOps:cost-per-successful-output、杠杆栈量化 | TokenOps(2026-05) | 🔨 单位成本实测落账(用 P2 真实 eval 日志) |
| 58-59 | 模型路由与级联:小模型分流、cascade、路由决策本身的 eval | 2026 实践 | 路由策略 + 评测方案 |
| 60-61 | OWASP Agentic Top 10 2026 逐条映射 mini-AgentCore 控制点 | Top 10(2025-12) | 映射矩阵(控制点/缺口) |
| 62-63 | 架构级注入防御:CaMeL 最小复现;adaptive attacker 前提;lab 披露复算 | CaMeL(2025-03)、Attacker Moves Second(2025-10)、Opus 4.8 ASR(2026-05) | 🔨 CaMeL 式确定性策略层接入工具网关(代码+测试) |
| 64-65 | Red-team 做成 CI 门禁:AgentDojo/AgentDyn、PyRIT/garak/Inspect | 工具栈综述(2026-06) | 🔨 red-team 套件 + ASR 基线数字入账 |
| 66-67 | MCP 2026-07-28 规范迁移 + agent 身份委托:OAuth 2.1/RFC 9728/8707;OBO/SPIFFE | 最终规范(2026-07-28,硬日期)、IETF 草案(2026-04) | 🔨 自建 MCP server 按最终规范迁移(代码+测试) |
| 68 | P3 收敛 + SOTA 复查 + memory 防投毒/blast radius 补章 | OWASP T&M(2025-02) | 实战验收清单 |
P4(D69-90)证据叙事与作品收敛 —— 补 C13(defend 叙事)
| 天 | 主题 | 产出 |
|---|---|---|
| 69-71 | Threat model + rollback plan 成文(C5 缺口闭合) | AML Copilot/agent 平台威胁模型 + 回滚预案 |
| 72-74 | 架构评审包 v2:C4 图更新 + 数据层/评测层/安全层各 1 个 ADR | review pack |
| 75-77 | 模拟答辩问答集(内容资产):CTO/CRO/CFO 视角 30 问 + 参考应答叙事 | 30 问答集(可作自测材料) |
| 78-80 | 多受众 memo:同一 flagship 的 CEO/CFO/Risk 三版本 | memo ×3 |
| 81-84 | 长文 ×3:①数据就绪与知识治理 ②评测生产闭环(带真实数字)③agent 安全纵深 | 发布至 /papers |
| 85-87 | 知识图谱 + capstone evidence pack 汇编 | 图谱 + evidence pack |
| 88-89 | 全计划 SOTA 总复查 + 硬日期复查(MCP 迁移验收、Art.50 生效后检查) | 复查记录 |
| 90 | 收官:对照 Day 0 基线的证据清单 + 移交清单 | 收官文档 |
4. 硬日期复查点
- 2026-07-28:MCP 最终规范发布 → D66-67 迁移必须以正式文本为准;同步复查
AI_AGENT_PROTOCOLS_MCP_A2A_PLAYBOOK.md与 papers/16 SOTA 段 - 2026-08-02:EU AI Act Art.50(1)/(4) 生效 → P1 synthetic data/provenance 与 P4 合规叙事按生效后口径复查
- OTel GenAI semconv:agent spans 处 Development 状态,D33-34 落地时按当周版本重验;每阶段末复查
- 每阶段末(D22/45/68/90):SOTA 复查 + 2-3 天缓冲吸收滑期
5. KPI(硬性,全部外部可验证)
- 90 篇 guided-path 笔记(
docs/aiprod/,带日期引用 + SOTA 段),/learn/aiprod可浏览 - ≥12 个实战增量(🔨 项),每个 = 代码+测试 或 实测数字入账;测试套件全程保持绿
- 真实 eval N≥100 + judge-κ 数字、单位成本实测、red-team ASR 基线(三组数字必须落到
docs/daily/AIPROD_PROGRESS.md) - 3 篇长文发布
/papers+ 30 问答集 + capstone evidence pack - 全程增量不删除;每篇笔记过质量标准 §8(含 §8.1 时效规则)stop rules
6. 与现有资产的关系
| 资产 | 关系 |
|---|---|
AI_SYSTEMATIC_LEARNING_ROADMAP_2026.md | 配套阅读地图:其模块 2/4/8 与本计划 P1-P3 主题对应,自定节奏选读;不再作为对学习者的执行义务 |
docs/daily/AIROAD_PROGRESS.md | 可选自测工具(rubric 基线已确认 2026-07-01;复评可在 D90 后自愿进行) |
| AIPA-120 / AICAP-180 产物 | 实战底座:/aml-copilot、/agent-platform、真实 eval 管线;AICAP 遗留 gated 项由 D29-30(N≥100+κ)、D56-57(成本)承接 |
| ABPA-180 | 与 P4 的 memo/评审包产出互引不重做;ABPA block 时序不变(本计划完成后串行) |
| 174 papers / 172 playbooks | 深读池:每篇笔记文末给出配套深读链接 |
SOTA 检查 (2026-07-01)
- 本计划全部主线锚点经 2026-07-01 WebSearch 核实(5 主题研究,见第 1 节日期列);快变主题(agent 安全/协议/eval 平台)半衰期 ~6 个月,按第 4 节复查点滚动重验。
- 已知的时间敏感项:MCP 最终规范(2026-07-28)、EU AI Act Art.50(2026-08-02)、OTel agent spans stable 化(时间未定)、IETF agent 授权草案收敛(多草案并行中)。
- 本文件每阶段末复查一次;下次整体复查 2026-10-01。