返回 Papers
AI 扩展计划 / Playbooks

AIPROD-90:AI 数据×生产化×实战 90 天计划

Data Contract Specification(datacontract.com)作主线 → 已并入 ODCS,只作历史对照

150AIPROD_90_PLAN.md

AIPROD-90:AI 数据×生产化×实战 90 天计划

Date: 2026-07-01 | Status: active, review-by: 2026-10-01 定位:内容生产线——AI 每日产出 1 篇论文精读级学习笔记(docs/aiprod/dayN-*.md)+ 按节奏产出实战增量(代码/评测数字/部署);学习方式与节奏完全由本人自定,本计划只约束内容产出方,不给学习者设打卡义务。 选题依据:不重复既有 7 条学习线;专打 2026-07-01 能力基线审计(docs/daily/AIROAD_PROGRESS.md)确认的四个缺口——C9 数据产品(唯一 2 分)、C7 评测生产闭环、C5 威胁建模/回滚、C13 defend 叙事。 实战原则:全部落在已有资产上做可度量增量(/aml-copilot/agent-platform、真实 eval 管线、435 个测试),KPI = 可链接资产 + eval 数字 + 单位成本(继承 AIPA 纪律);不删除任何旧内容。 进度文件docs/daily/AIPROD_PROGRESS.md(追踪内容交付,不追踪学习进度)


1. 2026-07 基准资料表(写作前经 WebSearch 逐项核实,全部带日期)

主题主线锚点日期状态要点
Data contractsODCS v3.1.0(Linux Foundation Bitol)2025-12事实标准:relationships/可执行 SLA/严格 schema;datacontract-cli 默认格式;datacontract.com 规范已并入生态(仅支持到 2026 底)
数据版本化lakeFS 收购 DVC;Iceberg/Nessie catalog time-travel2025-11赛道整合后的两条主线
Feature→Context storeDatabricks 收购 Tecton;Redis Iris 发布、Pinecone Nexus2025-08 / 2026-05独立 feature store 终结;governed context store 品类成型
数据就绪商业论据Gartner:无 AI-ready data 的项目 60% 将被放弃;成功组织数据投入 4 倍2025-02 / 2026-04立项/评审 gate 的量化弹药
Labeling ops标注转型 evaluation data ops(Scale AI vs Argilla 两极;IAA κ/α)2026-01label quality 即 eval quality
Eval 观测标准OTel GenAI semconv 1.40:client spans stable / agent spans Development,独立仓库2026-04instrumentation 必须分层对齐
发布流水线五门:lint→offline eval→cost budget→shadow(prod trace 双跑)→canary+auto-rollback2026-042026 LLM 发布标准形态
Judge 校准可靠性感知评估(arXiv 2604.27727);κ≠ρ(ρ=0.95/κ=0.45 反例);κ drift 告警2026-04judge 是需要运维的生产组件
Eval 平台格局Braintrust(eval-first CI)/ Arize Phoenix(OTel 自托管)/ Langfuse(2026-05 Code Evaluators, judge MIT 开源)/ W&B Weave2026-04/05build-vs-buy 对标坐标
AI 事故范式Anthropic《A postmortem of three recent issues》(16% 请求受影响、数周未检出);Azure 2026-03「仪表盘全绿」事故;Replit agent 删库(2025-07);Meta agent 越权(2026-03)2025-09 起静默质量退化 + action-level 事故是新事故类别
可靠性数据Datadog State of AI Engineering:5% LLM span 报错、其中 60% 为限流2026-02rate limit 是一等故障类别
FinOpsTokenOps 学科化:cost-per-successful-output;杠杆栈 prompt caching(50-90%)→semantic cache→routing→batching→quantization2026-05单位经济从 per-token 转向 per-successful-output
Agent 安全总纲OWASP Top 10 for Agentic Applications 2026(2025-12-09 发布);Threats & Mitigations 分类法(2025-02)2025-12agent 主参考,LLM Top 10 仅作继承背景
注入防御CaMeL(arXiv 2503.18813);「Attacker Moves Second」12 种防御全部 >90% ASR 被击穿;Anthropic Opus 4.8 分 surface ASR 披露(无防护 31.5%→safeguards 0.5%,GUI 面 57.1%)2025-03/10、2026-05架构级纵深 + adaptive 评测是共识;注入不可根治为架构前提
Red-team 工具栈AgentDojo(NeurIPS 2024)+ AgentDyn(2026);PyRIT/garak/Inspect/DeepTeam2026-06进阶点 = red-team 做成 CI 门禁
MCP 规范最终规范 2026-07-28 发布(RC 2026-05-21):OAuth 2.1/OIDC、RFC 9728 PRM、RFC 8707 Resource Indicators、SEP-837、stateless 化2026-07自建 MCP server 必须迁移(硬日期复查点)
Agent 身份IETF OBO 草案(sub/act 双身份)、Okta Cross App Access、WIMSE/SPIFFE2026-04多草案并行期,多跳委托未解
Permission-aware RAGparticipant-aware 访问控制(arXiv 2509.14608);授权下沉检索层为共识,后置过滤为反模式2025-09 / 2026-05企业 RAG 上不了生产的主因之一
Freshness 治理stale retrieval rate、freshness SLA + 内容 owner、embedding 时间戳追溯2026-0440-60% 企业 RAG 卡在治理不在算法
GraphRAG库 3.1.0 活跃(2026-05);LazyGraphRAG(2024-11,索引成本 ≈ vector 的 0.1%);按查询类型路由混合2026-05成本修正后非默认方案
Synthetic dataFCA×ICO×Turing privacy-utility-fidelity(2023-06 打底);EDPB/NIST 已要求 MIA/AIA 攻击验证 + 血缘证明2024-2026「合成即合规」叙事作废

2. 禁用过时主线(黑名单,继承 CLAUDE.md/AIPA 并新增)

  • Data Contract Specification(datacontract.com)作主线 → 已并入 ODCS,只作历史对照
  • 独立 feature store 选型专题(Tecton vs Hopsworks)→ 赛道已整合,学 context store 演进
  • naive RAG 管道(chunk→embed→top-k)作主线;后置权限过滤当正例;full GraphRAG 当默认
  • 「prompt injection 可被某个检测器/prompt 技巧解决」;guardrail 分类器当唯一防线;静态攻击集一把梭
  • MCP 2025-03/06 旧版授权叙事(API key/自制 auth)→ 以 2026-07-28 规范为准
  • 静态 golden set / offline benchmark 为终点的评测叙事;单一 judge 无 κ 校准
  • 纯 APM(latency/uptime)观测叙事;GenAI drift 等同 tabular 特征漂移;vendor 私有 tracing 格式作唯一主线
  • OWASP LLM Top 10(2025 版)作 agent 场景主参考 → 用 Agentic Top 10 2026

3. 四阶段与逐日主题

笔记体例:每篇含 今日导引(定位/前置/学完能做什么/一句话核心)+ 衔接(昨天→今天→明天)+ 带日期引用 + 文末 SOTA 检查(继承 AI_CONTENT_QUALITY_REVIEW_AND_REWRITE_STANDARD.md §8.1)。 实战项标注 🔨;每个实战 = 代码+测试 或 实测数字入账,全部为对既有资产的增量。

P1(D1-22)AI 数据产品与知识治理 —— 补 C9(基线唯一 2 分)

主题主线资料(日期)实战/产出
1开篇:为什么 2026 年 AI 系统的主要投资在数据侧Gartner 60% 放弃率(2025-02)/4x 投入(2026-04)🔨 /learn/aiprod 路由骨架(复用既有 learn track 模式)
2-3Data contracts:ODCS v3.1.0 精读与 contract-as-codeODCS v3.1.0(2025-12)、datacontract-cli契约样例 + CI 契约测试 gate 设计
4-5契约对象扩展到 AI 资产:eval 集/embedding/prompt;policy-as-code→agent 执行契约Gartner 2026-03 预测AML eval 数据集的 ODCS 契约草案
6-7GenAI data readiness:从概念到可打分 scorecardGartner AI-ready data(2026-04)🔨 AML Copilot data readiness pack 实填(templates/07,capstone P1 项)
8-9非结构化→AI-ready 管线质量工程:parsing/chunking/enrichment 可测性Databricks 方法论(2026-02)retrieval eval 作为数据质量指标的映射表
10-11Labeling ops = eval data ops:任务设计、IAA(κ/α)、Argilla 流水线市场转型(2026-01)标注-审核流水线设计 + IAA 计算样例
12-13数据集版本化与可复现:lakeFS(+DVC) vs Iceberg/Nessie;eval snapshot 进 CI 与审计lakeFS 收购 DVC(2025-11)🔨 golden set 扩容 + 版本化(golden_YYYY_MM,从 66 案例起步)
14-15Feature store→context store:演进史与 governed context store 设计Tecton→Databricks(2025-08)、Redis Iris(2026-05)mini-AgentCore 的 context store 接口设计
16-17Permission-aware retrieval:ACL 预过滤/查询时策略/IAM 实时校验谱系;participant-awarearXiv 2509.14608(2025-09)、工程共识(2026-05)🔨 /agent-platform 策略引擎拦截扩展到检索层(代码+测试)
18Freshness 治理:stale retrieval rate、重索引管道、freshness SLA + owner实践系列(2026-04)freshness 指标定义 + 度量方案
19-20GraphRAG 成本修正选型:full vs LazyGraphRAG vs LightRAG;查询类型路由GraphRAG 3.1.0(2026-05)、LazyGraphRAG(2024-11)选型决策树 + AML 场景判定
21Synthetic data 治理三角 + 金融域落地:MIA/AIA 验证、血缘FCA×ICO×Turing(2023-06 打底)、EDPB/NIST(2024-2026)AML 合成数据集的治理评估
22P1 收敛 + SOTA 复查🔨 检索层 permission/freshness eval 出数字入账

P2(D23-45)评测与发布的生产闭环 —— C7 从 offline 走向生产环

主题主线资料(日期)实战/产出
23-24Golden set 工程闭环:生产失败驱动、版本化、饱和与污染2026 实践共识golden set 刷新协议
25-26Judge 校准工程 I:κ vs ρ、gold set 标注协议κ≠ρ 反例(2026-04)🔨 真实 eval judge-κ 标注启动(用已有 cohensKappa 模块)
27-28Judge 校准工程 II:position/verbosity bias、cross-family、prompt registry + κ drift 告警arXiv 2604.27727(2026-04)judge 运维手册
29-30实战集中日🔨 真实 eval 扩 N≥100 复跑 + κ 数字落账(承接 AICAP gated 项)
31-32Eval-as-CI 统计工程:显著性、最小样本量、确定性 evaluator 分层Langfuse Code Evaluators(2026-05)eval gate 阈值的统计依据文档
33-34OTel GenAI semconv 1.40 落地:stable/Development 分层、多后端可移植semconv 1.40(2026-04)🔨 自建平台 instrumentation 按 semconv 改造(代码+测试)
35-37五门发布流水线与 shadow eval:双跑/采样/PII/成本控制/promotion criteria五门流水线(2026-04)🔨 shadow mode 最小装置(教学模拟+真实管线兼容)
38-39Canary 的 SLO 门:offline→online proxies 映射、观察窗、auto-rollback同上canary 门设计文档
40-41Online eval 抽样监控:10-20% 流量 judge 打分、行为漂移 vs 特征漂移实践收敛(2026-04)抽样评分方案
42-43Eval 平台 build-vs-buy:Langfuse/Braintrust/Phoenix/Weave 八维矩阵平台格局(2026-04/05)对标矩阵 + 私有化结论
44EDDO 参考架构整装:把 P2 组件组装成带反馈回路的架构arXiv 2411.13768(2024-11 打底)AML Copilot 的 EDDO 架构图
45P2 收敛 + SOTA 复查实战验收清单

P3(D46-68)可靠性×安全×成本 —— 补 C5(威胁建模/回滚)

主题主线资料(日期)实战/产出
46-47AI 事故分类学:五层定位 + action-level 事故Anthropic postmortem 精读(2025-09)、Replit 删库(2025-07)、Meta 越权(2026-03)事故分类法 + 精读笔记
48-49静默退化检测:「仪表盘全绿」问题、per-endpoint/tenant SLIAzure 事故(2026-03)、Datadog 数据(2026-02)静默退化检测清单
50-51AI SLO/error budget:质量 SLI 入 SLO、限流一等故障、自治度分层 on-callDatadog(2026-02)🔨 /aml-copilot 质量 SLI 定义 + 监控面板增量
52-53供应商韧性:multi-provider failover、brownout、混沌演练AWS us-east-1 级联(2025-10)依赖图 + 降级策略
54-55实战集中日🔨 incident runbook + AI postmortem 模板 + 一次 game day 演练记录
56-57GenAI FinOps/TokenOps:cost-per-successful-output、杠杆栈量化TokenOps(2026-05)🔨 单位成本实测落账(用 P2 真实 eval 日志)
58-59模型路由与级联:小模型分流、cascade、路由决策本身的 eval2026 实践路由策略 + 评测方案
60-61OWASP Agentic Top 10 2026 逐条映射 mini-AgentCore 控制点Top 10(2025-12)映射矩阵(控制点/缺口)
62-63架构级注入防御:CaMeL 最小复现;adaptive attacker 前提;lab 披露复算CaMeL(2025-03)、Attacker Moves Second(2025-10)、Opus 4.8 ASR(2026-05)🔨 CaMeL 式确定性策略层接入工具网关(代码+测试)
64-65Red-team 做成 CI 门禁:AgentDojo/AgentDyn、PyRIT/garak/Inspect工具栈综述(2026-06)🔨 red-team 套件 + ASR 基线数字入账
66-67MCP 2026-07-28 规范迁移 + agent 身份委托:OAuth 2.1/RFC 9728/8707;OBO/SPIFFE最终规范(2026-07-28,硬日期)、IETF 草案(2026-04)🔨 自建 MCP server 按最终规范迁移(代码+测试)
68P3 收敛 + SOTA 复查 + memory 防投毒/blast radius 补章OWASP T&M(2025-02)实战验收清单

P4(D69-90)证据叙事与作品收敛 —— 补 C13(defend 叙事)

主题产出
69-71Threat model + rollback plan 成文(C5 缺口闭合)AML Copilot/agent 平台威胁模型 + 回滚预案
72-74架构评审包 v2:C4 图更新 + 数据层/评测层/安全层各 1 个 ADRreview pack
75-77模拟答辩问答集(内容资产):CTO/CRO/CFO 视角 30 问 + 参考应答叙事30 问答集(可作自测材料)
78-80多受众 memo:同一 flagship 的 CEO/CFO/Risk 三版本memo ×3
81-84长文 ×3:①数据就绪与知识治理 ②评测生产闭环(带真实数字)③agent 安全纵深发布至 /papers
85-87知识图谱 + capstone evidence pack 汇编图谱 + evidence pack
88-89全计划 SOTA 总复查 + 硬日期复查(MCP 迁移验收、Art.50 生效后检查)复查记录
90收官:对照 Day 0 基线的证据清单 + 移交清单收官文档

4. 硬日期复查点

  • 2026-07-28:MCP 最终规范发布 → D66-67 迁移必须以正式文本为准;同步复查 AI_AGENT_PROTOCOLS_MCP_A2A_PLAYBOOK.md 与 papers/16 SOTA 段
  • 2026-08-02:EU AI Act Art.50(1)/(4) 生效 → P1 synthetic data/provenance 与 P4 合规叙事按生效后口径复查
  • OTel GenAI semconv:agent spans 处 Development 状态,D33-34 落地时按当周版本重验;每阶段末复查
  • 每阶段末(D22/45/68/90):SOTA 复查 + 2-3 天缓冲吸收滑期

5. KPI(硬性,全部外部可验证)

  • 90 篇 guided-path 笔记(docs/aiprod/,带日期引用 + SOTA 段),/learn/aiprod 可浏览
  • ≥12 个实战增量(🔨 项),每个 = 代码+测试 或 实测数字入账;测试套件全程保持绿
  • 真实 eval N≥100 + judge-κ 数字、单位成本实测、red-team ASR 基线(三组数字必须落到 docs/daily/AIPROD_PROGRESS.md
  • 3 篇长文发布 /papers + 30 问答集 + capstone evidence pack
  • 全程增量不删除;每篇笔记过质量标准 §8(含 §8.1 时效规则)stop rules

6. 与现有资产的关系

资产关系
AI_SYSTEMATIC_LEARNING_ROADMAP_2026.md配套阅读地图:其模块 2/4/8 与本计划 P1-P3 主题对应,自定节奏选读;不再作为对学习者的执行义务
docs/daily/AIROAD_PROGRESS.md可选自测工具(rubric 基线已确认 2026-07-01;复评可在 D90 后自愿进行)
AIPA-120 / AICAP-180 产物实战底座:/aml-copilot、/agent-platform、真实 eval 管线;AICAP 遗留 gated 项由 D29-30(N≥100+κ)、D56-57(成本)承接
ABPA-180与 P4 的 memo/评审包产出互引不重做;ABPA block 时序不变(本计划完成后串行)
174 papers / 172 playbooks深读池:每篇笔记文末给出配套深读链接

SOTA 检查 (2026-07-01)

  • 本计划全部主线锚点经 2026-07-01 WebSearch 核实(5 主题研究,见第 1 节日期列);快变主题(agent 安全/协议/eval 平台)半衰期 ~6 个月,按第 4 节复查点滚动重验。
  • 已知的时间敏感项:MCP 最终规范(2026-07-28)、EU AI Act Art.50(2026-08-02)、OTel agent spans stable 化(时间未定)、IETF agent 授权草案收敛(多草案并行中)。
  • 本文件每阶段末复查一次;下次整体复查 2026-10-01。