返回 Papers
AI 扩展计划 / Playbooks

AI DORA / SPACE Engineering Productivity SDLC Playbook

以下来源作为术语校准和方法锚点。正式项目必须按访问日期复核最新版本、机构政策、监管要求和内部控制边界。访问日期按 2026-06-29 记录。

1,228AI_DORA_SPACE_ENGINEERING_PRODUCTIVITY_SDLC_PLAYBOOK.md

AI DORA / SPACE Engineering Productivity SDLC Playbook

面向对象: AI PM、Product Architect、Engineering Productivity PM、Platform PM、DevEx Lead、AI Architect、Model Risk、Security Governance、金融零售技术管理者。 核心问题: 如何把 DORA、SPACE、AI code agents、PR gate、eval gate、release gate、安全质量和开发者体验组合成一套 AI 工程生产力 operating system。 使用方式: 用本文设计 AI SDLC 指标体系、code agent 治理、工程效率 dashboard、金融零售变更门禁、30 天训练计划和作品集材料。本文不讲基础敏捷或基础 DevOps, 重点训练 CBAP 之后的 AI 工程生产力、产品架构指标和治理能力。

重要说明: 本文是学习、架构设计和作品集材料, 不构成法律、监管、审计、模型验证或安全认证意见。金融零售正式项目必须由 business owner、engineering、security、privacy、legal、compliance、model risk、operational risk、internal audit 共同确认适用要求、审批权、证据保留和上线边界。


1. Source Anchors

以下来源作为术语校准和方法锚点。正式项目必须按访问日期复核最新版本、机构政策、监管要求和内部控制边界。访问日期按 2026-06-29 记录。

AnchorOfficial / primary source本手册使用方式
DORA official researchhttps://dora.dev/用 DORA 的软件交付绩效研究校准 throughput、stability、reliability、organizational performance 和 well-being 的关系。
DORA software delivery metricshttps://dora.dev/guides/dora-metrics/把 change lead time、deployment frequency、change fail rate、failed deployment recovery time、deployment rework rate 转成 AI SDLC 运营指标。
DORA research archivehttps://dora.dev/research/用 DORA core model 作为 AI 工程生产力不是单点工具 ROI 的论证基础。
SPACE developer productivity paper / ACM Queuehttps://queue.acm.org/detail.cfm?id=3454124用 Satisfaction, Performance, Activity, Communication and collaboration, Efficiency and flow 设计开发者生产力多维指标, 避免单一 activity 指标。
NIST SSDFhttps://csrc.nist.gov/Projects/ssdf用 Prepare the Organization、Protect the Software、Produce Well-Secured Software、Respond to Vulnerabilities 组织 AI-assisted SDLC 的安全控制和证据。
NIST SP 800-218A for Generative AIhttps://csrc.nist.gov/pubs/sp/800/218/a/final用 GenAI 和 dual-use foundation model 的 secure development profile 补强模型、数据、prompt、tool、供应链和获取方治理。
AI Engineering Productivity 与 Code-Agent Operating System Playbookdocs/AI_ENGINEERING_PRODUCTIVITY_CODE_AGENT_OPERATING_SYSTEM_PLAYBOOK.md本文不重复 agent 操作系统全量设计, 重点补上 DORA / SPACE 指标、经营节奏、金融零售案例和作品集表达。
AI MLOps Continuous Delivery Release Playbookdocs/AI_MLOPS_CONTINUOUS_DELIVERY_RELEASE_PLAYBOOK.md把 model / data / code / prompt release gate 接入本文的 AI SDLC metric operating system。
AI Requirements Engineering / GQM / Eval Contracts Playbookdocs/AI_REQUIREMENTS_ENGINEERING_GQM_EVAL_CONTRACTS_PLAYBOOK.md把 measurable outcome、GQM、eval contract 和 monitoring gate 接入 DORA / SPACE dashboard。
AI Observability / Cost / SLO Playbookdocs/AI_OBSERVABILITY_COST_SLO_PLAYBOOK.md把 trace、quality、cost、SLO、incident signal 接入生产反馈闭环。

Standards-to-artifacts:

Source lens可以产出的 artifact高级面试表达
DORAAI SDLC delivery performance dashboard、release flow metric tree、stability review“我不会只看 AI 生成了多少代码, 我会看变更是否更快、更稳、更容易恢复。”
SPACEDevEx survey、collaboration map、flow friction log、well-being guardrail“我把生产力视为社会技术系统, 不用单一 activity 指标评判个人。”
SSDFAI-assisted secure SDLC control map、PR security gate、vulnerability response playbook“AI code agents 不能绕过 secure development, 它们必须产生可审计证据。”
EvalOpsEval contract、regression suite、red-team case set、release blocker list“AI SDLC 的完成定义必须包含行为评估, 不只是代码合并。”
Product / Architecture metricsOutcome tree、architecture fitness function、platform adoption scorecard“工程生产力最终要连接客户结果、风险结果、平台复用和架构可演进性。”

2. One-Sentence Positioning

一句话定位:

DORA / SPACE for AI SDLC = 用 delivery performance、developer experience、AI evaluation、secure SDLC 和 product architecture metrics 构建一套可度量、可治理、可复盘、可改进的 AI 工程生产力 operating system。

它不是:

  • 用 story point 衡量 AI 项目产出。
  • 用代码行数证明 coding agent ROI。
  • 用 PR 数量证明开发者更高效。
  • 用工具 license 激活率证明组织完成 AI 转型。
  • 用一次 eval 分数替代上线后的质量和风险运营。

它要回答七个更高级的问题:

  1. AI 是否缩短了从业务意图到可控生产变更的时间。
  2. AI 是否降低了高风险变更的返工、事故和恢复成本。
  3. AI 是否让开发者更少等待、更少上下文切换、更容易进入 flow。
  4. AI 是否提升了需求、设计、测试、评审、文档和运行证据的一致性。
  5. AI code agents 是否在清晰权限、沙箱、门禁和审计边界内工作。
  6. AI eval gate 是否能在 PR、release 和生产监控中阻断不可接受风险。
  7. 工程效率提升是否能连接到金融零售的客户权益、运营风险、收入、成本、合规和架构演进。

Operating system 的核心闭环:

Business outcome
-> AI SDLC work design
-> code agent governance
-> PR / eval / release gate
-> production telemetry
-> DORA / SPACE dashboard
-> portfolio and governance evidence
-> operating review
-> next improvement bet

3. 为什么 AI PM / 架构师不能只看 story point

Story point 的问题不是“完全不能用”, 而是它回答的问题太窄: 团队对相对复杂度和容量的估计。AI SDLC 的核心风险却来自概率系统、工具代理、上下文质量、eval 覆盖、数据漂移、供应链、权限、生产行为和人机责任边界。只看 story point 会把最重要的系统性风险变成不可见成本。

只看 story point 的盲区AI SDLC 中的真实问题更高级的指标
点数完成但需求不清Agent 根据模糊 spec 生成大量错误实现Spec-to-eval completeness、requirement ambiguity defect rate
点数完成但 eval 不充分Happy path 通过, 边界、越权、幻觉、漂移未覆盖Eval coverage by risk tier、critical failure rate、red-team pass rate
点数完成但 PR 过大Reviewer 被 AI 生成 diff 淹没Review load、review turnaround、AI-generated rework ratio
点数完成但质量下降缺陷、返工、事故和客户影响后移到生产Change fail rate、deployment rework rate、escape defect rate
点数完成但安全证据不足Secret、依赖、license、PII、tool 权限没有证据SSDF control evidence completeness、security gate pass rate
点数完成但开发者体验变差Agent 产出需要大量清理, 认知负荷上升Flow interruption rate、perceived productivity、cognitive load score
点数完成但架构债增加快速生成局部代码, 破坏模块边界和演进能力Architecture fitness score、dependency risk、change coupling index
点数完成但业务无结果产出更多, 客户体验、风控、运营效率没有改善Business outcome contribution、risk-adjusted ROI、adoption quality

高级 AI PM / 架构师要从“产能管理”升级到“系统绩效管理”:

不是问: 这个 sprint 完成了多少点?
而是问:
  这个 AI-assisted flow 是否降低了端到端 lead time?
  是否维持或提升 stability?
  是否减少开发者等待和返工?
  是否把安全、质量、模型风险证据前置?
  是否让架构更可演进?
  是否对业务结果和风险结果有可解释贡献?

管理层表达:

Story point 可以辅助短期容量沟通, 但不能作为 AI 工程生产力的主指标。主指标应该是 DORA 的交付绩效、SPACE 的开发者体验和协作健康、EvalOps 的行为质量、安全治理证据、产品结果和架构可演进性共同组成的指标组合。


4. AI 工程生产力 Operating System

AI 工程生产力 operating system 不是 dashboard, 而是一套工作系统。Dashboard 只是可视化结果。真正的 operating system 包含目标、指标、流程、门禁、权限、证据、复盘和改进节奏。

4.1 七层模型

Layer核心对象关键问题典型 artifact
Outcome layer客户、收入、成本、风险、合规、员工体验为什么值得做, 成功如何定义Product outcome tree、risk-adjusted ROI memo
Flow layer从需求到生产的端到端流变更如何流动, 哪里等待和返工Value stream map、DORA dashboard
Work design layerSpec、ticket、design、task、review哪些工作适合 agent, 哪些必须人工判断AI work routing policy、task taxonomy
Agent governance layerAgent identity、权限、上下文、工具、沙箱Agent 能做什么, 不能做什么, 如何追责Agent permission matrix、audit log
Quality and safety layerTest、eval、security、privacy、model risk什么质量和风险证据能放行PR gate、eval gate、SSDF control map
DevEx layer满意度、flow、等待、认知负荷、协作开发者是否真的更高效、更可持续SPACE survey、friction backlog
Operating review layerWeekly、monthly、quarterly review指标如何驱动行动, 不是驱动表演Improvement bet register、decision log

4.2 参考架构

flowchart TB
  A[Business Outcome and Risk Appetite] --> B[AI SDLC Metric Tree]
  B --> C[Work Intake and Risk Tiering]
  C --> D[Code Agent Governance]
  D --> E[PR Gate]
  E --> F[Eval Gate]
  F --> G[Release Gate]
  G --> H[Production Telemetry]
  H --> I[DORA / SPACE / Quality Dashboard]
  I --> J[Operating Review]
  J --> K[Improvement Bets]
  K --> C

  E --> L[SSDF Evidence]
  F --> L
  G --> L
  H --> M[Incident and Learning Loop]
  M --> B

4.3 经营节奏

Cadence参与角色关注指标决策
Daily flow reviewTech lead、engineering manager、DevEx leadBlocked PR、failing eval、flaky test、agent task stuck、review queue age清障、拆分 PR、调整 agent scope
Weekly AI SDLC reviewPM、architect、engineering、QA、securityDORA trend、SPACE pulse、eval regression、rework、security gate failures选择本周一个 flow bottleneck 做改进
Monthly governance reviewPlatform、model risk、security、compliance、audit liaisonException aging、evidence completeness、incident trend、agent permission violations调整门禁、策略、证据要求和风险分级
Quarterly product architecture reviewProduct exec、CTO staff、enterprise architect、risk ownerBusiness outcome、platform adoption、architecture fitness、unit economics决定平台投资、架构债偿还、agent 扩围或收缩

5. DORA / SPACE 到 AI 的映射

5.1 DORA: 从软件交付绩效到 AI SDLC flow

DORA 的高级价值是把软件交付拆成速度和稳定性的张力, 避免“快”和“稳”被管理层误认为只能二选一。AI SDLC 要把这组指标扩展到 code、data、model、prompt、RAG index、tool schema、policy 和 eval 的联动变更。

DORA metric传统含义AI SDLC 映射AI 场景解释
Change lead time从 commit 到生产部署的时间从业务意图、spec、eval contract、agent work、PR、eval、release 到受控上线的时间不能只量代码 commit, 还要量 spec-to-eval 和 eval-to-release 的等待
Deployment frequency单位时间部署次数按风险等级统计 code / prompt / model / index / policy 的受控发布频率频率高不等于好, 高风险系统必须结合 release quality 和 rollback readiness
Change fail rate部署后需要立即干预的比例引发 rollback、hotfix、eval blocker、incident、客户影响或人工补救的 AI 变更比例包含行为回归、幻觉上升、错误工具调用、风控误判、RAG 引用错误
Failed deployment recovery time失败部署需要多久恢复从发现 AI 变更失败到降级、回滚、禁用工具、切回模型、恢复服务和完成沟通的时间AI 恢复可能是模型切换、prompt 回滚、index 回滚、规则兜底或 human-only mode
Deployment rework rate因生产事故触发的非计划部署比例因 AI 质量、安全、数据、prompt、模型、agent 行为问题导致的补丁和再发布比例反映 eval gate、PR review 和观测体系是否把问题前置

AI 扩展原则:

  1. 每个变更必须标记 artifact type: code、prompt、model、data、RAG index、tool schema、policy、agent config、infrastructure。
  2. 每个变更必须标记 risk tier: customer-facing、financial-impacting、regulated-decision、internal-copilot、developer-tooling。
  3. 每个指标必须能 drill down 到 team、service、repository、use case、risk tier 和 artifact type。
  4. 不把不同风险等级的系统简单平均; 核心银行和内部文档助手不能放在一个均值里解释。

5.2 SPACE: 从个人 activity 到社会技术系统

SPACE 的价值是提醒管理者: 开发者生产力不能被一个单一维度捕捉。AI code agents 会放大 activity 数据的误导性, 因为 AI 可以制造更多 commit、diff、comment 和 PR, 但这些 activity 未必代表更高生产力。

SPACE dimensionAI SDLC 中要问的问题推荐指标反向指标
Satisfaction and well-being开发者是否信任 agent, 是否减少低价值负担, 是否保持可持续节奏AI workflow satisfaction、perceived productivity、cognitive load score、after-hours recovery workAgent cleanup fatigue、review anxiety、policy confusion
Performance团队是否交付了更高质量业务结果Outcome achievement、defect escape rate、eval pass by risk tier、customer impact avoidedMore code with lower acceptance、quality erosion
Activity哪些活动量有解释价值Agent task completed、test generated and accepted、docs updated with evidence、review comments resolvedLines of code、raw prompt count、individual commit count
Communication and collaborationAI 是否改善跨角色协作Spec-review alignment、PR review routing accuracy、architecture decision traceability、security issue resolution timeAI-generated ambiguity、review ping-pong、shadow changes
Efficiency and flow端到端流是否更顺畅Flow time、wait time、blocked time、build and eval queue time、context switching countPR queue aging、flaky eval reruns、agent stuck loops

高级原则:

DORA 看系统是否更快更稳。
SPACE 看人和团队是否更可持续、更协作、更少摩擦。
EvalOps 看 AI 行为是否达到可接受质量。
SSDF 看安全和供应链控制是否前置。
Product / architecture metrics 看工程效率是否产生业务和长期架构价值。

5.3 DORA + SPACE 的组合视图

经营问题DORA 信号SPACE 信号AI 质量信号可能行动
Lead time 下降但 fail rate 上升Change lead time 改善, change fail rate 变差Review burden 上升Critical failure 上升收紧 eval gate, 限制 agent 可改范围, 拆小 PR
Deployment frequency 上升但业务无改善部署次数上升开发者满意度无提升Eval pass 稳定重新连接 product outcome, 停止 vanity release
Stability 改善但 flow 变慢Fail rate 下降, recovery 改善Wait time 和认知负荷上升Eval queue aging优化平台自助、并行 eval、风险分层 gate
Agent adoption 高但满意度低DORA 无明显改善Cleanup fatigue 上升Agent rework 高调整任务路由, 提升上下文质量, 停用低价值 workflow
核心系统变更慢但很稳Lead time 长, fail rate 低Review queue pressure 高Eval coverage 高不盲目追频率, 优化 waiting 和证据自动化

6. AI SDLC Metrics Taxonomy

AI SDLC 指标体系必须同时覆盖结果、流动、质量、安全、体验、架构和治理。单独看任何一类都会制造局部优化。

6.1 Metric tree

AI engineering productivity
  -> Product and risk outcomes
  -> Delivery flow performance
  -> AI behavior quality
  -> Security and compliance posture
  -> Developer experience and collaboration
  -> Code agent effectiveness
  -> Architecture and platform health
  -> Governance evidence and operating cadence

6.2 Product and risk outcomes

Metric定义适用场景解释方式
Business outcome contributionAI-assisted SDLC 交付对目标业务指标的贡献客服 RAG、风控模型、AI 平台不能只归因给 AI 工具, 要结合对照组、阶段性发布和业务基线
Risk-adjusted ROI节省成本或提升收入减去风险控制、返工、事故和治理成本金融零售 AI 平台投资高 ROI 必须同时通过风险和质量门禁
Customer impact avoided通过 gate、监控或回滚避免的客户影响核心银行、支付、贷款、客服适合向高管解释稳定性价值
Operational loss reduction事故、人工补救、错误处理、投诉和罚损减少风控、客服、运营 copilot需要和业务运营数据连接
Compliance evidence readiness上线证据是否支持合规、审计和模型风险问询受监管流程不是文档数量, 而是证据可追溯性和完整性

6.3 Delivery flow metrics

MetricDefinitionAI-specific breakdown
Intent-to-production lead time从业务意图记录到生产上线的总时间discovery、GQM、eval design、implementation、review、release
Spec-to-eval lead time从需求确认到 eval contract 可运行的时间需求清晰度和评估前置程度
Agent task cycle timeAgent 从任务接收、修改、测试到 PR ready 的时间按任务类型、仓库、agent 类型拆分
Review turnaroundPR ready 到 review decision 的时间AI-generated PR 应单独标记
Eval queue time进入 eval 到 gate result 的时间长队列会抵消 agent 速度
Release waiting timeGate 通过到生产发布的等待时间区分控制性等待和无价值等待
Rework loop count同一变更经历的 spec、code、eval、review 循环次数高循环数表示上下文或门禁设计问题

6.4 AI behavior quality metrics

MetricDefinitionRisk note
Eval pass rate by risk tier不同风险等级 eval suite 的通过率高风险用例不能被低风险均值掩盖
Critical failure rate触发 no-go 的严重失败占比例如错误财务建议、PII 泄露、越权工具调用
Groundedness score输出是否被允许知识源支持客服 RAG、政策助手、合规问答必备
Answerability accuracy系统是否知道何时不能回答防止强答和幻觉
Tool call correctness工具调用参数、权限、顺序和结果处理是否正确Agentic workflow 核心指标
Calibration error模型信心与实际正确性的偏差高风险建议必须管理过度自信
Regression escape raterelease 后才发现的行为回归比例反映 eval coverage 和监控质量
Human override rate人工拒绝、修改或覆盖 AI 输出的比例高并不总是坏, 需要结合风险和学习信号解释

6.5 Security and quality metrics

MetricSSDF lensAI-specific use
Security requirement traceabilityPO / PW安全要求是否连接到 PR gate、eval case 和证据
Secret exposure preventedPS / PWAgent 读取和写入时是否阻断 secret 泄露
Dependency risk agingPS / RVAI 生成或更新依赖后的漏洞、license 和供应链风险老化天数
Secure coding gate pass ratePWSAST、SCA、IaC、policy-as-code、threat model 检查通过情况
Vulnerability response timeRV从发现到修复、回归和发布的时间
Provenance completenessPSrelease artifact、model、dataset、prompt、index、agent config 的来源完整性
Prompt injection defense pass ratePW / RVRAG、tool agent 和客服系统的攻击用例通过率
PII leakage detection ratePW / RV测试和线上监控中敏感信息泄露识别能力

6.6 Code agent effectiveness metrics

MetricDefinitionInterpretation
Agent acceptance rateAgent 产出被人类接受并进入主干的比例需要按任务复杂度和风险等级解释
Human intervention density每 100 行或每个任务需要人工修正的次数太高说明 agent scope、上下文或 prompt 不成熟
Review delta sizeReviewer 要求修改的 diff 占原 diff 比例高 delta 表示初稿质量不足
Test validity rateAgent 生成测试中被保留且能捕捉真实缺陷的比例防止无意义测试刷覆盖率
Context retrieval precisionAgent 使用的上下文是否相关和最新影响 spec-to-code 和 bugfix 质量
Tool error rateAgent 调用工具失败、越权或错误解释结果的比例高风险 agent 必须硬门禁
Agent rollback contribution由 agent 辅助修复事故或生成回归测试的有效次数衡量恢复能力, 不是只衡量写新代码
Unauthorized action attemptAgent 尝试访问未授权 repo、secret、环境或工具的次数任何高严重度事件都应进入治理复盘

6.7 Developer experience metrics

MetricDefinitionCollection method
Perceived productivity开发者认为 AI workflow 是否提升有效产出Monthly pulse survey
Cognitive load score理解 agent 产出、门禁、上下文和证据的负荷Survey + interview
Flow interruption count每日因等待、失败、权限、工具、review 被打断次数DevEx diary + telemetry
Review burden indexReviewer 的 PR 量、diff size、风险复杂度和上下文缺失综合指数Code review telemetry
Trust calibration开发者对 agent 结果信任是否与实际质量匹配Survey + acceptance data
Onboarding time to first safe AI PR新成员能安全使用 AI workflow 产出合格 PR 的时间Training and platform logs
Policy clarity score开发者是否知道哪些数据、系统、任务可用 AISurvey + policy quiz

6.8 Product / architecture metrics

MetricDefinitionWhy it matters
Platform reuse rateAI SDLC 平台组件被多个团队复用的比例证明平台能力不是单团队脚本
Golden path adoption团队通过标准 pipeline、eval、gate、evidence 发布的比例反映平台化和治理内嵌程度
Architecture fitness score模块边界、可测试性、可观测性、依赖方向、回滚能力的综合评估防止 agent 生成代码侵蚀架构
Change coupling index一个业务变更需要改动多少模块、服务、prompt、schema、policy高耦合会拖慢 lead time 和恢复速度
Blast radius score变更失败影响的客户、交易、流程和系统范围金融零售 release gate 的关键输入
Cost per successful AI-assisted change每个成功生产变更的工具、模型、算力、review、返工成本用于平台投资和模型路由决策
Eval asset reuseEval dataset、rubric、judge、red-team cases 被复用次数证明 eval 工程资产化
Documentation freshness架构、runbook、API、policy 与代码和 production reality 的一致性DORA 研究中高质量内部文档对技术能力有放大作用

6.9 Governance metrics

MetricDefinitionDecision
Evidence binder completeness每次 release 是否具备 scope、risk tier、eval、security、approval、rollback、monitoring 证据低于阈值不得进入高风险生产
Exception aging门禁例外从批准到关闭的天数老化例外进入治理会
Gate override rate人工绕过或豁免 gate 的比例上升说明 gate 设计或交付压力存在问题
Policy violation rateAI 使用、数据、权限、工具调用违反政策的次数需要按严重度处理
Model / agent change review coverage模型、agent prompt、tool permission、eval judge 更新是否评审防止无治理的行为变化
Post-incident learning closure事故后回归测试、eval case、runbook 和架构改进是否关闭防止只写复盘不改系统

7. Code Agent Governance

Code agent governance 的核心不是限制工具, 而是把 agent 变成可授权、可评估、可撤销、可审计的工程参与者。金融零售环境不能接受“AI 生成代码但无人负责”的叙事。

7.1 Governance control model

ControlRequired designEvidence
Agent identity每个 agent 有独立身份、版本、owner、scope 和运行环境Agent registry
Task authorization任务进入 agent 前完成风险分级、仓库范围、工具范围和数据范围确认Agent work order
Context governanceAgent 只读取授权上下文, 且上下文来源可追溯Context pack manifest
Tool permissionAgent 工具权限最小化, 生产写入默认禁止Tool permission matrix
Branch and PR policyAgent 只能在授权分支工作, 必须通过 PR 合并Branch protection logs
Secret and data protectionSecret、PII、PCI、客户资料、模型密钥不得暴露给未授权 agentDLP and secret scan report
Sandboxed execution测试、构建、脚本运行在隔离环境, 生产凭证不可见Sandbox execution logs
Human accountability每个 agent PR 有 human owner, 高风险变更有 named approverPR approval record
Eval and test gateAgent 产出必须通过对应风险等级的测试和 evalCI and eval report
AuditabilityPrompt、task、diff、tool call、test result、approval、release 决策可回放Audit trail
RevocationAgent、模型、工具、凭证、上下文源可快速停用Revocation runbook

7.2 Agent task taxonomy

Task typeAgent fitRequired controlsHuman role
Test generation for existing behaviorHighTest validity review、mutation or bug-seeding check确认真正覆盖风险
Documentation syncHighSource trace、architecture owner review确认可运行事实和边界
Low-risk UI or internal tooling changeMedium-highCI、visual check、accessibility、owner review评估用户体验和维护性
Refactoring in well-tested moduleMediumRegression suite、diff size limit、architecture check控制边界和回滚
Security fix draftMediumSAST/SCA、threat model、security review判断修复是否完整
Core banking business rule changeLow-mediumFormal spec、dual approval、full regression、release gate人工承担业务和风险判断
Fraud model decision logicLow-mediumModel validation、champion-challenger、bias and drift monitoring风险 owner 和模型风险有效挑战
Production incident hotfixContext-dependentWar room approval、short-lived scope、post-incident regression人类指挥, agent 只做辅助
Direct production data actionVery low默认禁止, 只允许只读诊断或受控 runbook人工执行或强审批

7.3 RACI for AI-assisted PR

ActivityProduct ownerArchitectDeveloperCode agentSecurityModel riskRelease manager
Define outcome and risk tierACCICCI
Prepare context packCARICCI
Generate implementation draftICARIII
Run tests and evalICARCCI
Review design impactCARICCI
Review security impactICRIACI
Review model / AI behavior riskCCRICAI
Approve releaseCCCICCA
Own production outcomeACRICCC

RACI 记忆:

Agent can be Responsible for producing a draft.
Agent cannot be Accountable for business, security, architecture, model risk, or production outcomes.

8. PR / Eval / Release Gate

Gate 的目的不是增加审批层, 而是在正确的位置把风险证据前置。AI-assisted SDLC 的 gate 必须同时管理 code correctness、AI behavior、security、privacy、architecture、operability 和 business risk。

8.1 Risk-tiered gate model

TierExampleAI involvement allowedRequired gate
Tier 0: Experimental / labInternal prototype、non-production notebookAgent 可自由辅助, 禁止生产数据Basic test、data handling check
Tier 1: Internal productivityDeveloper tool、internal docs assistant、non-customer workflowAgent 可开 PR, 人工 reviewCI、PR template、security scan、light eval
Tier 2: Customer-facing non-decisionCustomer service RAG draft、FAQ assistantAgent 可改 code / prompt / tests, 高风险内容人工 reviewPR gate、RAG eval、PII check、red-team、canary
Tier 3: Financial / regulated decision supportFraud triage、credit policy assistant、dispute recommendationAgent 可辅助测试、文档、低风险代码, 核心逻辑强人工责任Formal eval、model risk review、security sign-off、release memo
Tier 4: Core transaction / ledger / account authorityCore banking posting、limit change、payment executionAgent 默认只做辅助分析、测试建议、文档更新Dual control、full regression、change advisory evidence、rollback drill

8.2 PR gate

PR gate 回答: 这次变更是否足够小、足够清楚、足够可审查、足够可测试、足够安全。

Required checks:

CheckGate questionRelease blocker example
Scope clarityPR 是否说明业务目标、风险等级和变更边界“优化 AI”但没有具体行为或流程边界
AI involvement disclosure哪些部分由 agent 生成、修改、测试或总结高风险 PR 未披露 agent 修改
Diff size and couplingPR 是否过大或跨过多边界核心服务、prompt、policy、schema 同时修改但无分解
Test adequacy单元、集成、contract、regression 是否覆盖风险路径只新增 happy path
Eval linkageAI 行为变化是否连接到 eval case 和 thresholdPrompt 改动无 RAG / safety eval
Security scanSecret、dependency、license、SAST、IaC 是否通过新增高危依赖或 secret
Architecture review是否破坏模块边界、API contract、observability、rollbackAgent 绕开现有 domain service
Evidence readinessPR 是否产生 release 所需证据无 owner、无 rollback、无 monitoring plan

8.3 Eval gate

Eval gate 回答: 这次变更后的 AI 行为是否在风险边界内可接受。

Eval typePurposeExample threshold
Functional eval核心任务是否完成Tier 2 任务成功率不低于当前生产基线
Regression eval既有能力是否退化关键场景不允许 critical regression
Safety eval越权、泄露、危险建议是否被拒绝Critical failure 为 0
Grounding eval回答是否有允许来源支持客服 RAG 高风险政策类回答必须引用有效来源
Tool eval工具调用是否正确、最小权限、可恢复金融动作默认 require human confirmation
Bias / fairness eval风控、信贷、营销是否存在不合理差异模型风险阈值按机构政策定义
Robustness eval对 prompt injection、噪声、缺失信息是否稳健注入攻击不得绕过系统指令和工具权限
Human review eval人工专家评估是否支持上线高风险样本必须有专家抽检

Eval decision:

DecisionMeaningAction
Go指标达到风险等级要求, 无未关闭 blocker进入 release gate
Limited go低风险场景可放量, 高风险场景关闭或人工兜底Canary、feature flag、monitoring trigger
No-go存在 critical failure、证据缺失或风险无法解释修复后重跑 eval
Rollback / freeze生产信号表明当前版本不可接受回滚、降级、事故复盘

8.4 Release gate

Release gate 回答: 即使 PR 和 eval 通过, 这次生产发布是否具备可控放量、监控、回滚和问责条件。

Gate areaRequired evidence
Release bundleCode、prompt、model、data、RAG index、tool schema、policy、agent config 的版本清单
Risk tier业务影响、客户影响、财务影响、监管影响、operational risk
Eval resultOffline eval、red-team、regression、human review、已知限制
Security and privacySSDF controls、SAST/SCA、DLP、PII、secret scan、threat model
Architecture and operabilityRollback path、observability、SLO、runbook、feature flag、blast radius
Deployment strategyShadow、canary、ramp、manual approval、business freeze window
Decision ownerBusiness owner、technical owner、risk owner、release owner
Monitoring trigger什么信号触发 pause、rollback、human-only mode、incident

8.5 Gate anti-theater principle

Gate is useful only when it changes a release decision.
If a gate cannot block, limit, route, rollback, or improve a change,
it is governance theater.

9. Safety, Quality and Developer Experience

AI 工程生产力的核心张力是: 更快的交付不能通过把质量、安全和认知负荷转嫁给 reviewer、QA、operations、客户服务或合规团队来实现。

9.1 Safety and quality control stack

Control layerAI SDLC useOwner
Requirement and eval contract把业务边界、禁止行为、评估问题前置Product / BA / model risk
Secure coding and supply chain管理依赖、secret、license、SAST、SCA、IaC、provenanceEngineering / security
Agent sandbox and permissions控制 agent 可读写范围、工具调用和环境Platform / security
PR review判断可维护性、架构影响、业务规则和代码质量Developer / architect
AI behavior eval验证回答、推理、工具调用、安全边界和回归EvalOps / model risk
Release control控制放量、回滚、监控和证据Release manager / SRE
Production monitoring发现漂移、攻击、质量下降、成本异常和客户影响SRE / product ops
Incident learning把事故转成回归测试、eval case、runbook 和架构改进Cross-functional owner

9.2 DevEx as a control surface

开发者体验不是福利指标, 而是 AI SDLC 的控制面。体验差会导致绕过平台、复制敏感数据、手工清理 agent 产出、跳过 eval、积累架构债。

DevEx signalIndicatesAction
开发者说 agent “快但不可信”Agent scope 或上下文质量问题缩小任务类型, 建 context pack, 增加 eval feedback
Reviewer 说 PR “看不懂”PR 粒度和证据不足限制 diff size, 强制 design note 和 risk note
Eval 经常排队平台瓶颈抵消 AI 速度并行化 eval, 风险分层, 缓存数据集
Policy 让人困惑治理语言不可执行改成 allowed / restricted / prohibited task catalog
Agent 产出大量清理工作Activity 增加但 performance 下降停止以生成量奖励工具, 看 acceptance 和 rework
高风险团队拒绝采用门禁或平台不匹配业务风险共同设计核心系统 golden path

9.3 Quality economics

AI code agents 改变了成本曲线:

生成成本下降
review 和验证成本可能上升
缺陷进入生产的边际风险可能上升
高质量 eval 和平台自动化的投资回报上升

因此 ROI 不能写成:

ROI = saved developer hours - tool license

更合理的表达:

Risk-adjusted productivity ROI =
  reduced lead time value
  + avoided rework and incident cost
  + developer flow improvement
  + platform reuse value
  + quality evidence automation value
  - AI tooling and model cost
  - review and eval cost
  - governance and training cost
  - residual risk cost

10. 金融零售案例

10.1 核心银行变更: 账户限额规则调整

场景:

某银行需要调整企业账户日累计转账限额规则。变更涉及核心银行服务、渠道 API、风控校验、审计日志、客服解释话术和回滚预案。

AI SDLC design:

AreaDesign
Risk tierTier 4: core transaction / account authority
Agent role读取 spec、生成测试用例、更新文档、辅助差异分析; 不直接决定业务规则
DORA focusChange lead time、failed deployment recovery time、deployment rework rate
SPACE focusReview burden、flow interruption、communication alignment
Eval focus边界金额、币种、渠道、客户类型、异常状态、并发、审计日志一致性
PR gate小 PR, 规则变更与 UI / 文档分离, dual approval
Release gateFreeze window、canary by segment、feature flag、ledger reconciliation、rollback drill
EvidenceRule source、decision log、test matrix、security scan、approvals、monitoring triggers

Metric tree:

OutcomeMetricTarget interpretation
不增加客户交易失败风险Limit rule defect escape rate任何财务影响缺陷进入 incident review
缩短受控变更周期Intent-to-production lead time优化等待和证据自动化, 不牺牲 gate
降低恢复成本Recovery drill success能在定义时间内切回旧规则和解释客户影响
降低 reviewer 负担Review burden indexAgent 生成 test matrix, 人工聚焦业务判断

高级表达:

对核心银行变更, AI 的价值不是让 agent 直接改核心账务逻辑, 而是把需求追踪、边界测试、影响分析、审计证据和回滚准备自动化, 让人工把注意力放在规则正确性和生产风险上。

10.2 风控模型: 欺诈交易评分模型升级

场景:

风控团队升级交易欺诈模型, 目标是减少 false negative, 同时控制 false positive 对客户体验和运营审核队列的影响。

AI SDLC design:

AreaDesign
Risk tierTier 3: financial / regulated decision support
Agent role生成 feature validation、监控 query、model card 初稿、回归测试; 不替代模型风险审批
DORA focusChange lead time for model promotion、change fail rate、deployment rework rate
SPACE focusCollaboration between data science、risk、engineering、operations
Eval focusPrecision / recall、false positive cost、segment performance、drift、calibration、override review
PR gateFeature schema、data lineage、model artifact、decision policy 分开审查
Release gateChampion-challenger、shadow mode、manual override、ramp by transaction segment
EvidenceTraining data snapshot、feature validation、bias analysis、threshold rationale、monitoring plan

Metric tree:

OutcomeMetricTarget interpretation
降低欺诈损失Fraud loss avoided必须扣除误拦截和运营成本
控制客户摩擦False positive rate by segment某客群异常上升触发 limited go 或 rollback
提高模型发布可控性Model promotion lead time关注数据、验证、审批和 release 等待
保持可解释问责Evidence binder completeness缺少 lineage 或 threshold rationale 不放行

高级表达:

风控模型的工程生产力不是“更快训练新模型”, 而是让模型变更以可解释、可验证、可监控、可回滚的方式进入生产决策链。

10.3 客服 RAG: 信用卡争议处理知识助手

场景:

客服团队使用 RAG 助手回答信用卡争议处理流程、时限、所需材料和升级条件。系统不直接对客户做最终裁决, 但会影响客服建议和客户权益。

AI SDLC design:

AreaDesign
Risk tierTier 2: customer-facing non-decision, 部分场景接近 Tier 3
Agent role维护 eval cases、生成知识库差异摘要、更新引用检查、改进 prompt
DORA focusPrompt / index change lead time、deployment frequency、change fail rate
SPACE focusCustomer service SME collaboration、developer flow、policy clarity
Eval focusGroundedness、citation validity、answerability、PII handling、prompt injection、escalation correctness
PR gateKnowledge source diff、prompt diff、retrieval config diff 必须清晰
Release gateCanary by agent group、human review sampling、safe fallback、content freeze rule
EvidenceSource document version、index build ID、eval result、red-team result、sampling plan

Metric tree:

OutcomeMetricTarget interpretation
提升一次解决率First contact resolution uplift不能以错误回答换取速度
降低错误政策引用Invalid citation rate高风险政策类问题必须硬门禁
降低客服认知负荷SME correction rate and survey高修正率表示 RAG 质量或流程边界问题
提高知识更新速度Source-to-index lead time发布频率必须和 grounding quality 一起看

高级表达:

客服 RAG 的 release gate 不只验证回答是否流畅, 而是验证回答是否可引用、可拒答、可升级、可监控, 并且不会泄露客户信息或误导客户权益。

10.4 AI 平台: 企业 code agent 和 eval 平台

场景:

金融零售集团建设统一 AI engineering platform, 支持多个产品团队使用 code agents、eval suites、policy-as-code、evidence binder 和 DORA / SPACE dashboard。

AI SDLC design:

AreaDesign
Risk tier平台本身 Tier 1-2, 但承载 Tier 3-4 系统
Agent role标准化 task intake、context pack、PR creation、test running、evidence generation
DORA focusGolden path adoption、lead time reduction、deployment rework rate
SPACE focusPlatform satisfaction、onboarding time、flow interruption、policy clarity
Eval focusAgent task benchmark、repo-specific regression、security prompt-injection cases
PR gatePlatform changes 需要 backward compatibility 和 tenant isolation review
Release gateDogfood、pilot teams、canary by repository, rollback by agent policy version
EvidenceAgent registry、policy version、permission logs、eval result、incident learning

Metric tree:

OutcomeMetricTarget interpretation
提升安全 AI 开发采用Golden path adoption采用率必须结合满意度和质量, 不能强推
降低团队重复建设Platform reuse rate重复脚本下降和共享 eval assets 上升
控制 agent 风险Unauthorized action attempt高严重度事件触发权限收缩
改善开发者流动效率Flow interruption reduction证明平台减少等待和上下文切换

高级表达:

AI 平台不是工具集合, 而是把 agent 权限、eval、release gate、安全证据和 DORA / SPACE 经营视图产品化, 让业务团队可以在受控边界内更快交付。


11. Templates

以下模板给出可直接改写的示例内容。正式项目应替换为机构内部真实 owner、系统名、风险等级、指标阈值和证据要求。

11.1 AI SDLC Metric Tree Canvas

# AI SDLC Metric Tree: Customer Service RAG v3

## Business Outcome
- Increase first-contact resolution for credit-card dispute inquiries from 62% to 70% in the pilot group.
- Reduce policy-escalation errors from 4.8% to below 2.0%.
- Keep customer-impacting incorrect guidance incidents at zero during pilot.

## Risk Tier
- Tier 2 for general process explanation.
- Tier 3 for dispute eligibility, deadline, fee, refund, chargeback and regulatory wording.

## DORA Metrics
- Prompt / index change lead time: source document approved to canary release.
- Deployment frequency: controlled prompt, retrieval config and index releases per week.
- Change fail rate: releases requiring rollback, hotfix, content freeze or human-only mode.
- Failed deployment recovery time: detection to safe fallback and stakeholder communication.
- Deployment rework rate: unplanned releases caused by production quality or safety issues.

## SPACE Metrics
- Satisfaction: customer service SME trust score and developer perceived productivity.
- Performance: valid citation rate, escalation correctness, first-contact resolution.
- Activity: accepted eval cases added, evidence packs generated, canary reviews completed.
- Communication: policy owner response time and PR review routing accuracy.
- Efficiency and flow: source-to-index wait time, eval queue time, review turnaround.

## AI Quality Metrics
- Groundedness for policy answers.
- Answerability accuracy for insufficient context.
- Prompt injection defense pass rate.
- PII leakage detection and prevention.
- Human correction rate by intent category.

## Governance Evidence
- Source document version map.
- Index build manifest.
- Eval result and red-team result.
- Security and privacy scan report.
- Release decision memo.
- Monitoring trigger and rollback runbook.

11.2 DORA / SPACE Dashboard Spec

# Dashboard Spec: AI Engineering Productivity Operating Review

## Audience
- CTO staff, AI platform PM, engineering managers, DevEx lead, security governance, model risk liaison.

## Decisions Supported
- Which AI SDLC bottleneck receives the next platform investment.
- Which agent workflows are expanded, constrained or retired.
- Which high-risk systems need stricter gates or better automation.
- Which DevEx friction items block adoption.

## Filters
- Business domain: core banking, fraud, customer service, AI platform.
- Risk tier: Tier 0 to Tier 4.
- Artifact type: code, prompt, model, data, RAG index, tool schema, policy, agent config.
- Team, repository, service, release train, agent type.

## Executive Tiles
- Intent-to-production lead time by risk tier.
- Change fail rate and deployment rework rate by artifact type.
- Failed deployment recovery time by service and release.
- Eval critical failure rate by use case.
- Evidence binder completeness by release.
- Developer flow interruption index.
- Agent acceptance rate and human intervention density.
- Platform golden path adoption and reuse rate.

## Drill-Down Views
- PR queue aging and review burden.
- Eval queue aging and failing eval categories.
- Security gate failures by SSDF control group.
- Agent permission violations and tool error rate.
- Architecture fitness trend and change coupling index.
- Incident learning closure and regression coverage added.

## Operating Cadence
- Daily team flow review for blocked PR, eval queue and review aging.
- Weekly AI SDLC review for improvement bets.
- Monthly governance review for exceptions and policy changes.
- Quarterly platform investment review for architecture and adoption decisions.

11.3 Code Agent Work Order

# Code Agent Work Order: Add Regression Tests for Dispute RAG Citation Validation

## Objective
- Add regression tests that verify dispute-policy answers cite the approved source document and refuse to answer when the source is missing.

## Risk Tier
- Tier 2, with Tier 3 handling for deadline, refund, fee and chargeback eligibility questions.

## Authorized Scope
- Repository: customer-service-rag.
- Paths: tests/eval/dispute_policy, docs/eval-cases/dispute_policy.
- Branch: agent/dispute-citation-regression.
- Tools: read files, edit files, run unit tests, run local eval subset.
- Prohibited: production credentials, customer data, deployment commands, changing retrieval config.

## Context Pack
- Product requirement: dispute-policy-answerability-v3.
- Eval contract: dispute-rag-eval-contract-v3.
- Source documents: approved policy package 2026-06.
- Existing failures: invalid citation in deadline questions and over-answering on missing evidence.

## Required Output
- Regression eval cases for valid citation.
- Negative cases for missing source.
- Test execution report.
- PR summary with AI assistance disclosure and risk notes.

## Human Review
- SME reviews policy examples.
- Developer reviews test design and maintainability.
- Security reviews no customer data or sensitive content is embedded.

11.4 PR / Eval / Release Gate Memo

# AI-Assisted Release Gate Memo: Customer Service RAG v3.4

## Decision
- Limited go for pilot group A.
- Human-only fallback remains active for dispute eligibility and refund commitment questions.

## Change Identity
- Artifact types: prompt, RAG index, eval dataset, service code.
- Release bundle: service 3.4.0, prompt 2026-06-29.1, index build dispute-20260629-a, eval suite dispute-rag-v3.
- Risk tier: Tier 2 general, Tier 3 for customer-rights sensitive intents.

## AI Involvement
- Code agent generated regression eval cases and PR summary.
- Human developer modified retrieval guardrail code.
- SME approved policy examples.
- Security reviewed prompt injection and PII cases.

## DORA / SPACE Context
- Source-to-index lead time reduced from 6.2 days to 3.1 days for pilot changes.
- Review burden remained stable because PRs were split by artifact type.
- Eval queue time increased by 18%, with action to parallelize grounding checks.

## Eval Results
- Groundedness improved from 91.4% to 96.2% on dispute policy questions.
- Invalid citation critical failures: 0 in the release suite.
- Prompt injection defense passed all high-risk cases.
- Answerability for missing-source questions improved from 82.0% to 93.5%.

## Security and Privacy
- Secret scan passed.
- PII leakage tests passed.
- Retrieval source access limited to approved policy documents.
- No production customer data used in eval.

## Release Controls
- Canary to pilot group A for 10% traffic.
- Monitor invalid citation, SME correction, escalation error and complaint tags.
- Rollback path: revert prompt and index build; activate human-only mode for Tier 3 intents.

## Approval
- Product owner approved customer service pilot scope.
- Engineering owner approved operability.
- Security approved privacy and prompt injection controls.
- Model risk liaison accepted limited go with monitoring triggers.

11.5 Evidence Binder Index

# Evidence Binder Index: Fraud Model Feature Release 2026-06

## Release Identity
- Use case: real-time card fraud scoring.
- Release bundle: feature schema 14.2, model fraud-xgb-202606, scoring service 8.7.1.
- Risk tier: Tier 3 financial decision support.

## Business and Risk Evidence
- Business case and expected fraud loss reduction.
- False positive cost analysis by customer segment.
- Operational review capacity assessment.
- Customer impact analysis and escalation path.

## Technical Evidence
- Training data snapshot and lineage.
- Feature validation report.
- Model evaluation and calibration report.
- Regression suite result.
- Shadow mode comparison report.
- Monitoring and rollback runbook.

## Security and SSDF Evidence
- Secure coding scan result.
- Dependency and license report.
- Secrets and data handling checks.
- Artifact provenance manifest.
- Vulnerability response plan.

## Governance Evidence
- Model risk review notes.
- Product approval.
- Security approval.
- Release manager decision.
- Exception register with expiry dates.
- Post-release monitoring summary.

11.6 DevEx Friction Log

# DevEx Friction Log: AI SDLC Pilot

## Observation
- Reviewers spend too much time reconstructing agent context for medium-risk PRs.

## Evidence
- Review turnaround increased from 14 hours to 28 hours for AI-generated PRs.
- 42% of review comments ask for missing rationale, test explanation or risk note.
- Developer survey cognitive load score is 3.1 out of 5, where 5 means high load.

## Impact
- Agent coding speed is not translating into end-to-end lead time improvement.
- Senior reviewers are overloaded by context reconstruction.

## Product Bet
- Add mandatory context pack manifest and AI assistance disclosure to PR template.
- Limit agent PR diff size for Tier 2 and above.
- Auto-link eval result, test result and risk tier in PR summary.

## Success Signal
- Review turnaround returns below 18 hours.
- Context-related review comments drop below 15%.
- Developer cognitive load score improves below 2.5.

12. 评审清单

12.1 AI SDLC metric design checklist

  • 指标是否从业务结果和风险结果倒推, 而不是从工具遥测倒推。
  • DORA 指标是否按 service、risk tier、artifact type 拆分。
  • SPACE 指标是否覆盖满意度、绩效、活动、协作、效率和 flow。
  • 指标是否避免用于个人排名。
  • 是否定义了每个指标的解释规则和错误解释风险。
  • 是否包含 eval、security、architecture、DevEx 和 governance 指标。
  • 是否能从 dashboard drill down 到 PR、eval、release、incident 和 evidence。
  • 是否为高风险系统设置独立阈值和评审节奏。

12.2 Code agent governance checklist

  • Agent 是否有 identity、owner、version、scope 和 revocation path。
  • 任务是否先完成风险分级和授权范围定义。
  • Agent 是否只能读取授权上下文。
  • Tool permission 是否最小化。
  • Secret、PII、PCI、客户数据和生产凭证是否默认不可见。
  • Agent PR 是否强制 human owner。
  • 高风险变更是否有架构、安全、模型风险或业务 owner 评审。
  • Agent 行为、tool call、test result 和 diff 是否可审计。
  • Agent model 或 prompt 更新是否进入回归评估。

12.3 PR gate checklist

  • PR 是否说明业务目标、风险等级、变更边界和 AI involvement。
  • Diff 是否可审查, 是否避免跨多个 artifact type 混合变更。
  • 需求、设计、测试、eval 和 release 证据是否互相链接。
  • AI 生成测试是否有有效性检查。
  • 是否有架构影响说明和 rollback note。
  • 安全扫描、依赖、secret、license、IaC 是否通过。
  • Reviewer 是否有足够上下文做判断, 不是被迫重建历史。

12.4 Eval gate checklist

  • Eval suite 是否覆盖高风险业务场景和禁止行为。
  • 是否有 critical failure taxonomy。
  • 是否区分 offline eval、human review、red-team 和 online monitoring。
  • RAG 是否验证 citation、groundedness、answerability 和 injection resistance。
  • Tool agent 是否验证权限、参数、顺序、失败处理和人工确认。
  • 风控或信贷场景是否验证 segment performance、calibration、override 和 drift。
  • Eval threshold 是否绑定 release decision, 而不是只做参考。

12.5 Release gate checklist

  • Release bundle 是否列出 code、prompt、model、data、index、tool schema、policy 和 agent config 版本。
  • Risk tier 是否获得对应 owner 认可。
  • 是否有 canary、ramp、feature flag、fallback、rollback 和 monitoring trigger。
  • 是否有 production SLO、incident route 和 communication plan。
  • 是否明确 go、limited go、no-go、rollback 的判定标准。
  • Evidence binder 是否完整且可复现。
  • Gate 例外是否有 owner、到期日、补偿控制和关闭条件。

12.6 Operating review checklist

  • Review 是否聚焦系统改进, 而不是追责个人。
  • 是否把 DORA 的速度和稳定性一起看。
  • 是否把 SPACE 的体验和协作信号纳入决策。
  • 是否检查 agent adoption 是否带来真实 outcome。
  • 是否每次只选择少数高杠杆 improvement bets。
  • 是否跟踪上次改进是否关闭, 而不是不断新增指标。

13. 反模式

Anti-pattern表面合理性实际风险替代做法
Story point theater看起来能管理容量忽略质量、风险、flow 和结果用 DORA / SPACE / eval / outcome 指标组合
Lines-of-code ROI容易从工具拿数据奖励冗余代码和 review 负担看 accepted change、rework、defect、lead time
Agent adoption vanity metricLicense 激活率好看高采用不等于高价值看 workflow adoption、acceptance、DevEx 和稳定性
Individual productivity ranking管理层想找强弱破坏协作, 鼓励指标操纵只在团队和系统层面使用生产力指标
Eval after release先上线再补评估高风险失败进入客户流程Eval contract 前置到需求和 PR
Gate as paperwork证据很多Gate 不改变决策, 增加负担每个 gate 必须能 block、limit、route 或 rollback
One dashboard for all systems统一看板简单混合核心银行和内部工具导致误判按风险等级和系统上下文解释
Agent writes everything最大化自动化架构债、安全风险、业务责任失控任务路由和权限分层
Reviewer as cleanup crew人工兜底看似安全高级工程师被低价值清理消耗提升 context pack、diff limit、agent eval
Prompt-only governance只审 prompt忽略数据、工具、policy、代码和 release管理完整 release bundle
Security as final scan上线前跑扫描设计缺陷和权限风险太晚发现SSDF 控制嵌入 intake、PR、eval、release
Faster bad architecture生成速度快未来变更更慢, 事故恢复更难Architecture fitness functions 和 review gate
No learning loop事故处理完即结束同类问题反复发生Incident -> eval case -> regression -> runbook -> metric update

14. 30 天训练计划

目标: 30 天内完成一套可展示的 AI DORA / SPACE Engineering Productivity Operating System 作品集, 主题建议选择“金融零售客服 RAG”或“AI code agent 平台试点”。

Day训练主题输出
1读取 DORA、SPACE、SSDF source anchors1 页 source anchor 摘要
2选择一个金融零售 AI SDLC 场景Use case brief and risk tier
3画 value stream: idea 到 productionAI SDLC value stream map
4定义 product and risk outcomesOutcome tree
5建 DORA metric treeDORA mapping sheet
6建 SPACE metric treeDevEx and collaboration metric sheet
7复盘第 1 周Executive narrative: why story point is insufficient
8定义 artifact taxonomy: code / prompt / model / data / index / policyArtifact change taxonomy
9设计 AI quality metricsEval metric catalogue
10设计 security and SSDF controlsSSDF-to-gate control map
11设计 code agent task taxonomyAgent task routing policy
12设计 agent permission matrixAgent governance card
13设计 PR gatePR gate checklist and template
14复盘第 2 周Gate architecture diagram
15设计 eval gateEval gate decision matrix
16设计 release gateRelease gate memo example
17设计 evidence binderEvidence binder index
18设计 DORA / SPACE dashboardDashboard spec
19设计 DevEx survey and friction logDevEx operating review pack
20设计 architecture fitness metricsProduct architecture metric sheet
21复盘第 3 周Operating system narrative v1
22写核心银行变更案例Case study 1
23写风控模型案例Case study 2
24写客服 RAG 案例Case study 3
25写 AI 平台案例Case study 4
26做反模式和治理清单Anti-pattern and governance checklist
27写 8 个面试答案Interview answer bank
28组装作品集Portfolio package
29录制 5 分钟讲述稿Executive story script
30做自评和差距修正Final portfolio review

30 天完成标准:

  • 一张 AI SDLC value stream map。
  • 一套 DORA / SPACE / eval / security / product architecture metric tree。
  • 一份 code agent governance card。
  • 一份 PR / eval / release gate pack。
  • 四个金融零售案例。
  • 一套 dashboard spec。
  • 一份 evidence binder index。
  • 一组面试答案。
  • 一个 5 分钟作品集讲述稿。

15. 面试答案

Q1: 你如何定义 AI engineering productivity?

短答:

我不会把 AI engineering productivity 定义为代码生成量, 而是定义为组织在可控风险下更快、更稳、更可持续地把业务意图转成生产价值的能力。

展开:

AI 工程生产力要同时看五类信号。第一是 DORA, 看 change lead time、deployment frequency、change fail rate、recovery time 和 rework。第二是 SPACE, 看开发者满意度、绩效、活动、协作和 flow。第三是 EvalOps, 看 AI 行为质量、critical failure、groundedness、tool correctness 和 regression。第四是安全治理, 看 SSDF 控制、供应链、secret、PII、权限和 evidence。第五是产品和架构结果, 看客户结果、风险结果、平台复用、架构可演进性和 unit economics。AI 的价值只有在这些指标组合改善时才成立。

Q2: 为什么不能只用 story point 管 AI 团队?

短答:

Story point 只能粗略表达相对复杂度, 不能解释 AI 系统的质量、风险、eval 覆盖、agent 权限、生产稳定性和开发者体验。

展开:

AI SDLC 中很多关键工作不是传统开发点数能捕捉的, 例如构建 eval suite、做 red-team、验证 RAG grounding、设计 tool permission、准备 evidence binder、监控漂移和设计 rollback。只看点数会奖励可见产出, 惩罚质量和治理工作。更好的做法是把 story point 降级为局部容量参考, 主指标使用 DORA / SPACE / EvalOps / SSDF / product outcome 的组合。

Q3: DORA 指标如何适配 AI SDLC?

短答:

DORA 仍然适用, 但要把变更对象从代码扩展到 prompt、model、data、RAG index、tool schema、policy 和 agent config。

展开:

Change lead time 要拆成 intent-to-production、spec-to-eval、eval-to-release。Deployment frequency 要按风险等级和 artifact type 解释。Change fail rate 包含行为回归、错误工具调用、幻觉、数据漂移和生产 rollback。Failed deployment recovery time 包含模型切换、prompt 回滚、index 回滚、feature flag 和 human-only fallback。Deployment rework rate 可以反映 eval gate 和 PR gate 是否把问题前置。

Q4: SPACE 在 AI code agent 时代有什么价值?

短答:

SPACE 防止团队把生产力误解为 activity, 特别是在 AI 可以轻易制造更多 PR、diff 和 comment 的情况下。

展开:

SPACE 要求从满意度和 well-being、绩效、活动、协作、效率和 flow 多维观察。AI code agents 可能让 activity 上升, 但如果 review burden、cleanup fatigue、cognitive load 和 rework 同时上升, 生产力并没有改善。因此我会把 SPACE survey、review telemetry、flow interruption、collaboration quality 和 DORA 数据结合起来看。

Q5: 你会如何治理 code agents?

短答:

我会把 code agent 当作可授权、可撤销、可审计的工程参与者, 而不是把它当成自由访问所有代码和工具的聊天窗口。

展开:

治理设计包括 agent identity、owner、版本、任务风险分级、授权仓库和路径、工具权限、沙箱、secret 防护、branch policy、PR gate、eval gate、audit trail 和 revocation runbook。Agent 可以负责生成 draft、测试、文档和分析, 但不能承担业务、架构、安全、模型风险和生产结果的 accountability。每个高风险 PR 必须有 human owner 和对应 owner 审批。

Q6: PR gate、eval gate、release gate 怎么分工?

短答:

PR gate 管变更是否可审查、可测试和可维护; eval gate 管 AI 行为是否可接受; release gate 管生产放量、监控、回滚和证据是否就绪。

展开:

PR gate 关注 scope、diff、AI involvement、测试、架构、安全扫描和证据链接。Eval gate 关注 functional、regression、safety、grounding、tool call、bias、robustness 和 human review。Release gate 关注 release bundle、risk tier、security and privacy、deployment strategy、SLO、rollback、monitoring trigger 和 approval。三者缺一不可, 否则 AI 变更会从某个缝隙进入生产。

Q7: 如何向 CTO 证明 AI coding tools 的 ROI?

短答:

我会证明端到端 flow、质量、稳定性、开发者体验和平台复用是否改善, 而不是展示代码补全次数。

展开:

ROI 要包含 reduced lead time、avoided rework、incident cost reduction、review efficiency、developer flow、eval asset reuse 和 platform adoption, 同时扣除 tool cost、model cost、eval cost、review cost、training cost、governance cost 和 residual risk。最有说服力的方式是选择 2-3 个试点团队, 用 baseline、对照或阶段性 rollout 比较 DORA / SPACE / quality / outcome 指标。

Q8: 金融零售高风险系统如何使用 AI agents?

短答:

高风险系统可以用 AI agents, 但要把 agent 约束在测试、影响分析、文档、回归和低风险代码初稿中, 核心业务判断和生产责任必须由人承担。

展开:

例如核心银行限额规则变更, agent 可以生成边界测试、找影响范围、更新 runbook 和生成 PR summary, 但不能独立决定规则含义或直接发布。风控模型升级中, agent 可以生成 feature validation 和 monitoring query, 但模型风险、阈值和客户影响必须由风险 owner 审查。关键是任务路由、权限、gate 和证据。

Q9: 如何避免 DORA / SPACE 被滥用?

短答:

不用于个人排名, 不跨上下文粗暴平均, 不用单一指标做管理结论, 每个指标都要有解释规则和反向指标。

展开:

DORA 适合看团队和系统的 delivery performance, SPACE 适合看社会技术系统健康。它们不应该变成员工排名工具。核心银行、客服 RAG、内部平台的指标不能简单平均。每个指标都要配反向指标, 例如 deployment frequency 要配 change fail rate 和 rework, agent adoption 要配 satisfaction 和 accepted output, lead time 要配 quality 和 incident。

Q10: 你如何把这个主题做成作品集?

短答:

我会做一个 AI Engineering Productivity Operating System 包, 包含 metric tree、dashboard spec、agent governance、gate pack、金融零售案例和 executive narrative。

展开:

作品集不需要真实生产数据, 但需要像真实项目一样有约束。我会选客服 RAG 或 AI 平台试点, 给出风险分级、value stream、DORA / SPACE 指标、eval gate、SSDF 控制、release memo、evidence binder、DevEx friction log 和 30 天 rollout plan。讲述重点是我如何把 AI 工程效率从工具采购升级为可治理的 operating system。


16. 作品集交付物

16.1 Portfolio package

Artifact内容展示价值
Executive one-pager问题、定位、目标、指标组合、治理原则面向 CTO / VP Engineering 的表达
AI SDLC value stream map从 idea 到 production 的流程、等待、返工、gate展示系统思维
DORA / SPACE metric treeDORA、SPACE、eval、安全、架构、业务结果指标展示指标设计能力
Dashboard spec角色、决策、过滤器、tiles、drill-down、cadence展示平台 PM 能力
Code agent governance cardAgent identity、scope、permission、audit、revocation展示 AI governance 和安全意识
PR / eval / release gate packGate checklist、decision matrix、memo 示例展示 release engineering 能力
SSDF control mapPO / PS / PW / RV 到 AI SDLC gate 的映射展示 secure SDLC 能力
Financial retail cases核心银行、风控模型、客服 RAG、AI 平台展示行业落地能力
DevEx friction log体验问题、证据、影响、改进行动、成功信号展示 SPACE 和 adoption 能力
Interview answer bank8-10 个高级问答展示求职转化能力

16.2 5 分钟讲述结构

0:00-0:40  问题定义
AI coding tools 正在提升局部生成速度, 但金融零售真正需要的是可控、可评估、可审计的 AI SDLC operating system。

0:40-1:30  方法框架
我用 DORA 衡量 delivery flow 和 stability, 用 SPACE 衡量 developer experience 和协作健康, 用 EvalOps 衡量 AI 行为质量, 用 SSDF 衡量安全与供应链控制, 用 product / architecture metrics 衡量长期价值。

1:30-2:30  Operating system
展示 value stream、code agent governance、PR gate、eval gate、release gate、production telemetry 和 operating review 的闭环。

2:30-3:40  金融零售案例
用客服 RAG 或核心银行变更说明风险分级、指标选择、gate 证据和 rollback。

3:40-4:30  Dashboard and governance
展示 dashboard 如何支持 weekly flow review、monthly governance review 和 quarterly product architecture review。

4:30-5:00  结论
AI 工程生产力不是代码更多, 而是在同等或更低风险下更快学习、更稳发布、更少返工、更好体验和更强证据。

16.3 自检清单

  • 是否明确说明不把 story point 当主指标。
  • 是否把 DORA / SPACE / EvalOps / SSDF / product architecture metrics 连接成一个系统。
  • 是否有至少一个金融零售高风险案例。
  • 是否体现 code agent 权限、沙箱、审计和责任边界。
  • 是否有 PR / eval / release gate 的分工。
  • 是否避免用 vanity metrics 证明 ROI。
  • 是否有可复用模板和评审清单。
  • 是否能用 5 分钟讲给 CTO、AI platform leader 或 architecture panel。

17. 最终记忆卡

AI engineering productivity is not code generation volume.

It is the operating capability to turn business intent into production value:
  faster through DORA flow,
  safer through quality and SSDF controls,
  smarter through eval gates,
  healthier through SPACE and DevEx,
  more scalable through platform reuse,
  more accountable through governance evidence,
  more valuable through product and architecture outcomes.

For AI PM / architect:
  story point is a capacity conversation,
  DORA / SPACE / EvalOps / SSDF is an operating system conversation.