AI Engineering Productivity / Code Agent Operating System Playbook
版本:v1.0
AI Engineering Productivity 与 Code-Agent Operating System Playbook
版本:v1.0 日期:2026-06-29 适用对象:AI Product Architect、Engineering Productivity PM、Platform PM、CTO Staff、Solution Architect、DevEx Lead、AI Governance、Security、金融零售技术管理者
1. 定位:从 Copilot 工具到 Code-Agent Operating System
AI 工程效率不是“让开发者多写几行代码”,而是把软件交付系统中的需求澄清、设计、编码、测试、评审、文档、发布、审计和持续改进重新产品化。Autocomplete 和 chat assistant 解决的是个人工作流效率;coding agent 解决的是可授权、可评估、可审计的工程任务执行;code-agent operating system 解决的是企业如何在多个团队、多个仓库、多个风险等级下安全规模化使用 AI 工程能力。
一句话定义:
Code-Agent Operating System 是企业软件交付的 AI 控制面:用统一的上下文、权限、评估、审计、PR guardrails、发布门禁和运营模型,让 AI agent 能参与 SDLC,但不绕过工程责任、金融监管责任和生产变更控制。
这份 playbook 不讲基础 BA 方法,不重复“怎么写用户故事”。它训练的是更高级的产品架构能力:
| 高级能力 | 具体表现 | 可展示作品集资产 |
|---|---|---|
| 把 AI 工程效率产品化 | 将 spec、code、test、review、docs 变成可复用 workflow package | AI SDLC blueprint |
| 把 coding agent 纳入 SDLC | agent 只在授权仓库、授权任务、授权工具和授权分支内工作 | Agent permission matrix |
| 把质量提升变成证据 | 不只看使用量,看 DORA、SPACE、缺陷、返工、审计证据 | DORA/SPACE metric tree |
| 把代码生成变成可评估系统 | 用私有任务集、公共 benchmark、回归套件和人工复核评估 agent | Coding eval suite |
| 把金融零售风险前置 | 对支付、信贷、核心客户系统设置不同 PR 风险等级和 release gate | PR risk taxonomy + gate memo |
| 把组织采用设计成变革产品 | 从 license rollout 走向 workflow adoption、champion network、trust loop | 30 天训练计划 |
2. 为什么重要:工程效率进入“代理化”阶段
AI 编码工具的早期价值集中在个人层面:
- 生成样板代码。
- 解释陌生代码。
- 写单元测试。
- 辅助重构。
- 快速生成文档。
- 降低上下文切换。
企业真正的瓶颈不只在个人打字速度,而在系统性摩擦:
| 系统摩擦 | 表面症状 | 对金融零售的真实影响 |
|---|---|---|
| 需求和实现断裂 | PR 里看不出业务规则来源 | 支付修复、授信规则、客户资料变更无法证明需求依据 |
| 代码评审过载 | reviewer 被低风险细节耗尽 | 高风险变更没有足够注意力 |
| 测试覆盖不均 | AI 生成代码通过 happy path,但遗漏边界 | 交易异常、限额、反欺诈、账务一致性缺陷进入生产 |
| 文档滞后 | 设计、接口、运行手册和代码不一致 | 审计、事故复盘、交接成本上升 |
| 安全控制分散 | 不同团队各自配置 secret、依赖、扫描 | secret 泄露、供应链污染、越权调用扩大 |
| 指标误导 | 只看 AI 使用次数、代码行数、PR 数 | 产出增加但缺陷、返工、review burden 同步增加 |
| 责任边界不清 | “AI 写的代码”被当成解释 | 生产事故、监管问询和客户影响仍由机构承担 |
工程效率的高级目标不是“让 AI 替代工程流程”,而是让工程流程变成更高杠杆:
Better spec
-> better context
-> better agent work
-> better tests
-> better review
-> safer release
-> richer evidence
-> faster learning loop
3. 成熟度模型:从个人助手到企业代码代理操作系统
| Level | 形态 | 典型能力 | 管理重点 | 退出条件 |
|---|---|---|---|---|
| L1 | AI pair assistant | 补全、解释、局部生成、测试建议 | 使用政策、敏感代码排除、开发者培训 | 主要团队能安全使用,不泄露敏感上下文 |
| L2 | Workflow copilot | spec-to-test、test-to-code、PR 摘要、review checklist | 模板、prompt library、repo instructions | 关键工作流有稳定产出和质量反馈 |
| L3 | Coding agent | 读取 issue、修改代码、运行测试、开 PR、响应 review | agent identity、权限、sandbox、CI gate、trace | 低中风险任务可由 agent 独立完成初稿 |
| L4 | Code-agent OS | 多 agent、多仓库、任务队列、eval、策略、审计、release gate | 平台治理、指标体系、风险分级、责任模型 | AI 工程能力成为标准 SDLC 控制面 |
成熟度不是工具采购阶段,而是“可控能力”的阶段。L4 的标志不是 agent 能写更多代码,而是:
- 每个 agent 行为可追溯。
- 每个 PR 有来源、上下文、测试和审计证据。
- 每个高风险变更有人工责任人。
- 每个工具调用有权限边界。
- 每次模型或 agent 配置变更能回归评估。
- 每个团队的效率收益能用 DORA、SPACE、质量和体验指标解释。
4. 核心架构:Code-Agent OS 控制面
flowchart TB
I[Work Intake\nissue, incident, change request] --> S[Spec and Risk Tiering]
S --> C[Context Layer\nrepo, docs, architecture, policies]
C --> A[Agent Runtime\nplanner, coder, tester, reviewer, doc writer]
P[Policy Control Plane\nidentity, repo scope, tool scope, secrets, network] --> A
A --> E[Eval and CI\nunit, integration, security, coding eval, regression]
E --> R[PR Review Guardrails\nAI review, human review, risk classification]
R --> G[Release Gate\napproval, rollback, evidence, change window]
G --> O[Observability\nDORA, SPACE, defects, incidents, adoption]
O --> K[Learning Loop\ngolden tasks, prompts, rules, docs]
K --> C
4.1 七个核心层
| Layer | 主要能力 | 产品决策 | 关键控制 |
|---|---|---|---|
| Work intake | issue、incident、需求、技术债、合规整改进入队列 | 哪些任务适合 agent?哪些必须人工主导? | 风险分级、业务 owner、变更类型 |
| Context layer | repo map、架构文档、接口契约、runbook、代码规范、历史 PR | agent 应看到哪些上下文?哪些禁止? | 最小必要上下文、敏感路径排除、版本化 |
| Agent runtime | plan、edit、test、review、docs、PR comment、修复循环 | agent 可以做初稿还是可执行动作? | sandbox、tool allowlist、branch scope |
| Policy control plane | 身份、权限、仓库、secret、网络、依赖、工具调用 | 权限按用户、agent、repo、任务还是环境授予? | RBAC/ABAC、审批、审计日志 |
| Eval and CI | 私有任务集、单测、集成、SAST、SCA、secret scan、policy check | 什么测试能证明 agent 产物可评审? | hard stop、coverage、regression |
| PR and release gate | 风险分类、AI review、人审、变更窗口、rollback | 哪些 PR 可以自动合并?哪些需要多角色批准? | branch protection、CODEOWNERS、release memo |
| Observability | DORA、SPACE、DevEx、缺陷、返工、使用、成本、事故 | AI 是否真的改善系统产出? | cohort analysis、质量切片、审计证据 |
4.2 Agent 类型
| Agent | 主要任务 | 不能承担的责任 | 必备证据 |
|---|---|---|---|
| Spec Agent | 将需求、事故、政策变更转成技术任务和验收标准 | 不能替代业务 owner 对规则正确性的确认 | spec diff、assumption log、source links |
| Code Agent | 实现低中风险变更、修复测试、重构局部代码 | 不能独立批准生产变更 | patch、test run、reasoning trace |
| Test Agent | 生成单测、集成测试、回归测试、边界用例 | 不能声明风险已被完全消除 | test coverage delta、failure cases |
| Review Agent | 查找缺陷、安全风险、规范偏差、文档缺口 | 不能替代高风险人工 reviewer | review findings、severity、false positive record |
| Docs Agent | 更新 API、runbook、release note、审计材料 | 不能作为唯一事实来源 | doc diff、linked code changes |
| Migration Agent | 执行框架升级、依赖升级、批量改造 | 不能绕过供应链和兼容性评估 | dependency diff、SBOM、rollback plan |
| Incident Agent | 整理日志、复盘证据、建议修复方向 | 不能对客户影响和监管报告做最终判断 | incident timeline、evidence pack |
5. AI-assisted SDLC 蓝图模板
5.1 端到端蓝图
| SDLC 阶段 | AI 辅助动作 | 人类责任人 | 主要控制 | 证据输出 |
|---|---|---|---|---|
| Intake | 汇总 issue、事故、监管要求、技术债,生成 change brief | PM / EM / Process Owner | 任务风险分级、业务目标确认 | Change brief、risk tier |
| Spec | 生成验收标准、非功能要求、边界条件、禁止行为 | PM / BA / Architect | source-grounded spec、assumption review | Spec contract、decision log |
| Design | 生成方案对比、接口影响、数据流、回滚方案 | Architect / Tech Lead | 架构评审、安全评审 | Design memo、architecture diff |
| Code | 在隔离分支实现 patch,保留 agent trace | Developer / Tech Lead | branch scope、sandbox、tool policy | Commit diff、agent log |
| Test | 生成和运行单测、集成、契约、回归、安全扫描 | Developer / QA / Security | coverage gate、critical test hard stop | Test report、coverage delta |
| Review | AI reviewer 先做机械和安全检查,人类 reviewer 做语义和责任判断 | Code Owner / Domain Reviewer | PR risk classification、review checklist | Review findings、approval record |
| Docs | 更新 ADR、API 文档、runbook、release note、审计摘要 | Developer / Architect / Ops | 文档和代码一致性检查 | Doc diff、release note |
| Release | 根据风险等级走发布门禁、变更窗口、回滚计划 | Release Manager / System Owner | release gate、segregation of duties | Gate memo、rollback plan |
| Operate | 监控 DORA、缺陷、incident、agent 产物质量 | EM / Platform PM / SRE | post-release monitoring、incident loop | Metrics dashboard、postmortem |
5.2 金融零售示例:支付异常修复
Change request
支付渠道在部分冲正场景下重复生成 notification。
AI SDLC controls
risk tier: 高,因为涉及支付状态、客户通知和账务一致性
agent scope: 只允许读取支付服务仓库、测试数据和接口契约
required tests: 幂等性、重复通知、冲正、超时、重试、并发
required reviewers: 支付 domain reviewer、架构 reviewer、QA、release owner
release gate: 非营业高峰窗口、灰度、监控重复通知率、可回滚
Evidence
change brief、状态机影响分析、agent patch trace、测试报告、PR 审批、灰度指标、回滚方案
5.3 金融零售示例:信贷规则变更
Change request
调整某信用产品的收入验证例外规则。
AI SDLC controls
risk tier: 高,因为影响客户授信路径和公平性风险
agent scope: 可生成规则代码和测试,但不得改动审批阈值配置
required tests: 边界收入、缺失资料、渠道差异、历史回归、公平性切片
required reviewers: 信贷 policy owner、模型风险、合规、系统 owner
release gate: policy signoff、UAT、监控拒绝率和人工复核率
Evidence
policy source、规则映射表、测试集说明、分群影响、审批记录、上线后监控
5.4 金融零售示例:核心客户系统字段迁移
Change request
将客户偏好字段从 legacy profile 表迁移到 customer master profile。
AI SDLC controls
risk tier: 中到高,取决于字段是否影响营销同意、隐私选择或服务资格
agent scope: 可生成 migration script、adapter、测试和文档
required tests: 双写一致性、回填、回滚、权限、审计日志、下游兼容
required reviewers: 数据 owner、隐私、安全、核心客户系统 owner
release gate: shadow run、reconciliation、数据质量阈值、回滚脚本
Evidence
data lineage、migration plan、reconciliation report、privacy signoff、runbook
6. 产品决策:哪些工作交给 agent,哪些保留人工
6.1 任务适配矩阵
| 任务类型 | Agent 适配度 | 原因 | 控制要求 |
|---|---|---|---|
| 测试补齐 | 高 | 目标明确,验证可自动化 | 覆盖率和 mutation/regression 约束 |
| 局部 bug 修复 | 中到高 | 可由 failing test 定义目标 | 必须保留复现测试 |
| 低风险 UI 文案和文档更新 | 高 | 影响面有限 | doc-code consistency check |
| API adapter / DTO 映射 | 中 | 机械性强但易漏字段 | contract test、schema diff |
| 依赖升级 | 中 | agent 可处理编译错误和迁移 | SCA、SBOM、breaking change review |
| 业务规则变更 | 中到低 | 语义责任在业务和合规 | policy owner signoff、edge-case test |
| 安全修复 | 中 | agent 可辅助定位和补丁 | security reviewer、exploit regression |
| 支付状态机改动 | 低 | 生产风险高、状态组合复杂 | 人工设计主导、agent 只做受控实现 |
| 信贷决策逻辑 | 低 | 客户影响和合规风险高 | 人工 owner、模型风险、审计证据 |
| 核心客户主数据结构变更 | 中到低 | 下游影响大 | lineage、migration、rollback gate |
6.2 Agent 产品边界
| 边界问题 | 推荐决策 |
|---|---|
| agent 是否能直接 push 到 main | 不允许。agent 只在受控分支工作,主干合并由人类责任人和 CI 门禁控制 |
| agent 是否能读取全部仓库 | 按任务和风险分配 repo scope,高敏感路径默认排除 |
| agent 是否能访问 secret | 默认不允许。需要 secret 的测试使用短期、低权限、专用测试凭证 |
| agent 是否能安装依赖 | 只允许来自批准 registry 和 lockfile 流程的依赖 |
| agent 是否能调用生产系统 | 不允许。生产操作必须通过变更流程和人工批准 |
| agent 是否能作为 required reviewer | 可以作为辅助 reviewer,但高风险 PR 必须有人类 code owner 批准 |
| agent 是否能生成 release note | 可以,但 release owner 负责确认客户影响、回滚和已知问题 |
| agent 产物如何署名 | 记录 AI assistance metadata,但责任归属仍在提交者、reviewer 和系统 owner |
7. Agent 权限矩阵模板
| 权限域 | Low-risk docs agent | Unit-test agent | Code agent | Review agent | Migration agent | Incident agent |
|---|---|---|---|---|---|---|
| Repo read | 指定 docs 和公开源码 | 指定服务仓库 | 指定服务仓库 | PR diff 和相关文件 | 指定服务与依赖文件 | 日志摘要和只读 runbook |
| Repo write | docs 分支 | test 分支 | feature 分支 | 无写权限,允许 comment | migration 分支 | incident evidence 分支 |
| Branch | ai/docs/* | ai/tests/* | ai/feature/* | 不创建代码分支 | ai/migration/* | ai/incident/* |
| Secret access | 无 | 测试专用假凭证 | 默认无 | 无 | 临时测试凭证,审批后发放 | 无生产 secret |
| Network | 文档和包 registry allowlist | 测试依赖 allowlist | 依赖 registry allowlist | 无外部网络或只读 allowlist | registry + migration sandbox | 日志平台只读 |
| Tool calls | markdown linter、link check | test runner、coverage | build、test、format、lint | diff analyzer、SAST summary | build、test、SCA、SBOM | log query、timeline builder |
| Package install | 不需要 | lockfile 内 | 需要审批或 lockfile 更新 | 不需要 | 需供应链检查 | 不需要 |
| PR creation | 允许 | 允许 | 允许 | 不创建代码 PR | 允许 | 允许证据 PR |
| PR approval | 不允许 | 不允许 | 不允许 | 不允许 | 不允许 | 不允许 |
| Production action | 不允许 | 不允许 | 不允许 | 不允许 | 不允许 | 不允许 |
| Audit log | 记录 prompt、上下文、diff | 记录测试目标和结果 | 记录计划、diff、测试 | 记录 findings 和 false positive | 记录依赖、脚本、回滚 | 记录查询、来源、时间线 |
权限设计原则:
- Agent identity 与 human identity 分离。
- 权限按 task、repo、branch、tool、environment 分层。
- 读权限也需要治理,因为代码、配置、测试数据和日志都可能包含敏感信息。
- 写权限默认限制在 agent 分支。
- 生产环境、客户数据、secret、支付操作、信贷决策动作不交给 agent 直接执行。
- 所有 agent 工具调用进入审计日志,支持事故复盘和监管问询。
8. Secure Coding 与供应链治理
8.1 AI coding 风险地图
| 风险 | 典型表现 | 控制 |
|---|---|---|
| Insecure pattern reproduction | agent 复制旧代码中的弱加密、SQL 拼接、缺失鉴权 | secure coding rules、SAST、security unit tests |
| Context poisoning | README、注释、issue 中的恶意指令影响 agent | instruction hierarchy、untrusted content labeling |
| Secret exposure | agent 读取或输出密钥、token、连接串 | secret scanning、content exclusion、redaction |
| Dependency confusion | agent 引入不可信包或错误命名包 | private registry、lockfile、SCA、allowlist |
| License / IP risk | 生成片段过度接近公开代码或未知许可代码 | code reference、license scan、review policy |
| Test gaming | agent 修改测试使其通过,而不是修复问题 | evaluator isolation、test integrity check |
| Over-broad refactor | 为小问题做大范围改动 | diff budget、risk tier、architect review |
| Silent behavior change | 没有暴露 API diff、配置 diff、数据迁移影响 | contract test、schema diff、ADR |
| Review overload | AI 生成大量低质量 PR 或无关评论 | PR size limit、agent eval、review finding precision |
| Accountability dilution | 事故后归因给模型 | human owner、approval trail、release evidence |
8.2 映射到 SSDF 的工程控制
| SSDF 方向 | Code-agent OS 落地 |
|---|---|
| Prepare the Organization | 建立 AI coding policy、secure coding rules、agent 权限模型、培训和责任边界 |
| Protect the Software | 保护 repo、branch、artifact、dependency、build pipeline、secret 和 provenance |
| Produce Well-Secured Software | 将 SAST、SCA、secret scan、IaC scan、test coverage、threat model 纳入 agent PR gate |
| Respond to Vulnerabilities | 对 agent 生成或遗漏的漏洞建立 RCA、golden eval case、修复回归和供应链响应 |
8.3 Secret、仓库和供应链控制
| 控制点 | 设计要求 | 金融零售解释 |
|---|---|---|
| Content exclusion | 敏感路径、密钥样例、客户数据、风控规则、生产配置排除出 AI 上下文 | 保护支付路由、授信规则、客户主数据配置 |
| Secret scanning | PR、commit、agent output、logs 全链路扫描 | 防止测试凭证升级成真实凭证泄露 |
| SBOM | 每次依赖变更生成或更新 SBOM | 支持供应链审计和紧急漏洞响应 |
| Provenance | 记录构建来源、commit、依赖、runner、artifact hash | 证明发布包和审计材料一致 |
| Lockfile policy | agent 不得绕过 lockfile 或直接引入未知版本 | 防止依赖漂移和供应链污染 |
| Build isolation | agent 运行在隔离 runner,禁止访问生产网络 | 防止越权读取或横向移动 |
| Test data boundary | 使用脱敏、合成或专用测试数据 | 避免客户隐私进入 prompt 和日志 |
| Branch protection | required checks、CODEOWNERS、signed commits、linear history 按风险启用 | 确保高风险系统不被快速合并绕过 |
9. PR Review Guardrails:AI reviewer 与人工 reviewer 分工
9.1 PR 风险分类模板
| Risk tier | 变更类型 | AI 可做什么 | 人类必须做什么 | Release gate |
|---|---|---|---|---|
| R0 | 文档、注释、低风险测试补充 | 生成、检查链接、补测试 | 轻量确认语义 | CI pass |
| R1 | 局部 bug、非核心 UI、内部工具 | 实现初稿、测试、PR 摘要、初审 | code owner review | CI + reviewer approval |
| R2 | API、数据映射、权限、批处理、依赖升级 | 提供方案、实现、回归测试 | tech lead + domain reviewer | CI + SAST/SCA + contract tests |
| R3 | 支付、账务、客户主数据、信贷规则、风控策略 | 生成受控 patch、测试建议、影响分析 | domain owner、architect、QA、risk/security | release memo + change window + rollback |
| R4 | 客户权益重大影响、监管承诺、自动化决策、生产修复 | 只做分析、证据整理、备选方案 | 变更委员会和系统 owner 主导 | formal approval + post-release monitoring |
9.2 AI reviewer 负责的检查
| 检查项 | 具体问题 | 输出 |
|---|---|---|
| Diff coherence | 改动是否和 PR 描述一致 | mismatch findings |
| Test gap | 新逻辑是否缺少边界测试 | suggested test cases |
| Security pattern | 是否出现注入、鉴权、敏感日志、弱加密 | severity-tagged findings |
| Data handling | 是否新增敏感字段、日志、导出、保留风险 | data risk notes |
| Dependency risk | 是否新增依赖、版本漂移、许可风险 | supply chain summary |
| Backward compatibility | API、schema、事件、配置是否破坏兼容 | compatibility checklist |
| Documentation drift | runbook、ADR、API 文档是否需要更新 | docs delta |
| Release risk | 是否需要灰度、回滚、监控 | release checklist |
9.3 人工 reviewer 负责的判断
| 判断项 | 为什么不能交给 AI 独立决定 |
|---|---|
| 业务规则是否正确 | 需要理解政策、监管、客户影响和机构风险偏好 |
| 支付和账务状态是否安全 | 需要领域经验和生产事故记忆 |
| 信贷和客户权益影响是否可接受 | 涉及公平性、合规解释和责任承担 |
| 架构取舍是否符合长期路线 | 需要权衡团队能力、技术债和平台方向 |
| release exception 是否可接受 | 例外是管理决策,不是模型评分 |
| AI findings 是否应该阻断合并 | 需要结合上下文判断误报和风险 |
9.4 PR 模板
# PR Review Control Card
## Change Summary
- Business objective: 降低支付冲正重复通知风险。
- System touched: payment-notification-service。
- Risk tier: R3。
## AI Assistance
- Agent role: code agent + test agent + review agent。
- Agent scope: feature branch, payment notification module, test runner。
- Generated artifacts: patch, unit tests, retry/idempotency cases, PR summary。
## Required Evidence
- Failing test reproduced original defect。
- New regression tests cover retry, timeout, duplicate callback and reversal。
- SAST, SCA and secret scan passed。
- API contract unchanged or documented。
- Rollback path confirmed。
## Review Routing
- Domain reviewer: payment owner。
- Architecture reviewer: integration architect。
- QA reviewer: payment regression owner。
- Release owner: production support lead。
## Release Decision
- Gate result: limited release。
- Monitoring: duplicate notification rate, reversal retry error, customer complaint count。
- Rollback trigger: duplicate notification rate above approved threshold for two consecutive monitoring windows。
10. Coding Eval Suite 模板
Coding agent eval 不能只看公开 benchmark,也不能只看开发者主观满意度。企业需要三层 eval:
Public benchmark
-> model and agent capability baseline
Private engineering benchmark
-> company repo and workflow fit
Production quality loop
-> real PR, defects, incidents and reviewer feedback
10.1 Eval suite 组成
| Eval set | 任务来源 | 评估什么 | 通过标准 |
|---|---|---|---|
| Public baseline | SWE-bench、SWE-bench Verified、Terminal-Bench 等 | 通用软件工程能力和工具使用 | 与候选工具横向比较 |
| Internal bug-fix set | 历史缺陷、postmortem、回归问题 | 能否从 failing test 修复真实问题 | test pass + minimal diff + no regression |
| Internal feature set | 小型需求、adapter、API 扩展 | spec-to-code 能力 | acceptance tests pass + reviewer accept |
| Secure coding set | 注入、鉴权、敏感日志、依赖漏洞 | 安全修复和安全识别能力 | no critical miss |
| Financial domain set | 支付幂等、信贷边界、客户资料权限、账务一致性 | 领域规则和风险边界 | domain reviewer pass |
| Review set | 历史 PR 和已知缺陷 | reviewer finding precision / recall | high severity recall 达标,低噪音 |
| Docs set | ADR、runbook、API 文档同步 | 文档一致性和可审计性 | linked diff + reviewer pass |
| Long-horizon set | 多文件迁移、框架升级、重构 | 长任务规划和修复循环 | time-boxed success + trace quality |
10.2 Eval Case Card
| 字段 | 内容示例 |
|---|---|
| case_id | PAY-IDEMP-017 |
| repo | payment-notification-service |
| task_type | bug-fix with regression test |
| risk_tier | R3 |
| prompt | 修复重复通知缺陷,保持外部 API 行为不变 |
| allowed_context | issue、相关模块、测试、状态机文档 |
| disallowed_context | production secrets、真实客户日志、未脱敏交易记录 |
| expected_behavior | 增加幂等判断并保留失败重试语义 |
| hidden_tests | 并发重复 callback、超时重试、冲正后通知 |
| security_checks | secret scan、SAST、sensitive logging check |
| success_metrics | tests pass、minimal diff、no API break、reviewer pass |
| failure_modes | 修改测试规避缺陷、吞掉重试、记录敏感交易字段 |
| evidence | agent trace、diff、test result、review decision |
10.3 Agent 评估指标
| 指标 | 定义 | 为什么重要 |
|---|---|---|
| Task success rate | 在时间和权限限制内完成任务且通过测试 | 衡量基础可用性 |
| Reviewer acceptance rate | 人工 reviewer 接受 agent 产物的比例 | 衡量真实工程价值 |
| Critical miss rate | 漏掉高严重度缺陷或安全问题的比例 | 高风险场景的 hard stop |
| Test integrity violation | 修改或削弱测试以通过的次数 | 防止 eval 被污染 |
| Diff efficiency | 有效改动占总改动比例 | 控制 review burden |
| First-pass CI rate | 首次 PR 通过 CI 的比例 | 衡量上下文和工具配置质量 |
| Rework cycles | review 后需要几轮修复 | 衡量协作成本 |
| Time-to-acceptable PR | 从任务开始到可评审 PR 的时间 | 连接 DORA lead time |
| Secure coding pass rate | SAST/SCA/secret/IaC gate 通过率 | 连接 SSDF 控制 |
| Evidence completeness | trace、测试、review、release 材料完整率 | 支持审计和事故复盘 |
10.4 Eval 运行节奏
| 触发 | Eval 范围 | 决策 |
|---|---|---|
| 新模型或新 agent 版本 | public baseline + internal smoke suite | 是否进入 pilot |
| repo instructions 变更 | affected repo suite | 是否保留新 instructions |
| 权限策略变更 | security + financial domain set | 是否放开或收紧权限 |
| 大规模 rollout 前 | full internal benchmark | 是否扩大使用范围 |
| 生产事故后 | incident-derived regression cases | 是否关闭整改 |
| 季度治理评审 | trend comparison | 是否调整 vendor、policy、training |
11. DORA / SPACE / DevEx 指标树模板
11.1 指标原则
AI 工程效率指标不能单独使用。尤其不要把这些指标当成成功:
- AI 生成代码行数。
- 被接受的补全次数。
- PR 数量。
- chat 请求量。
- license 使用率。
这些指标只说明 activity,不说明 value。成熟指标体系要同时看 flow、quality、developer experience、business risk、governance。
11.2 指标树
Engineering Productivity with AI
DORA outcomes
deployment frequency
lead time for changes
change failure rate
failed deployment recovery time
deployment rework rate
SPACE dimensions
satisfaction and well-being
performance
activity
communication and collaboration
efficiency and flow
AI-assisted SDLC quality
first-pass CI rate
reviewer acceptance rate
critical miss rate
rework cycles
test coverage delta
security gate pass rate
Developer experience
time-to-first-successful-agent-task
context setup time
review burden
interruption reduction
perceived trust
Governance and risk
policy violations
unauthorized tool attempts
secret exposure incidents
evidence completeness
high-risk PR gate compliance
Business impact
incident reduction
release predictability
regulatory evidence readiness
support ticket reduction
capacity unlocked for high-value work
11.3 DORA 指标解释
| DORA 指标 | AI 可能改善的地方 | AI 可能恶化的地方 | 需要一起看的护栏 |
|---|---|---|---|
| Deployment frequency | 小批量低风险变更更容易完成 | 低质量 PR 增加发布噪音 | change failure rate、review burden |
| Lead time for changes | spec、code、test、review 摘要加速 | 返工和不清晰 diff 抵消收益 | rework cycles、first-pass CI |
| Change failure rate | 测试生成和 review guardrails 降低缺陷 | AI 生成隐藏缺陷进入生产 | incident severity、critical miss |
| Failed deployment recovery time | agent 辅助定位和修复回归 | 事故中自动修复扩大影响 | incident gate、human approval |
| Deployment rework rate | 更好的上下文减少补丁式返工 | 快速生成导致更多 hotfix | root cause taxonomy |
11.4 SPACE 指标解释
| SPACE 维度 | AI 场景下的可观测指标 | 解释边界 |
|---|---|---|
| Satisfaction and well-being | 开发者满意度、认知负荷、信任、是否愿意持续使用 | 不用满意度单独证明生产力 |
| Performance | 高价值任务完成、缺陷下降、可维护性提升 | 不只看个人产出,要看团队和业务结果 |
| Activity | AI 请求、PR、commit、review comment、测试生成量 | activity 只能解释行为,不等于价值 |
| Communication and collaboration | PR 清晰度、review 轮次、handoff 时间、知识共享 | AI 摘要应减少沟通成本,而不是掩盖问题 |
| Efficiency and flow | 等待时间、上下文切换、CI 修复时间、time-to-acceptable PR | 需要结合质量和风险,否则只是更快地产生返工 |
11.5 Dashboard 视图
| Dashboard | 主要用户 | 决策问题 |
|---|---|---|
| Executive view | CTO、VP Eng、Risk | AI 工程效率是否提升交付能力且没有增加风险? |
| EM view | Engineering Manager | 哪些团队或 repo 从 AI 中获益,哪里 review burden 上升? |
| Developer view | Developer、Tech Lead | 哪些 workflow 节省时间,哪些 agent 输出不值得信任? |
| Security view | Security、AppSec | AI 是否引入新的漏洞、secret、依赖和越权风险? |
| Governance view | AI Governance、Audit | 高风险变更是否有证据链、审批和 release gate? |
12. GitHub Copilot 生产力证据如何使用
GitHub 和 Microsoft Research 的研究提供了重要但不能机械套用的证据:受控实验中,使用 Copilot 的开发者在特定 JavaScript HTTP server 任务上完成速度显著更快;企业研究也显示开发者满意度、采用率和部分 DevOps 活动指标改善。对平台 PM 来说,这些结论的正确用法不是写进 ROI 幻灯片后结束,而是转成内部评估假设。
12.1 证据使用框架
| 外部证据 | 可借鉴的结论 | 企业内必须验证 |
|---|---|---|
| 受控实验显示任务完成更快 | AI pair programmer 可以降低部分编码任务时间 | 本组织的语言、框架、legacy 复杂度和 review burden 是否也改善 |
| 用户报告认知负荷下降 | AI 可能改善 developer experience | 是否减少上下文切换,还是增加审阅 AI 输出的负担 |
| 企业采用率和满意度较高 | 工具上手门槛相对低 | 是否进入核心 workflow,而不是只被少数开发者尝鲜 |
| PR 和活动指标可能变化 | AI 可能提高 throughput | change failure rate、rework、security findings 是否同步受控 |
| Copilot Metrics API 可提供使用数据 | adoption 可以被仪表化 | 使用数据必须与 DORA、SPACE、缺陷和业务指标合并分析 |
12.2 内部试点评估设计
| 设计项 | 推荐做法 |
|---|---|
| Cohort | 选择相似团队或相似 repo,设置 pilot group 和 comparison group |
| Baseline | 记录至少 4 到 8 周 DORA、review、defect、developer survey |
| Workflow | 明确测试生成、bug fix、PR 摘要、docs、review 哪些 workflow 被试点 |
| Risk | 低中风险 repo 先行,高风险金融核心系统只做受限任务 |
| Metrics | 使用量 + flow + quality + security + satisfaction + evidence |
| Review | 每周看定量趋势和开发者访谈,不用单一指标下结论 |
| Decision | 根据任务类型扩大、限制或停止,而不是全员统一放开 |
13. 上线门禁模板
13.1 Release Gate Matrix
| Gate | R0 | R1 | R2 | R3 | R4 |
|---|---|---|---|---|---|
| CI | required | required | required | required | required |
| Unit tests | required | required | required | required | required |
| Integration / contract tests | context-based | context-based | required | required | required |
| SAST / secret scan | required | required | required | required | required |
| SCA / license scan | when dependency changes | when dependency changes | required for dependency changes | required | required |
| AI trace retention | lightweight | required | required | required | required |
| Human code owner | optional | required | required | required | required |
| Domain reviewer | optional | optional | context-based | required | required |
| Security / risk review | exception-based | exception-based | context-based | required when relevant | required |
| Release memo | optional | lightweight | required | required | formal |
| Rollback plan | optional | required | required | required | formal rehearsal |
| Post-release monitoring | optional | required for changed service | required | required | enhanced |
13.2 Gate Memo 模板
# AI-assisted Release Gate Memo
## Change Identity
- Change ID: PAY-REL-2026-06-29-01。
- System: payment-notification-service。
- Risk tier: R3。
- Business owner: payment operations lead。
- Technical owner: payment platform lead。
## AI Involvement
- Agent tasks: defect localization, patch draft, unit tests, PR summary。
- Agent permissions: feature branch, no secret, no production access。
- Agent trace location: controlled audit storage。
## Validation
- Unit tests: passed。
- Integration tests: passed for callback, retry, reversal and idempotency。
- Security scans: no critical or high findings。
- Contract tests: public API unchanged。
- Manual review: payment domain, architecture, QA and release owner approved。
## Release Controls
- Deployment mode: canary followed by staged rollout。
- Monitoring: duplicate notification rate, retry error rate, reversal completion time, complaint signal。
- Rollback: revert deployment and restore previous notification handler。
- Stop condition: approved threshold breach or new customer-impacting defect。
## Decision
- Decision: limited release。
- Approver: system owner。
- Review date: next business day after rollout。
14. 审计证据包模板
AI 生成代码的审计证据不需要保存完整敏感 prompt 原文给所有人看,但必须能证明:谁授权、看了什么上下文、做了什么修改、如何验证、谁批准、何时上线、如何回滚、上线后是否安全。
| Evidence ID | 证据类别 | 内容 | Owner | 保留方式 |
|---|---|---|---|---|
| E01 | Change brief | 业务目标、风险等级、系统范围、客户影响 | PM / EM | Change system |
| E02 | Source-to-spec map | 需求来源、政策来源、事故来源、验收标准 | PM / BA / Architect | Versioned doc |
| E03 | Agent authorization | agent identity、repo scope、branch、tool、secret policy | Platform / Security | Policy log |
| E04 | Context record | agent 可访问文件、文档、接口契约、排除路径 | Platform | Trace metadata |
| E05 | Agent execution trace | plan、tool calls、diff summary、test commands、失败修复循环 | Platform | Restricted audit store |
| E06 | Code diff | commit、PR、changed files、risk classification | Developer / Tech Lead | Git |
| E07 | Test evidence | unit、integration、contract、coverage、regression、security scan | QA / Developer | CI artifact |
| E08 | Review evidence | AI findings、人类 review、domain signoff、exception | Code Owner | PR record |
| E09 | Release evidence | gate memo、approval、change window、rollback plan | Release Owner | Release system |
| E10 | Production monitoring | rollout metrics、incident signal、rollback trigger、post-release review | SRE / Ops | Observability platform |
| E11 | Model/tool governance | agent version、model provider、policy version、prompt/instruction version | Platform PM | Registry |
| E12 | Incident learning | defect linked to eval case、RCA、control update | EM / Risk | Postmortem repository |
14.1 责任边界声明
AI assistance was used to draft, review or test parts of this change.
The accountable owners for production behavior remain the human submitter,
human reviewers, release approver and system owner.
AI output is treated as an input to the SDLC, not as an independent approval authority.
在金融零售场景,这句话不是形式主义。支付错误、信贷不公平、客户资料泄露、错误通知、监管承诺不一致,都不能用“模型生成”作为免责理由。机构需要证明它建立了合理控制,并且控制真实运行。
15. 平台 Operating Model
15.1 核心角色
| Role | 责任 |
|---|---|
| Engineering Productivity PM | 定义 AI 工程效率路线图、workflow、指标、adoption、价值证明 |
| Platform PM | 管理 agent 平台能力、权限、registry、API、治理体验 |
| CTO Staff / Eng Strategy | 对齐工程组织目标、预算、rollout、风险偏好 |
| Solution Architect | 定义 SDLC 集成、系统边界、release gate、金融核心控制 |
| DevEx Lead | 优化开发者体验、IDE/CLI/PR workflow、培训和反馈 |
| Security / AppSec | 定义 secure coding、secret、SCA、SAST、supply chain 控制 |
| AI Governance | 定义 AI use policy、risk tier、audit evidence、model/tool governance |
| Engineering Manager | 负责团队采用、质量、review 负担、交付结果 |
| Code Owner / Domain Reviewer | 对业务语义、系统行为和生产影响负责 |
| Release Manager | 管理变更窗口、上线门禁、回滚和发布证据 |
15.2 RACI:AI-assisted PR
| Activity | Developer | Agent | Code Owner | Domain Reviewer | Security | Platform | Release |
|---|---|---|---|---|---|---|---|
| Define task scope | A/R | C | C | C | C | I | I |
| Generate patch | A | R | I | I | I | C | I |
| Generate tests | A | R | C | C | I | I | I |
| Run CI | R | R | I | I | C | C | I |
| AI review | C | R | I | I | I | C | I |
| Human code review | C | I | A/R | C | C | I | I |
| Domain approval | I | I | C | A/R | C | I | I |
| Security approval | I | I | C | C | A/R | C | I |
| Release decision | I | I | C | C | C | I | A/R |
| Evidence retention | R | C | C | C | C | A/R | R |
15.3 治理节奏
| Cadence | Meeting | Inputs | Decisions |
|---|---|---|---|
| Weekly | AI engineering adoption review | usage、DORA、PR quality、developer feedback | workflow tuning、training focus |
| Weekly | AI PR quality review | rejected PR、critical findings、false positives | prompt/rule/eval updates |
| Biweekly | Security and supply chain review | SAST/SCA/secret findings、dependency changes | policy update、blocked patterns |
| Monthly | AI engineering governance | risk tier compliance、evidence completeness、incident trend | permission changes、rollout decisions |
| Quarterly | Productivity value review | cohort analysis、DORA/SPACE trend、cost、business outcomes | vendor strategy、platform roadmap |
16. 组织采纳策略
16.1 采用误区
| 误区 | 结果 | 更好的做法 |
|---|---|---|
| 按 license rollout 衡量成功 | 大量使用但价值不明 | 按 workflow 和目标 cohort 衡量 |
| 只培训提示词 | 开发者不会把 AI 接入工程流程 | 培训 spec、tests、review、security、evidence |
| 全员同时放开 agent 权限 | 风险和噪音同时上升 | 从低风险 repo 和明确任务开始 |
| 把 AI 当绩效监控工具 | 开发者抵触,指标被游戏化 | 用团队级指标改善系统,不做个人排名 |
| 让 AI reviewer 替代 code owner | 高风险语义判断失控 | AI 负责发现,人类负责判断和批准 |
| 只看速度 | 质量、审计和安全债上升 | speed、quality、risk、experience 一起看 |
16.2 Adoption playbook
| 阶段 | 目标 | 动作 | 成功信号 |
|---|---|---|---|
| Pilot | 找到高价值低风险 workflow | 选 2 到 3 个团队,聚焦测试生成、PR 摘要、低风险 bug fix | first-pass CI 上升,reviewer 接受率达标 |
| Workflow hardening | 把有效用法标准化 | repo instructions、PR 模板、eval cases、training clinic | 重复任务可稳定完成 |
| Controlled expansion | 扩到更多 repo 和任务 | 权限矩阵、risk tier gate、cohort metrics | lead time 改善且 failure 不上升 |
| Platformization | 形成内部产品 | self-service onboarding、metrics dashboard、policy engine | 团队可独立接入,治理可追踪 |
| Continuous governance | 防止工具漂移和风险累积 | eval refresh、quarterly review、incident-derived tests | 质量和信任保持稳定 |
16.3 开发体验指标
| 指标 | 采集方式 | 产品含义 |
|---|---|---|
| Time-to-first-successful-agent-task | onboarding telemetry | 接入门槛是否过高 |
| Context setup time | developer survey + trace | repo 文档和 instructions 是否足够 |
| Prompt-to-acceptable-PR cycles | PR trace | agent 是否理解工程约束 |
| Review burden score | reviewer survey | AI 是否降低还是增加审查成本 |
| Trust by workflow | monthly pulse | 哪些任务适合扩大 |
| Abandonment reason | agent task cancellation | 工具失败、权限不足、上下文不足还是信任不足 |
| Helpfulness of AI review | reviewer rating | review agent 是否发现真实问题 |
| Developer flow impact | SPACE survey | 是否减少中断和认知负荷 |
17. 30 天训练计划
| Day | 主题 | 训练动作 | 产出 |
|---|---|---|---|
| 1 | AI engineering productivity framing | 梳理一个团队的 SDLC 摩擦和 AI workflow 候选 | Engineering productivity problem brief |
| 2 | DORA baseline | 为一个 repo 定义 deployment、lead time、failure、recovery 口径 | DORA baseline plan |
| 3 | SPACE baseline | 设计开发者体验 survey 和访谈问题 | SPACE survey |
| 4 | AI SDLC blueprint | 选一个低风险 workflow 画端到端蓝图 | AI SDLC blueprint |
| 5 | Repo context design | 设计 repo instructions、架构索引、敏感路径排除 | Context map |
| 6 | Agent permission design | 为 docs/test/code/review agent 配权限 | Agent permission matrix |
| 7 | Week 1 review | 对蓝图、权限、指标做 self-review | Week 1 decision memo |
| 8 | Spec-to-test workflow | 把一个需求转成测试计划和验收标准 | Spec-to-test template |
| 9 | Test generation guardrails | 设计测试完整性检查和 hidden regression idea | Test guardrail checklist |
| 10 | Code agent PR flow | 设计 agent 分支、CI、PR 摘要、review routing | AI-assisted PR template |
| 11 | AI reviewer guardrails | 定义 AI reviewer 的 finding taxonomy | Review guardrail matrix |
| 12 | Secure coding controls | 将 SAST、SCA、secret、license、SBOM 接入 gate | Secure coding gate |
| 13 | Supply chain governance | 设计 dependency change policy 和 provenance 证据 | Supply chain evidence map |
| 14 | Week 2 review | 用一个历史 PR 复盘 agent 应如何参与 | PR simulation report |
| 15 | Coding eval suite | 建立 10 个内部 eval case 的分类和字段 | Eval suite v1 |
| 16 | Financial domain eval | 设计支付、信贷、客户资料三类高风险 cases | Financial eval cards |
| 17 | Review agent eval | 用历史 PR 设计 precision/recall 评估 | Review eval design |
| 18 | Long-horizon task eval | 设计迁移或依赖升级 agent eval | Long-horizon eval case |
| 19 | Eval governance | 定义模型、agent、prompt/instruction 变更触发评估 | Eval cadence |
| 20 | Evidence binder | 设计 AI-assisted change 审计证据包 | Audit evidence binder |
| 21 | Week 3 review | 形成 go / limited go / no-go gate memo | Gate memo |
| 22 | Pilot cohort design | 选团队、repo、workflow 和对照组 | Pilot plan |
| 23 | Adoption analytics | 设计使用量 + DORA + SPACE + quality dashboard | Metrics dashboard sketch |
| 24 | Training clinic | 设计开发者训练课程,不讲基础提示词,讲 SDLC workflow | Training outline |
| 25 | Risk communication | 写给 CTO、CISO、风险负责人的 rollout memo | Executive memo |
| 26 | Operating model | 定义 RACI、会议节奏、例外机制 | Operating model |
| 27 | Financial release gate | 为支付或信贷系统设计 R3/R4 门禁 | Financial release gate |
| 28 | Incident loop | 把一次 AI 相关缺陷转成 eval case 和控制更新 | Incident-to-eval loop |
| 29 | Portfolio packaging | 整理作品集:蓝图、矩阵、eval、gate、dashboard | Portfolio asset pack |
| 30 | Interview simulation | 准备 8 个高级面试回答并录制讲解 | Interview answer set |
18. 面试回答
18.1 如何定义 AI engineering productivity,而不是只看代码生成量?
30 秒回答 我会把 AI engineering productivity 定义为“在不增加生产风险的前提下,提高软件交付系统从需求到上线的流动效率、质量和开发者体验”。代码生成量只是 activity,不是 outcome。真正要看 DORA、SPACE、缺陷、返工、review burden、安全门禁和审计证据。
2 分钟回答 我会分三层衡量。第一层是 DORA,看 deployment frequency、lead time、change failure、recovery 和 rework 是否改善。第二层是 SPACE,看满意度、flow、协作、效率,而不是个人产出排名。第三层是 AI-specific quality,看 first-pass CI、reviewer acceptance、critical miss、security findings、evidence completeness。金融零售还要加高风险 PR gate compliance,因为支付、信贷、客户系统的变更速度不能以牺牲审计和客户权益为代价。
18.2 你会如何设计企业 code-agent operating system?
30 秒回答 我会把它设计成 SDLC 控制面:work intake、context layer、agent runtime、policy control plane、eval/CI、PR guardrails、release gate、observability 和 evidence binder,而不是简单部署一个聊天工具。
2 分钟回答 核心是把 agent 放进现有工程责任链。Agent 需要独立 identity、最小权限、repo 和 branch scope、sandbox、tool allowlist、secret restriction。每个 agent 任务要保留 trace、diff、测试和 review evidence。高风险系统必须按 PR risk tier 走 code owner、domain reviewer、security/risk review 和 release gate。平台 PM 负责自助接入和指标,安全负责权限和供应链,架构师负责 release control,工程经理负责质量和 adoption。
18.3 AI reviewer 和人工 reviewer 如何分工?
30 秒回答 AI reviewer 负责可规模化的机械检查和初筛,例如 diff coherence、测试缺口、安全模式、依赖和文档漂移。人工 reviewer 负责业务语义、系统行为、风险接受、架构取舍和最终批准。
2 分钟回答 在金融零售里,AI reviewer 不能替代支付 domain owner 或信贷 policy owner。比如支付状态机改动,AI 可以提醒幂等性测试缺失、敏感日志、API 兼容性,但“这个状态转换是否符合业务和监管要求”必须由人类负责。AI findings 也要评估 precision 和 false positive,否则会制造 review fatigue。
18.4 如何构建 coding agent eval suite?
30 秒回答 我会用三层 eval:公共 benchmark 建立能力 baseline,内部 repo 任务集验证企业适配,生产质量 loop 从真实 PR、缺陷和事故补充回归案例。
2 分钟回答 内部 eval suite 至少包含 bug fix、feature、secure coding、金融领域、review、docs、long-horizon migration。每个 case 要定义 allowed context、disallowed context、hidden tests、成功指标、失败模式和证据。关键指标包括 task success、reviewer acceptance、critical miss、test integrity violation、diff efficiency、first-pass CI、rework cycles 和 evidence completeness。
18.5 如何防止 AI 生成代码带来安全和供应链风险?
30 秒回答 我会把 AI coding 纳入 secure SDLC:最小权限、content exclusion、secret scan、SAST、SCA、license scan、SBOM、provenance、lockfile policy 和 branch protection。
2 分钟回答 关键是不要把 agent 当成可信开发者。它只能在受控分支和 sandbox 中工作,不直接访问生产 secret,不自由安装依赖,不绕过 lockfile。高风险依赖变更必须触发 SCA、license、SBOM 和 reviewer 审批。对于金融系统,还要检查敏感日志、PII、权限边界和审计字段,确保 AI 没有把测试便利变成生产漏洞。
18.6 在支付、信贷和核心客户系统中,如何设计 AI-assisted release gate?
30 秒回答 我会按变更风险分级。支付、信贷、核心客户资料通常是 R3/R4,需要 domain reviewer、架构、QA、安全或风险审批、回滚计划、灰度和上线后监控。Agent 可以辅助实现和测试,但不能批准上线。
2 分钟回答 支付关注幂等、状态机、账务一致性、重复通知和回滚;信贷关注 policy source、边界样本、公平性切片、人工复核和客户权益;客户系统关注数据血缘、权限、隐私选择和下游兼容。Release gate 要输出 pass、limited release、no-go 或 exception,并保存 gate memo、测试、审批、监控和 rollback evidence。
18.7 如何向 CTO 证明 Copilot 或 coding agent 的 ROI?
30 秒回答 我不会只用 license 使用率或代码行数证明 ROI。我会做 cohort pilot,用 DORA、SPACE、质量、安全、review burden 和业务结果比较试点前后和对照组。
2 分钟回答 外部研究说明 AI coding 工具有潜力,但每个企业的 legacy、质量门禁和风险不同。我的做法是先选高价值低风险 workflow,例如测试生成、PR 摘要、低风险 bug fix。记录 4 到 8 周 baseline,再比较 lead time、first-pass CI、review cycles、developer satisfaction、defect leakage 和 security findings。ROI 还要扣除 review burden、工具成本、培训和治理成本。
18.8 模型生成代码的责任边界怎么定义?
30 秒回答 AI 输出是 SDLC 输入,不是审批主体。生产责任仍在提交者、reviewer、release approver 和系统 owner。证据包必须记录 AI 参与了什么、谁审了、怎么测了、谁批准上线。
2 分钟回答 这点在金融零售尤其重要。客户受损、支付错误、信贷不公平或数据泄露时,机构不能用“AI 生成”作为解释。合理责任模型是:agent 有 trace 和权限记录,developer 对提交负责,code owner 对代码质量负责,domain owner 对业务规则负责,release owner 对上线负责,风险和安全对控制有效性提出 challenge。
19. 最小可落地交付物清单
| 交付物 | 最小内容 | 成熟内容 |
|---|---|---|
| AI SDLC 蓝图 | 阶段、AI 动作、人类 owner、控制、证据 | 按风险 tier 和系统类型分流 |
| Agent 权限矩阵 | repo、branch、tool、secret、network、PR 权限 | policy-as-code + audit dashboard |
| Coding eval suite | 20 到 50 个内部 cases | 持续从 PR、事故、review feedback 补充 |
| DORA/SPACE 指标树 | baseline、pilot、dashboard | cohort analysis + business impact |
| PR 风险分类 | R0 到 R4 规则和 reviewer routing | 自动分类建议 + 人工 override |
| 上线门禁 | CI、security、review、release memo、rollback | risk-based release workflow |
| 审计证据包 | change、agent trace、test、review、approval、monitoring | control-to-evidence matrix |
| 30 天训练计划 | workflow training、eval、gate、portfolio | role-based academy + champion network |
| 面试回答 | 8 个高级问题 | 用真实作品集资产支撑回答 |
20. 参考来源
以下链接用于校准概念、指标和治理框架。正式企业落地应结合所在司法辖区、机构政策、供应商合同、数据分类和监管要求复核。