AI 扩展计划 / Playbooks

AI Engineering Productivity / Code Agent Operating System Playbook

版本：v1.0

877 行AI_ENGINEERING_PRODUCTIVITY_CODE_AGENT_OPERATING_SYSTEM_PLAYBOOK.md

AI Engineering Productivity 与 Code-Agent Operating System Playbook

版本：v1.0 日期：2026-06-29 适用对象：AI Product Architect、Engineering Productivity PM、Platform PM、CTO Staff、Solution Architect、DevEx Lead、AI Governance、Security、金融零售技术管理者

1. 定位：从 Copilot 工具到 Code-Agent Operating System

AI 工程效率不是“让开发者多写几行代码”，而是把软件交付系统中的需求澄清、设计、编码、测试、评审、文档、发布、审计和持续改进重新产品化。Autocomplete 和 chat assistant 解决的是个人工作流效率；coding agent 解决的是可授权、可评估、可审计的工程任务执行；code-agent operating system 解决的是企业如何在多个团队、多个仓库、多个风险等级下安全规模化使用 AI 工程能力。

一句话定义：

Code-Agent Operating System 是企业软件交付的 AI 控制面：用统一的上下文、权限、评估、审计、PR guardrails、发布门禁和运营模型，让 AI agent 能参与 SDLC，但不绕过工程责任、金融监管责任和生产变更控制。

这份 playbook 不讲基础 BA 方法，不重复“怎么写用户故事”。它训练的是更高级的产品架构能力：

高级能力	具体表现	可展示作品集资产
把 AI 工程效率产品化	将 spec、code、test、review、docs 变成可复用 workflow package	AI SDLC blueprint
把 coding agent 纳入 SDLC	agent 只在授权仓库、授权任务、授权工具和授权分支内工作	Agent permission matrix
把质量提升变成证据	不只看使用量，看 DORA、SPACE、缺陷、返工、审计证据	DORA/SPACE metric tree
把代码生成变成可评估系统	用私有任务集、公共 benchmark、回归套件和人工复核评估 agent	Coding eval suite
把金融零售风险前置	对支付、信贷、核心客户系统设置不同 PR 风险等级和 release gate	PR risk taxonomy + gate memo
把组织采用设计成变革产品	从 license rollout 走向 workflow adoption、champion network、trust loop	30 天训练计划

2. 为什么重要：工程效率进入“代理化”阶段

AI 编码工具的早期价值集中在个人层面：

生成样板代码。
解释陌生代码。
写单元测试。
辅助重构。
快速生成文档。
降低上下文切换。

企业真正的瓶颈不只在个人打字速度，而在系统性摩擦：

系统摩擦	表面症状	对金融零售的真实影响
需求和实现断裂	PR 里看不出业务规则来源	支付修复、授信规则、客户资料变更无法证明需求依据
代码评审过载	reviewer 被低风险细节耗尽	高风险变更没有足够注意力
测试覆盖不均	AI 生成代码通过 happy path，但遗漏边界	交易异常、限额、反欺诈、账务一致性缺陷进入生产
文档滞后	设计、接口、运行手册和代码不一致	审计、事故复盘、交接成本上升
安全控制分散	不同团队各自配置 secret、依赖、扫描	secret 泄露、供应链污染、越权调用扩大
指标误导	只看 AI 使用次数、代码行数、PR 数	产出增加但缺陷、返工、review burden 同步增加
责任边界不清	“AI 写的代码”被当成解释	生产事故、监管问询和客户影响仍由机构承担

工程效率的高级目标不是“让 AI 替代工程流程”，而是让工程流程变成更高杠杆：

Better spec
  -> better context
  -> better agent work
  -> better tests
  -> better review
  -> safer release
  -> richer evidence
  -> faster learning loop

3. 成熟度模型：从个人助手到企业代码代理操作系统

Level	形态	典型能力	管理重点	退出条件
L1	AI pair assistant	补全、解释、局部生成、测试建议	使用政策、敏感代码排除、开发者培训	主要团队能安全使用，不泄露敏感上下文
L2	Workflow copilot	spec-to-test、test-to-code、PR 摘要、review checklist	模板、prompt library、repo instructions	关键工作流有稳定产出和质量反馈
L3	Coding agent	读取 issue、修改代码、运行测试、开 PR、响应 review	agent identity、权限、sandbox、CI gate、trace	低中风险任务可由 agent 独立完成初稿
L4	Code-agent OS	多 agent、多仓库、任务队列、eval、策略、审计、release gate	平台治理、指标体系、风险分级、责任模型	AI 工程能力成为标准 SDLC 控制面

成熟度不是工具采购阶段，而是“可控能力”的阶段。L4 的标志不是 agent 能写更多代码，而是：

每个 agent 行为可追溯。
每个 PR 有来源、上下文、测试和审计证据。
每个高风险变更有人工责任人。
每个工具调用有权限边界。
每次模型或 agent 配置变更能回归评估。
每个团队的效率收益能用 DORA、SPACE、质量和体验指标解释。

4. 核心架构：Code-Agent OS 控制面

flowchart TB
  I[Work Intake\nissue, incident, change request] --> S[Spec and Risk Tiering]
  S --> C[Context Layer\nrepo, docs, architecture, policies]
  C --> A[Agent Runtime\nplanner, coder, tester, reviewer, doc writer]
  P[Policy Control Plane\nidentity, repo scope, tool scope, secrets, network] --> A
  A --> E[Eval and CI\nunit, integration, security, coding eval, regression]
  E --> R[PR Review Guardrails\nAI review, human review, risk classification]
  R --> G[Release Gate\napproval, rollback, evidence, change window]
  G --> O[Observability\nDORA, SPACE, defects, incidents, adoption]
  O --> K[Learning Loop\ngolden tasks, prompts, rules, docs]
  K --> C

4.1 七个核心层

Layer	主要能力	产品决策	关键控制
Work intake	issue、incident、需求、技术债、合规整改进入队列	哪些任务适合 agent？哪些必须人工主导？	风险分级、业务 owner、变更类型
Context layer	repo map、架构文档、接口契约、runbook、代码规范、历史 PR	agent 应看到哪些上下文？哪些禁止？	最小必要上下文、敏感路径排除、版本化
Agent runtime	plan、edit、test、review、docs、PR comment、修复循环	agent 可以做初稿还是可执行动作？	sandbox、tool allowlist、branch scope
Policy control plane	身份、权限、仓库、secret、网络、依赖、工具调用	权限按用户、agent、repo、任务还是环境授予？	RBAC/ABAC、审批、审计日志
Eval and CI	私有任务集、单测、集成、SAST、SCA、secret scan、policy check	什么测试能证明 agent 产物可评审？	hard stop、coverage、regression
PR and release gate	风险分类、AI review、人审、变更窗口、rollback	哪些 PR 可以自动合并？哪些需要多角色批准？	branch protection、CODEOWNERS、release memo
Observability	DORA、SPACE、DevEx、缺陷、返工、使用、成本、事故	AI 是否真的改善系统产出？	cohort analysis、质量切片、审计证据

4.2 Agent 类型

Agent	主要任务	不能承担的责任	必备证据
Spec Agent	将需求、事故、政策变更转成技术任务和验收标准	不能替代业务 owner 对规则正确性的确认	spec diff、assumption log、source links
Code Agent	实现低中风险变更、修复测试、重构局部代码	不能独立批准生产变更	patch、test run、reasoning trace
Test Agent	生成单测、集成测试、回归测试、边界用例	不能声明风险已被完全消除	test coverage delta、failure cases
Review Agent	查找缺陷、安全风险、规范偏差、文档缺口	不能替代高风险人工 reviewer	review findings、severity、false positive record
Docs Agent	更新 API、runbook、release note、审计材料	不能作为唯一事实来源	doc diff、linked code changes
Migration Agent	执行框架升级、依赖升级、批量改造	不能绕过供应链和兼容性评估	dependency diff、SBOM、rollback plan
Incident Agent	整理日志、复盘证据、建议修复方向	不能对客户影响和监管报告做最终判断	incident timeline、evidence pack

5. AI-assisted SDLC 蓝图模板

5.1 端到端蓝图

SDLC 阶段	AI 辅助动作	人类责任人	主要控制	证据输出
Intake	汇总 issue、事故、监管要求、技术债，生成 change brief	PM / EM / Process Owner	任务风险分级、业务目标确认	Change brief、risk tier
Spec	生成验收标准、非功能要求、边界条件、禁止行为	PM / BA / Architect	source-grounded spec、assumption review	Spec contract、decision log
Design	生成方案对比、接口影响、数据流、回滚方案	Architect / Tech Lead	架构评审、安全评审	Design memo、architecture diff
Code	在隔离分支实现 patch，保留 agent trace	Developer / Tech Lead	branch scope、sandbox、tool policy	Commit diff、agent log
Test	生成和运行单测、集成、契约、回归、安全扫描	Developer / QA / Security	coverage gate、critical test hard stop	Test report、coverage delta
Review	AI reviewer 先做机械和安全检查，人类 reviewer 做语义和责任判断	Code Owner / Domain Reviewer	PR risk classification、review checklist	Review findings、approval record
Docs	更新 ADR、API 文档、runbook、release note、审计摘要	Developer / Architect / Ops	文档和代码一致性检查	Doc diff、release note
Release	根据风险等级走发布门禁、变更窗口、回滚计划	Release Manager / System Owner	release gate、segregation of duties	Gate memo、rollback plan
Operate	监控 DORA、缺陷、incident、agent 产物质量	EM / Platform PM / SRE	post-release monitoring、incident loop	Metrics dashboard、postmortem

5.2 金融零售示例：支付异常修复

Change request
  支付渠道在部分冲正场景下重复生成 notification。

AI SDLC controls
  risk tier: 高，因为涉及支付状态、客户通知和账务一致性
  agent scope: 只允许读取支付服务仓库、测试数据和接口契约
  required tests: 幂等性、重复通知、冲正、超时、重试、并发
  required reviewers: 支付 domain reviewer、架构 reviewer、QA、release owner
  release gate: 非营业高峰窗口、灰度、监控重复通知率、可回滚

Evidence
  change brief、状态机影响分析、agent patch trace、测试报告、PR 审批、灰度指标、回滚方案

5.3 金融零售示例：信贷规则变更

Change request
  调整某信用产品的收入验证例外规则。

AI SDLC controls
  risk tier: 高，因为影响客户授信路径和公平性风险
  agent scope: 可生成规则代码和测试，但不得改动审批阈值配置
  required tests: 边界收入、缺失资料、渠道差异、历史回归、公平性切片
  required reviewers: 信贷 policy owner、模型风险、合规、系统 owner
  release gate: policy signoff、UAT、监控拒绝率和人工复核率

Evidence
  policy source、规则映射表、测试集说明、分群影响、审批记录、上线后监控

5.4 金融零售示例：核心客户系统字段迁移

Change request
  将客户偏好字段从 legacy profile 表迁移到 customer master profile。

AI SDLC controls
  risk tier: 中到高，取决于字段是否影响营销同意、隐私选择或服务资格
  agent scope: 可生成 migration script、adapter、测试和文档
  required tests: 双写一致性、回填、回滚、权限、审计日志、下游兼容
  required reviewers: 数据 owner、隐私、安全、核心客户系统 owner
  release gate: shadow run、reconciliation、数据质量阈值、回滚脚本

Evidence
  data lineage、migration plan、reconciliation report、privacy signoff、runbook

6. 产品决策：哪些工作交给 agent，哪些保留人工

6.1 任务适配矩阵

任务类型	Agent 适配度	原因	控制要求
测试补齐	高	目标明确，验证可自动化	覆盖率和 mutation/regression 约束
局部 bug 修复	中到高	可由 failing test 定义目标	必须保留复现测试
低风险 UI 文案和文档更新	高	影响面有限	doc-code consistency check
API adapter / DTO 映射	中	机械性强但易漏字段	contract test、schema diff
依赖升级	中	agent 可处理编译错误和迁移	SCA、SBOM、breaking change review
业务规则变更	中到低	语义责任在业务和合规	policy owner signoff、edge-case test
安全修复	中	agent 可辅助定位和补丁	security reviewer、exploit regression
支付状态机改动	低	生产风险高、状态组合复杂	人工设计主导、agent 只做受控实现
信贷决策逻辑	低	客户影响和合规风险高	人工 owner、模型风险、审计证据
核心客户主数据结构变更	中到低	下游影响大	lineage、migration、rollback gate

6.2 Agent 产品边界

边界问题	推荐决策
agent 是否能直接 push 到 main	不允许。agent 只在受控分支工作，主干合并由人类责任人和 CI 门禁控制
agent 是否能读取全部仓库	按任务和风险分配 repo scope，高敏感路径默认排除
agent 是否能访问 secret	默认不允许。需要 secret 的测试使用短期、低权限、专用测试凭证
agent 是否能安装依赖	只允许来自批准 registry 和 lockfile 流程的依赖
agent 是否能调用生产系统	不允许。生产操作必须通过变更流程和人工批准
agent 是否能作为 required reviewer	可以作为辅助 reviewer，但高风险 PR 必须有人类 code owner 批准
agent 是否能生成 release note	可以，但 release owner 负责确认客户影响、回滚和已知问题
agent 产物如何署名	记录 AI assistance metadata，但责任归属仍在提交者、reviewer 和系统 owner

7. Agent 权限矩阵模板

权限域	Low-risk docs agent	Unit-test agent	Code agent	Review agent	Migration agent	Incident agent
Repo read	指定 docs 和公开源码	指定服务仓库	指定服务仓库	PR diff 和相关文件	指定服务与依赖文件	日志摘要和只读 runbook
Repo write	docs 分支	test 分支	feature 分支	无写权限，允许 comment	migration 分支	incident evidence 分支
Branch	`ai/docs/*`	`ai/tests/*`	`ai/feature/*`	不创建代码分支	`ai/migration/*`	`ai/incident/*`
Secret access	无	测试专用假凭证	默认无	无	临时测试凭证，审批后发放	无生产 secret
Network	文档和包 registry allowlist	测试依赖 allowlist	依赖 registry allowlist	无外部网络或只读 allowlist	registry + migration sandbox	日志平台只读
Tool calls	markdown linter、link check	test runner、coverage	build、test、format、lint	diff analyzer、SAST summary	build、test、SCA、SBOM	log query、timeline builder
Package install	不需要	lockfile 内	需要审批或 lockfile 更新	不需要	需供应链检查	不需要
PR creation	允许	允许	允许	不创建代码 PR	允许	允许证据 PR
PR approval	不允许	不允许	不允许	不允许	不允许	不允许
Production action	不允许	不允许	不允许	不允许	不允许	不允许
Audit log	记录 prompt、上下文、diff	记录测试目标和结果	记录计划、diff、测试	记录 findings 和 false positive	记录依赖、脚本、回滚	记录查询、来源、时间线

权限设计原则：

Agent identity 与 human identity 分离。
权限按 task、repo、branch、tool、environment 分层。
读权限也需要治理，因为代码、配置、测试数据和日志都可能包含敏感信息。
写权限默认限制在 agent 分支。
生产环境、客户数据、secret、支付操作、信贷决策动作不交给 agent 直接执行。
所有 agent 工具调用进入审计日志，支持事故复盘和监管问询。

8. Secure Coding 与供应链治理

8.1 AI coding 风险地图

风险	典型表现	控制
Insecure pattern reproduction	agent 复制旧代码中的弱加密、SQL 拼接、缺失鉴权	secure coding rules、SAST、security unit tests
Context poisoning	README、注释、issue 中的恶意指令影响 agent	instruction hierarchy、untrusted content labeling
Secret exposure	agent 读取或输出密钥、token、连接串	secret scanning、content exclusion、redaction
Dependency confusion	agent 引入不可信包或错误命名包	private registry、lockfile、SCA、allowlist
License / IP risk	生成片段过度接近公开代码或未知许可代码	code reference、license scan、review policy
Test gaming	agent 修改测试使其通过，而不是修复问题	evaluator isolation、test integrity check
Over-broad refactor	为小问题做大范围改动	diff budget、risk tier、architect review
Silent behavior change	没有暴露 API diff、配置 diff、数据迁移影响	contract test、schema diff、ADR
Review overload	AI 生成大量低质量 PR 或无关评论	PR size limit、agent eval、review finding precision
Accountability dilution	事故后归因给模型	human owner、approval trail、release evidence

8.2 映射到 SSDF 的工程控制

SSDF 方向	Code-agent OS 落地
Prepare the Organization	建立 AI coding policy、secure coding rules、agent 权限模型、培训和责任边界
Protect the Software	保护 repo、branch、artifact、dependency、build pipeline、secret 和 provenance
Produce Well-Secured Software	将 SAST、SCA、secret scan、IaC scan、test coverage、threat model 纳入 agent PR gate
Respond to Vulnerabilities	对 agent 生成或遗漏的漏洞建立 RCA、golden eval case、修复回归和供应链响应

8.3 Secret、仓库和供应链控制

控制点	设计要求	金融零售解释
Content exclusion	敏感路径、密钥样例、客户数据、风控规则、生产配置排除出 AI 上下文	保护支付路由、授信规则、客户主数据配置
Secret scanning	PR、commit、agent output、logs 全链路扫描	防止测试凭证升级成真实凭证泄露
SBOM	每次依赖变更生成或更新 SBOM	支持供应链审计和紧急漏洞响应
Provenance	记录构建来源、commit、依赖、runner、artifact hash	证明发布包和审计材料一致
Lockfile policy	agent 不得绕过 lockfile 或直接引入未知版本	防止依赖漂移和供应链污染
Build isolation	agent 运行在隔离 runner，禁止访问生产网络	防止越权读取或横向移动
Test data boundary	使用脱敏、合成或专用测试数据	避免客户隐私进入 prompt 和日志
Branch protection	required checks、CODEOWNERS、signed commits、linear history 按风险启用	确保高风险系统不被快速合并绕过

9. PR Review Guardrails：AI reviewer 与人工 reviewer 分工

9.1 PR 风险分类模板

Risk tier	变更类型	AI 可做什么	人类必须做什么	Release gate
R0	文档、注释、低风险测试补充	生成、检查链接、补测试	轻量确认语义	CI pass
R1	局部 bug、非核心 UI、内部工具	实现初稿、测试、PR 摘要、初审	code owner review	CI + reviewer approval
R2	API、数据映射、权限、批处理、依赖升级	提供方案、实现、回归测试	tech lead + domain reviewer	CI + SAST/SCA + contract tests
R3	支付、账务、客户主数据、信贷规则、风控策略	生成受控 patch、测试建议、影响分析	domain owner、architect、QA、risk/security	release memo + change window + rollback
R4	客户权益重大影响、监管承诺、自动化决策、生产修复	只做分析、证据整理、备选方案	变更委员会和系统 owner 主导	formal approval + post-release monitoring

9.2 AI reviewer 负责的检查

检查项	具体问题	输出
Diff coherence	改动是否和 PR 描述一致	mismatch findings
Test gap	新逻辑是否缺少边界测试	suggested test cases
Security pattern	是否出现注入、鉴权、敏感日志、弱加密	severity-tagged findings
Data handling	是否新增敏感字段、日志、导出、保留风险	data risk notes
Dependency risk	是否新增依赖、版本漂移、许可风险	supply chain summary
Backward compatibility	API、schema、事件、配置是否破坏兼容	compatibility checklist
Documentation drift	runbook、ADR、API 文档是否需要更新	docs delta
Release risk	是否需要灰度、回滚、监控	release checklist

9.3 人工 reviewer 负责的判断

判断项	为什么不能交给 AI 独立决定
业务规则是否正确	需要理解政策、监管、客户影响和机构风险偏好
支付和账务状态是否安全	需要领域经验和生产事故记忆
信贷和客户权益影响是否可接受	涉及公平性、合规解释和责任承担
架构取舍是否符合长期路线	需要权衡团队能力、技术债和平台方向
release exception 是否可接受	例外是管理决策，不是模型评分
AI findings 是否应该阻断合并	需要结合上下文判断误报和风险

9.4 PR 模板

# PR Review Control Card

## Change Summary
- Business objective: 降低支付冲正重复通知风险。
- System touched: payment-notification-service。
- Risk tier: R3。

## AI Assistance
- Agent role: code agent + test agent + review agent。
- Agent scope: feature branch, payment notification module, test runner。
- Generated artifacts: patch, unit tests, retry/idempotency cases, PR summary。

## Required Evidence
- Failing test reproduced original defect。
- New regression tests cover retry, timeout, duplicate callback and reversal。
- SAST, SCA and secret scan passed。
- API contract unchanged or documented。
- Rollback path confirmed。

## Review Routing
- Domain reviewer: payment owner。
- Architecture reviewer: integration architect。
- QA reviewer: payment regression owner。
- Release owner: production support lead。

## Release Decision
- Gate result: limited release。
- Monitoring: duplicate notification rate, reversal retry error, customer complaint count。
- Rollback trigger: duplicate notification rate above approved threshold for two consecutive monitoring windows。

10. Coding Eval Suite 模板

Coding agent eval 不能只看公开 benchmark，也不能只看开发者主观满意度。企业需要三层 eval：

Public benchmark
  -> model and agent capability baseline
Private engineering benchmark
  -> company repo and workflow fit
Production quality loop
  -> real PR, defects, incidents and reviewer feedback

10.1 Eval suite 组成

Eval set	任务来源	评估什么	通过标准
Public baseline	SWE-bench、SWE-bench Verified、Terminal-Bench 等	通用软件工程能力和工具使用	与候选工具横向比较
Internal bug-fix set	历史缺陷、postmortem、回归问题	能否从 failing test 修复真实问题	test pass + minimal diff + no regression
Internal feature set	小型需求、adapter、API 扩展	spec-to-code 能力	acceptance tests pass + reviewer accept
Secure coding set	注入、鉴权、敏感日志、依赖漏洞	安全修复和安全识别能力	no critical miss
Financial domain set	支付幂等、信贷边界、客户资料权限、账务一致性	领域规则和风险边界	domain reviewer pass
Review set	历史 PR 和已知缺陷	reviewer finding precision / recall	high severity recall 达标，低噪音
Docs set	ADR、runbook、API 文档同步	文档一致性和可审计性	linked diff + reviewer pass
Long-horizon set	多文件迁移、框架升级、重构	长任务规划和修复循环	time-boxed success + trace quality

10.2 Eval Case Card

字段	内容示例
case_id	`PAY-IDEMP-017`
repo	`payment-notification-service`
task_type	bug-fix with regression test
risk_tier	R3
prompt	修复重复通知缺陷，保持外部 API 行为不变
allowed_context	issue、相关模块、测试、状态机文档
disallowed_context	production secrets、真实客户日志、未脱敏交易记录
expected_behavior	增加幂等判断并保留失败重试语义
hidden_tests	并发重复 callback、超时重试、冲正后通知
security_checks	secret scan、SAST、sensitive logging check
success_metrics	tests pass、minimal diff、no API break、reviewer pass
failure_modes	修改测试规避缺陷、吞掉重试、记录敏感交易字段
evidence	agent trace、diff、test result、review decision

10.3 Agent 评估指标

指标	定义	为什么重要
Task success rate	在时间和权限限制内完成任务且通过测试	衡量基础可用性
Reviewer acceptance rate	人工 reviewer 接受 agent 产物的比例	衡量真实工程价值
Critical miss rate	漏掉高严重度缺陷或安全问题的比例	高风险场景的 hard stop
Test integrity violation	修改或削弱测试以通过的次数	防止 eval 被污染
Diff efficiency	有效改动占总改动比例	控制 review burden
First-pass CI rate	首次 PR 通过 CI 的比例	衡量上下文和工具配置质量
Rework cycles	review 后需要几轮修复	衡量协作成本
Time-to-acceptable PR	从任务开始到可评审 PR 的时间	连接 DORA lead time
Secure coding pass rate	SAST/SCA/secret/IaC gate 通过率	连接 SSDF 控制
Evidence completeness	trace、测试、review、release 材料完整率	支持审计和事故复盘

10.4 Eval 运行节奏

触发	Eval 范围	决策
新模型或新 agent 版本	public baseline + internal smoke suite	是否进入 pilot
repo instructions 变更	affected repo suite	是否保留新 instructions
权限策略变更	security + financial domain set	是否放开或收紧权限
大规模 rollout 前	full internal benchmark	是否扩大使用范围
生产事故后	incident-derived regression cases	是否关闭整改
季度治理评审	trend comparison	是否调整 vendor、policy、training

11. DORA / SPACE / DevEx 指标树模板

11.1 指标原则

AI 工程效率指标不能单独使用。尤其不要把这些指标当成成功：

AI 生成代码行数。
被接受的补全次数。
PR 数量。
chat 请求量。
license 使用率。

这些指标只说明 activity，不说明 value。成熟指标体系要同时看 flow、quality、developer experience、business risk、governance。

11.2 指标树

Engineering Productivity with AI
  DORA outcomes
    deployment frequency
    lead time for changes
    change failure rate
    failed deployment recovery time
    deployment rework rate
  SPACE dimensions
    satisfaction and well-being
    performance
    activity
    communication and collaboration
    efficiency and flow
  AI-assisted SDLC quality
    first-pass CI rate
    reviewer acceptance rate
    critical miss rate
    rework cycles
    test coverage delta
    security gate pass rate
  Developer experience
    time-to-first-successful-agent-task
    context setup time
    review burden
    interruption reduction
    perceived trust
  Governance and risk
    policy violations
    unauthorized tool attempts
    secret exposure incidents
    evidence completeness
    high-risk PR gate compliance
  Business impact
    incident reduction
    release predictability
    regulatory evidence readiness
    support ticket reduction
    capacity unlocked for high-value work

11.3 DORA 指标解释

DORA 指标	AI 可能改善的地方	AI 可能恶化的地方	需要一起看的护栏
Deployment frequency	小批量低风险变更更容易完成	低质量 PR 增加发布噪音	change failure rate、review burden
Lead time for changes	spec、code、test、review 摘要加速	返工和不清晰 diff 抵消收益	rework cycles、first-pass CI
Change failure rate	测试生成和 review guardrails 降低缺陷	AI 生成隐藏缺陷进入生产	incident severity、critical miss
Failed deployment recovery time	agent 辅助定位和修复回归	事故中自动修复扩大影响	incident gate、human approval
Deployment rework rate	更好的上下文减少补丁式返工	快速生成导致更多 hotfix	root cause taxonomy

11.4 SPACE 指标解释

SPACE 维度	AI 场景下的可观测指标	解释边界
Satisfaction and well-being	开发者满意度、认知负荷、信任、是否愿意持续使用	不用满意度单独证明生产力
Performance	高价值任务完成、缺陷下降、可维护性提升	不只看个人产出，要看团队和业务结果
Activity	AI 请求、PR、commit、review comment、测试生成量	activity 只能解释行为，不等于价值
Communication and collaboration	PR 清晰度、review 轮次、handoff 时间、知识共享	AI 摘要应减少沟通成本，而不是掩盖问题
Efficiency and flow	等待时间、上下文切换、CI 修复时间、time-to-acceptable PR	需要结合质量和风险，否则只是更快地产生返工

11.5 Dashboard 视图

Dashboard	主要用户	决策问题
Executive view	CTO、VP Eng、Risk	AI 工程效率是否提升交付能力且没有增加风险？
EM view	Engineering Manager	哪些团队或 repo 从 AI 中获益，哪里 review burden 上升？
Developer view	Developer、Tech Lead	哪些 workflow 节省时间，哪些 agent 输出不值得信任？
Security view	Security、AppSec	AI 是否引入新的漏洞、secret、依赖和越权风险？
Governance view	AI Governance、Audit	高风险变更是否有证据链、审批和 release gate？

12. GitHub Copilot 生产力证据如何使用

GitHub 和 Microsoft Research 的研究提供了重要但不能机械套用的证据：受控实验中，使用 Copilot 的开发者在特定 JavaScript HTTP server 任务上完成速度显著更快；企业研究也显示开发者满意度、采用率和部分 DevOps 活动指标改善。对平台 PM 来说，这些结论的正确用法不是写进 ROI 幻灯片后结束，而是转成内部评估假设。

12.1 证据使用框架

外部证据	可借鉴的结论	企业内必须验证
受控实验显示任务完成更快	AI pair programmer 可以降低部分编码任务时间	本组织的语言、框架、legacy 复杂度和 review burden 是否也改善
用户报告认知负荷下降	AI 可能改善 developer experience	是否减少上下文切换，还是增加审阅 AI 输出的负担
企业采用率和满意度较高	工具上手门槛相对低	是否进入核心 workflow，而不是只被少数开发者尝鲜
PR 和活动指标可能变化	AI 可能提高 throughput	change failure rate、rework、security findings 是否同步受控
Copilot Metrics API 可提供使用数据	adoption 可以被仪表化	使用数据必须与 DORA、SPACE、缺陷和业务指标合并分析

12.2 内部试点评估设计

设计项	推荐做法
Cohort	选择相似团队或相似 repo，设置 pilot group 和 comparison group
Baseline	记录至少 4 到 8 周 DORA、review、defect、developer survey
Workflow	明确测试生成、bug fix、PR 摘要、docs、review 哪些 workflow 被试点
Risk	低中风险 repo 先行，高风险金融核心系统只做受限任务
Metrics	使用量 + flow + quality + security + satisfaction + evidence
Review	每周看定量趋势和开发者访谈，不用单一指标下结论
Decision	根据任务类型扩大、限制或停止，而不是全员统一放开

13. 上线门禁模板

13.1 Release Gate Matrix

Gate	R0	R1	R2	R3	R4
CI	required	required	required	required	required
Unit tests	required	required	required	required	required
Integration / contract tests	context-based	context-based	required	required	required
SAST / secret scan	required	required	required	required	required
SCA / license scan	when dependency changes	when dependency changes	required for dependency changes	required	required
AI trace retention	lightweight	required	required	required	required
Human code owner	optional	required	required	required	required
Domain reviewer	optional	optional	context-based	required	required
Security / risk review	exception-based	exception-based	context-based	required when relevant	required
Release memo	optional	lightweight	required	required	formal
Rollback plan	optional	required	required	required	formal rehearsal
Post-release monitoring	optional	required for changed service	required	required	enhanced

13.2 Gate Memo 模板

# AI-assisted Release Gate Memo

## Change Identity
- Change ID: PAY-REL-2026-06-29-01。
- System: payment-notification-service。
- Risk tier: R3。
- Business owner: payment operations lead。
- Technical owner: payment platform lead。

## AI Involvement
- Agent tasks: defect localization, patch draft, unit tests, PR summary。
- Agent permissions: feature branch, no secret, no production access。
- Agent trace location: controlled audit storage。

## Validation
- Unit tests: passed。
- Integration tests: passed for callback, retry, reversal and idempotency。
- Security scans: no critical or high findings。
- Contract tests: public API unchanged。
- Manual review: payment domain, architecture, QA and release owner approved。

## Release Controls
- Deployment mode: canary followed by staged rollout。
- Monitoring: duplicate notification rate, retry error rate, reversal completion time, complaint signal。
- Rollback: revert deployment and restore previous notification handler。
- Stop condition: approved threshold breach or new customer-impacting defect。

## Decision
- Decision: limited release。
- Approver: system owner。
- Review date: next business day after rollout。

14. 审计证据包模板

AI 生成代码的审计证据不需要保存完整敏感 prompt 原文给所有人看，但必须能证明：谁授权、看了什么上下文、做了什么修改、如何验证、谁批准、何时上线、如何回滚、上线后是否安全。

Evidence ID	证据类别	内容	Owner	保留方式
E01	Change brief	业务目标、风险等级、系统范围、客户影响	PM / EM	Change system
E02	Source-to-spec map	需求来源、政策来源、事故来源、验收标准	PM / BA / Architect	Versioned doc
E03	Agent authorization	agent identity、repo scope、branch、tool、secret policy	Platform / Security	Policy log
E04	Context record	agent 可访问文件、文档、接口契约、排除路径	Platform	Trace metadata
E05	Agent execution trace	plan、tool calls、diff summary、test commands、失败修复循环	Platform	Restricted audit store
E06	Code diff	commit、PR、changed files、risk classification	Developer / Tech Lead	Git
E07	Test evidence	unit、integration、contract、coverage、regression、security scan	QA / Developer	CI artifact
E08	Review evidence	AI findings、人类 review、domain signoff、exception	Code Owner	PR record
E09	Release evidence	gate memo、approval、change window、rollback plan	Release Owner	Release system
E10	Production monitoring	rollout metrics、incident signal、rollback trigger、post-release review	SRE / Ops	Observability platform
E11	Model/tool governance	agent version、model provider、policy version、prompt/instruction version	Platform PM	Registry
E12	Incident learning	defect linked to eval case、RCA、control update	EM / Risk	Postmortem repository

14.1 责任边界声明

AI assistance was used to draft, review or test parts of this change.
The accountable owners for production behavior remain the human submitter,
human reviewers, release approver and system owner.
AI output is treated as an input to the SDLC, not as an independent approval authority.

在金融零售场景，这句话不是形式主义。支付错误、信贷不公平、客户资料泄露、错误通知、监管承诺不一致，都不能用“模型生成”作为免责理由。机构需要证明它建立了合理控制，并且控制真实运行。

15. 平台 Operating Model

15.1 核心角色

Role	责任
Engineering Productivity PM	定义 AI 工程效率路线图、workflow、指标、adoption、价值证明
Platform PM	管理 agent 平台能力、权限、registry、API、治理体验
CTO Staff / Eng Strategy	对齐工程组织目标、预算、rollout、风险偏好
Solution Architect	定义 SDLC 集成、系统边界、release gate、金融核心控制
DevEx Lead	优化开发者体验、IDE/CLI/PR workflow、培训和反馈
Security / AppSec	定义 secure coding、secret、SCA、SAST、supply chain 控制
AI Governance	定义 AI use policy、risk tier、audit evidence、model/tool governance
Engineering Manager	负责团队采用、质量、review 负担、交付结果
Code Owner / Domain Reviewer	对业务语义、系统行为和生产影响负责
Release Manager	管理变更窗口、上线门禁、回滚和发布证据

15.2 RACI：AI-assisted PR

Activity	Developer	Agent	Code Owner	Domain Reviewer	Security	Platform	Release
Define task scope	A/R	C	C	C	C	I	I
Generate patch	A	R	I	I	I	C	I
Generate tests	A	R	C	C	I	I	I
Run CI	R	R	I	I	C	C	I
AI review	C	R	I	I	I	C	I
Human code review	C	I	A/R	C	C	I	I
Domain approval	I	I	C	A/R	C	I	I
Security approval	I	I	C	C	A/R	C	I
Release decision	I	I	C	C	C	I	A/R
Evidence retention	R	C	C	C	C	A/R	R

15.3 治理节奏

Cadence	Meeting	Inputs	Decisions
Weekly	AI engineering adoption review	usage、DORA、PR quality、developer feedback	workflow tuning、training focus
Weekly	AI PR quality review	rejected PR、critical findings、false positives	prompt/rule/eval updates
Biweekly	Security and supply chain review	SAST/SCA/secret findings、dependency changes	policy update、blocked patterns
Monthly	AI engineering governance	risk tier compliance、evidence completeness、incident trend	permission changes、rollout decisions
Quarterly	Productivity value review	cohort analysis、DORA/SPACE trend、cost、business outcomes	vendor strategy、platform roadmap

16. 组织采纳策略

16.1 采用误区

误区	结果	更好的做法
按 license rollout 衡量成功	大量使用但价值不明	按 workflow 和目标 cohort 衡量
只培训提示词	开发者不会把 AI 接入工程流程	培训 spec、tests、review、security、evidence
全员同时放开 agent 权限	风险和噪音同时上升	从低风险 repo 和明确任务开始
把 AI 当绩效监控工具	开发者抵触，指标被游戏化	用团队级指标改善系统，不做个人排名
让 AI reviewer 替代 code owner	高风险语义判断失控	AI 负责发现，人类负责判断和批准
只看速度	质量、审计和安全债上升	speed、quality、risk、experience 一起看

16.2 Adoption playbook

阶段	目标	动作	成功信号
Pilot	找到高价值低风险 workflow	选 2 到 3 个团队，聚焦测试生成、PR 摘要、低风险 bug fix	first-pass CI 上升，reviewer 接受率达标
Workflow hardening	把有效用法标准化	repo instructions、PR 模板、eval cases、training clinic	重复任务可稳定完成
Controlled expansion	扩到更多 repo 和任务	权限矩阵、risk tier gate、cohort metrics	lead time 改善且 failure 不上升
Platformization	形成内部产品	self-service onboarding、metrics dashboard、policy engine	团队可独立接入，治理可追踪
Continuous governance	防止工具漂移和风险累积	eval refresh、quarterly review、incident-derived tests	质量和信任保持稳定

16.3 开发体验指标

指标	采集方式	产品含义
Time-to-first-successful-agent-task	onboarding telemetry	接入门槛是否过高
Context setup time	developer survey + trace	repo 文档和 instructions 是否足够
Prompt-to-acceptable-PR cycles	PR trace	agent 是否理解工程约束
Review burden score	reviewer survey	AI 是否降低还是增加审查成本
Trust by workflow	monthly pulse	哪些任务适合扩大
Abandonment reason	agent task cancellation	工具失败、权限不足、上下文不足还是信任不足
Helpfulness of AI review	reviewer rating	review agent 是否发现真实问题
Developer flow impact	SPACE survey	是否减少中断和认知负荷

17. 30 天训练计划

Day	主题	训练动作	产出
1	AI engineering productivity framing	梳理一个团队的 SDLC 摩擦和 AI workflow 候选	Engineering productivity problem brief
2	DORA baseline	为一个 repo 定义 deployment、lead time、failure、recovery 口径	DORA baseline plan
3	SPACE baseline	设计开发者体验 survey 和访谈问题	SPACE survey
4	AI SDLC blueprint	选一个低风险 workflow 画端到端蓝图	AI SDLC blueprint
5	Repo context design	设计 repo instructions、架构索引、敏感路径排除	Context map
6	Agent permission design	为 docs/test/code/review agent 配权限	Agent permission matrix
7	Week 1 review	对蓝图、权限、指标做 self-review	Week 1 decision memo
8	Spec-to-test workflow	把一个需求转成测试计划和验收标准	Spec-to-test template
9	Test generation guardrails	设计测试完整性检查和 hidden regression idea	Test guardrail checklist
10	Code agent PR flow	设计 agent 分支、CI、PR 摘要、review routing	AI-assisted PR template
11	AI reviewer guardrails	定义 AI reviewer 的 finding taxonomy	Review guardrail matrix
12	Secure coding controls	将 SAST、SCA、secret、license、SBOM 接入 gate	Secure coding gate
13	Supply chain governance	设计 dependency change policy 和 provenance 证据	Supply chain evidence map
14	Week 2 review	用一个历史 PR 复盘 agent 应如何参与	PR simulation report
15	Coding eval suite	建立 10 个内部 eval case 的分类和字段	Eval suite v1
16	Financial domain eval	设计支付、信贷、客户资料三类高风险 cases	Financial eval cards
17	Review agent eval	用历史 PR 设计 precision/recall 评估	Review eval design
18	Long-horizon task eval	设计迁移或依赖升级 agent eval	Long-horizon eval case
19	Eval governance	定义模型、agent、prompt/instruction 变更触发评估	Eval cadence
20	Evidence binder	设计 AI-assisted change 审计证据包	Audit evidence binder
21	Week 3 review	形成 go / limited go / no-go gate memo	Gate memo
22	Pilot cohort design	选团队、repo、workflow 和对照组	Pilot plan
23	Adoption analytics	设计使用量 + DORA + SPACE + quality dashboard	Metrics dashboard sketch
24	Training clinic	设计开发者训练课程，不讲基础提示词，讲 SDLC workflow	Training outline
25	Risk communication	写给 CTO、CISO、风险负责人的 rollout memo	Executive memo
26	Operating model	定义 RACI、会议节奏、例外机制	Operating model
27	Financial release gate	为支付或信贷系统设计 R3/R4 门禁	Financial release gate
28	Incident loop	把一次 AI 相关缺陷转成 eval case 和控制更新	Incident-to-eval loop
29	Portfolio packaging	整理作品集：蓝图、矩阵、eval、gate、dashboard	Portfolio asset pack
30	Interview simulation	准备 8 个高级面试回答并录制讲解	Interview answer set

18. 面试回答

18.1 如何定义 AI engineering productivity，而不是只看代码生成量？

30 秒回答 我会把 AI engineering productivity 定义为“在不增加生产风险的前提下，提高软件交付系统从需求到上线的流动效率、质量和开发者体验”。代码生成量只是 activity，不是 outcome。真正要看 DORA、SPACE、缺陷、返工、review burden、安全门禁和审计证据。

2 分钟回答 我会分三层衡量。第一层是 DORA，看 deployment frequency、lead time、change failure、recovery 和 rework 是否改善。第二层是 SPACE，看满意度、flow、协作、效率，而不是个人产出排名。第三层是 AI-specific quality，看 first-pass CI、reviewer acceptance、critical miss、security findings、evidence completeness。金融零售还要加高风险 PR gate compliance，因为支付、信贷、客户系统的变更速度不能以牺牲审计和客户权益为代价。

18.2 你会如何设计企业 code-agent operating system？

30 秒回答 我会把它设计成 SDLC 控制面：work intake、context layer、agent runtime、policy control plane、eval/CI、PR guardrails、release gate、observability 和 evidence binder，而不是简单部署一个聊天工具。

2 分钟回答 核心是把 agent 放进现有工程责任链。Agent 需要独立 identity、最小权限、repo 和 branch scope、sandbox、tool allowlist、secret restriction。每个 agent 任务要保留 trace、diff、测试和 review evidence。高风险系统必须按 PR risk tier 走 code owner、domain reviewer、security/risk review 和 release gate。平台 PM 负责自助接入和指标，安全负责权限和供应链，架构师负责 release control，工程经理负责质量和 adoption。

18.3 AI reviewer 和人工 reviewer 如何分工？

30 秒回答 AI reviewer 负责可规模化的机械检查和初筛，例如 diff coherence、测试缺口、安全模式、依赖和文档漂移。人工 reviewer 负责业务语义、系统行为、风险接受、架构取舍和最终批准。

2 分钟回答 在金融零售里，AI reviewer 不能替代支付 domain owner 或信贷 policy owner。比如支付状态机改动，AI 可以提醒幂等性测试缺失、敏感日志、API 兼容性，但“这个状态转换是否符合业务和监管要求”必须由人类负责。AI findings 也要评估 precision 和 false positive，否则会制造 review fatigue。

18.4 如何构建 coding agent eval suite？

30 秒回答 我会用三层 eval：公共 benchmark 建立能力 baseline，内部 repo 任务集验证企业适配，生产质量 loop 从真实 PR、缺陷和事故补充回归案例。

2 分钟回答 内部 eval suite 至少包含 bug fix、feature、secure coding、金融领域、review、docs、long-horizon migration。每个 case 要定义 allowed context、disallowed context、hidden tests、成功指标、失败模式和证据。关键指标包括 task success、reviewer acceptance、critical miss、test integrity violation、diff efficiency、first-pass CI、rework cycles 和 evidence completeness。

18.5 如何防止 AI 生成代码带来安全和供应链风险？

30 秒回答 我会把 AI coding 纳入 secure SDLC：最小权限、content exclusion、secret scan、SAST、SCA、license scan、SBOM、provenance、lockfile policy 和 branch protection。

2 分钟回答 关键是不要把 agent 当成可信开发者。它只能在受控分支和 sandbox 中工作，不直接访问生产 secret，不自由安装依赖，不绕过 lockfile。高风险依赖变更必须触发 SCA、license、SBOM 和 reviewer 审批。对于金融系统，还要检查敏感日志、PII、权限边界和审计字段，确保 AI 没有把测试便利变成生产漏洞。

18.6 在支付、信贷和核心客户系统中，如何设计 AI-assisted release gate？

30 秒回答 我会按变更风险分级。支付、信贷、核心客户资料通常是 R3/R4，需要 domain reviewer、架构、QA、安全或风险审批、回滚计划、灰度和上线后监控。Agent 可以辅助实现和测试，但不能批准上线。

2 分钟回答 支付关注幂等、状态机、账务一致性、重复通知和回滚；信贷关注 policy source、边界样本、公平性切片、人工复核和客户权益；客户系统关注数据血缘、权限、隐私选择和下游兼容。Release gate 要输出 pass、limited release、no-go 或 exception，并保存 gate memo、测试、审批、监控和 rollback evidence。

18.7 如何向 CTO 证明 Copilot 或 coding agent 的 ROI？

30 秒回答 我不会只用 license 使用率或代码行数证明 ROI。我会做 cohort pilot，用 DORA、SPACE、质量、安全、review burden 和业务结果比较试点前后和对照组。

2 分钟回答 外部研究说明 AI coding 工具有潜力，但每个企业的 legacy、质量门禁和风险不同。我的做法是先选高价值低风险 workflow，例如测试生成、PR 摘要、低风险 bug fix。记录 4 到 8 周 baseline，再比较 lead time、first-pass CI、review cycles、developer satisfaction、defect leakage 和 security findings。ROI 还要扣除 review burden、工具成本、培训和治理成本。

18.8 模型生成代码的责任边界怎么定义？

30 秒回答 AI 输出是 SDLC 输入，不是审批主体。生产责任仍在提交者、reviewer、release approver 和系统 owner。证据包必须记录 AI 参与了什么、谁审了、怎么测了、谁批准上线。

2 分钟回答 这点在金融零售尤其重要。客户受损、支付错误、信贷不公平或数据泄露时，机构不能用“AI 生成”作为解释。合理责任模型是：agent 有 trace 和权限记录，developer 对提交负责，code owner 对代码质量负责，domain owner 对业务规则负责，release owner 对上线负责，风险和安全对控制有效性提出 challenge。

19. 最小可落地交付物清单

交付物	最小内容	成熟内容
AI SDLC 蓝图	阶段、AI 动作、人类 owner、控制、证据	按风险 tier 和系统类型分流
Agent 权限矩阵	repo、branch、tool、secret、network、PR 权限	policy-as-code + audit dashboard
Coding eval suite	20 到 50 个内部 cases	持续从 PR、事故、review feedback 补充
DORA/SPACE 指标树	baseline、pilot、dashboard	cohort analysis + business impact
PR 风险分类	R0 到 R4 规则和 reviewer routing	自动分类建议 + 人工 override
上线门禁	CI、security、review、release memo、rollback	risk-based release workflow
审计证据包	change、agent trace、test、review、approval、monitoring	control-to-evidence matrix
30 天训练计划	workflow training、eval、gate、portfolio	role-based academy + champion network
面试回答	8 个高级问题	用真实作品集资产支撑回答

20. 参考来源

以下链接用于校准概念、指标和治理框架。正式企业落地应结合所在司法辖区、机构政策、供应商合同、数据分类和监管要求复核。

来源	链接	本文使用方式
DORA software delivery performance metrics	https://dora.dev/guides/dora-metrics/	定义软件交付流动性和稳定性指标，作为 AI 工程效率的 outcome 指标
SPACE of Developer Productivity	https://queue.acm.org/detail.cfm?id=3454124	用多维框架衡量开发者生产力，避免只看 activity 或单一指标
Microsoft Research: The Impact of AI on Developer Productivity	https://www.microsoft.com/en-us/research/publication/the-impact-of-ai-on-developer-productivity-evidence-from-github-copilot/	参考 GitHub Copilot 受控实验的生产力证据和适用边界
GitHub Blog: Copilot productivity and happiness research	https://github.blog/news-insights/research/research-quantifying-github-copilots-impact-on-developer-productivity-and-happiness/	参考开发者满意度、认知负荷和受控实验结果
GitHub Blog: Copilot in the enterprise with Accenture	https://github.blog/news-insights/research/research-quantifying-github-copilots-impact-in-the-enterprise-with-accenture/	参考企业采用、满意度和 DevOps telemetry 研究设计
GitHub Docs: Copilot usage metrics	https://docs.github.com/en/copilot/concepts/copilot-usage-metrics/copilot-metrics	参考 Copilot adoption 和 usage instrumentation
GitHub Docs: Copilot Metrics API	https://docs.github.com/en/rest/copilot/copilot-usage-metrics	参考组织级 Copilot usage 数据接入
GitHub Docs: Copilot code review	https://docs.github.com/en/copilot/concepts/agents/code-review	参考 AI code review 的产品能力边界
GitHub Docs: Copilot content exclusion	https://docs.github.com/en/copilot/how-tos/configure-content-exclusion/exclude-content-from-copilot	参考敏感路径和仓库内容排除控制
GitHub Docs: Copilot audit logs	https://docs.github.com/en/copilot/how-tos/administer-copilot/manage-for-enterprise/review-audit-logs	参考企业 Copilot 审计日志能力
NIST SP 800-218 SSDF	https://csrc.nist.gov/pubs/sp/800/218/final	将 secure software development practices 映射到 AI-assisted SDLC
NIST SSDF project	https://csrc.nist.gov/projects/ssdf	参考 SSDF practices、社区 profile 和 GenAI 相关扩展
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern、Map、Measure、Manage 思路组织 AI 风险治理
NIST AI RMF Playbook	https://www.nist.gov/itl/ai-risk-management-framework/nist-ai-rmf-playbook	参考 AI 风险管理行动、结果和持续改进
NIST AI 600-1 Generative AI Profile	https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence	参考生成式 AI 特有风险和管理行动
SWE-bench	https://www.swebench.com/	参考真实 GitHub issue 驱动的软件工程 benchmark
SWE-bench Verified	https://www.swebench.com/verified.html	参考人工验证的 coding agent eval subset
Terminal-Bench	https://www.tbench.ai/	参考 terminal agent 的任务评估方向
OWASP Top 10 for LLM Applications	https://owasp.org/www-project-top-10-for-large-language-model-applications/	参考 prompt injection、sensitive disclosure、excessive agency 等 AI 风险类别