Sociotechnical AI / Resilience:工作系统
一句话:
Sociotechnical AI / Resilience / Work-as-Done 解读
面向对象: AI Product Lead / AI Architect / Senior BA / Operations Lead / Governance Lead / Change Lead。 核心问题: 很多 AI 项目把系统边界画到模型、RAG、API 和 UI 为止, 但真实成败取决于人、流程、例外、工作负载、信任、反馈、组织职责和持续改进。AI 上线后, 工作会被重新分配, 责任会被重新解释, 例外会被放大或隐藏。 学习目标: 用社会技术系统和韧性工程视角, 把 AI 产品从“功能上线”升级为“可运营、可学习、可恢复、可治理的工作系统”。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| NIST AI Risk Management Framework | https://www.nist.gov/itl/ai-risk-management-framework | 将 AI 系统放入组织治理、风险、测量和持续管理循环 |
| Microsoft Guidelines for Human-AI Interaction | https://www.microsoft.com/en-us/research/publication/guidelines-for-human-ai-interaction/ | 参考 AI 交互中的期望校准、反馈、错误处理、人工控制 |
| Google PAIR Guidebook | https://pair.withgoogle.com/guidebook/ | 参考以用户任务、数据、反馈和人机协作为中心的 AI 产品设计 |
| Team Topologies | https://teamtopologies.com/ | 借鉴 team boundaries、cognitive load、interaction modes 对组织架构和平台能力的影响 |
一句话:
Sociotechnical AI 把 AI 看成由人、模型、数据、流程、工具、政策和反馈共同构成的工作系统; 产品成功来自整体适配, 不是模型能力单点领先。
1. Work-as-Imagined vs Work-as-Done
AI PRD 常描述 work-as-imagined:
用户提出问题 -> AI 给出建议 -> 用户确认 -> 系统执行 -> 流程完成
真实 work-as-done 往往是:
用户问题不完整
政策有例外
系统数据缺字段
客户情绪影响表达
一线员工有 SLA 压力
二线团队有 backlog
AI 引用看似正确但不适合这个客户
人工为了赶时间直接采纳
错误在下游投诉或审计中才暴露
如果只按 work-as-imagined 设计, AI 会在真实工作流中制造新风险:
- 把判断压力转移给一线。
- 增加二线复核负载。
- 让异常 case 更难被发现。
- 让用户误以为 AI 输出就是最终结论。
- 让组织把责任推给“模型”或“人工确认”。
2. AI 工作系统的组成
| 组成 | 关键问题 |
|---|---|
| Human Actors | 谁使用 AI? 谁审核? 谁承担责任? 谁有权 override? |
| AI Capability | AI 是检索、总结、分类、建议、决策还是执行? |
| Data / Knowledge | 数据来源是否权威、及时、可访问、可删除? |
| Workflow | AI 插入哪一步? 改变哪些 handoff? |
| Tools / APIs | AI 能读写哪些系统? 权限和限额是什么? |
| Policies | 合规、业务、风险、品牌、客户权益约束是什么? |
| Feedback | 用户如何纠错? 错误如何进入改进循环? |
| Monitoring | 谁看 dashboard? 什么信号触发行动? |
| Governance | 谁批准上线、扩展、暂停、下线? |
| Organization | 哪个团队拥有平台、知识、模型、运营、风险? |
高级 AI 产品设计要同时设计这些元素。
3. Human-AI Collaboration Patterns
| 模式 | AI 角色 | 人类角色 | 适用场景 | 风险 |
|---|---|---|---|---|
| Drafting | 生成草稿 | 编辑、批准 | 客服回复、报告初稿 | 人工过度信任 |
| Retrieval | 找依据 | 判断适用性 | 政策、知识库查询 | 引用正确但上下文不适用 |
| Triage | 排序、分类 | 复核高风险 | AML alert、投诉队列 | 低估长尾风险 |
| Recommendation | 给建议 | 接受、拒绝、override | 财富建议、下一步动作 | 责任边界模糊 |
| Decision Support | 给评分和理由 | 做最终决策 | 信贷、欺诈调查 | 解释不足、偏差 |
| Execution Agent | 调用工具执行 | 批准、监控、接管 | 退款、case update | 过度自动化 |
| Coach | 引导用户学习 | 用户自我决策 | 理财教育、员工培训 | 用户误解为正式建议 |
每种模式都需要不同的 UI、control、eval 和 operating model。
4. Handoff / Exception / Load
4.1 Handoff
handoff 不只是“转人工”。需要定义:
- 谁接手?
- 接手时看到什么 evidence bundle?
- AI 的不确定性和失败原因是否可见?
- 当前 SLA 是否重新计算?
- 客户是否知道状态变化?
- handoff 是否进入监控指标?
4.2 Exception
AI 系统的真实价值常被 exception 决定:
- 数据缺失。
- 政策冲突。
- 客户身份异常。
- 监管敏感话术。
- 多系统记录不一致。
- 用户请求超出授权范围。
- 模型置信低但语气肯定。
产品要把 exception 当一等公民, 而不是边角备注。
4.3 Load
AI 可能降低一个团队的负载, 同时增加另一个团队的负载:
| 表面收益 | 隐藏负载 |
|---|---|
| 一线客服更快回复 | 二线复核增加 |
| AML 初筛更快 | 高风险 case 积压 |
| 自动生成报告 | 审核人员需要检查更多文本 |
| agent 自动更新 CRM | 数据治理团队处理更多异常 |
要测量 total system load, 不是只测单点效率。
5. Resilience Metrics
韧性不是“永不出错”, 而是系统能发现、吸收、恢复和学习。
| 韧性能力 | 指标 |
|---|---|
| Detect | incident detection time、unsafe output discovery rate、drift alert coverage |
| Absorb | fallback success rate、manual queue capacity、graceful degradation rate |
| Recover | MTTR、rollback time、customer remediation time |
| Learn | error-to-fix cycle time、eval set update rate、policy update propagation time |
| Adapt | new scenario onboarding time、workflow change lead time |
| Coordinate | handoff completion rate、ownership clarity、cross-team review SLA |
这些指标比单纯 AI adoption 更能说明系统是否健康。
6. AI Operating Model
一个成熟的 AI operating model 至少包含:
| Capability | Owner | 关键职责 |
|---|---|---|
| Product Outcome | PM / Business Owner | 业务价值、用户体验、优先级、pilot |
| Requirement & Eval Contract | Senior BA / PM / QA | GQM、acceptance、golden set、UAT |
| Architecture | Architect | pattern、integration、quality attributes、ADR |
| Model / Prompt / RAG | AI Engineering | 模型、prompt、retrieval、版本管理 |
| Data / Knowledge | Data Owner / Knowledge Owner | source authority、lineage、freshness、权限 |
| Risk & Compliance | Risk / Compliance / Legal | policy, residual risk, review, evidence |
| Security & Privacy | Security / Privacy | threat model、DLP、access、logging |
| Operations | Ops Lead | review workload、handoff、SOP、incident response |
| Monitoring | Platform / SRE / Model Ops | dashboard、alert、drift、rollback |
| Continuous Improvement | Cross-functional AI Review Board | 错误复盘、eval 更新、策略调整 |
RACI 必须明确到真实动作:
- 谁能批准模型升级?
- 谁能修改知识库?
- 谁能放宽 guardrail?
- 谁能暂停 agent 写权限?
- 谁负责客户补救?
- 谁拥有 eval set 的代表性?
7. 金融零售案例
7.1 分行财富顾问 Copilot
Work-as-imagined:
顾问输入客户情况 -> AI 生成资产配置建议 -> 顾问确认 -> 客户接受
Work-as-done:
- 客户信息分散在 CRM、交易、风险测评和线下沟通。
- 顾问有销售压力和合规责任。
- 客户可能把教育性解释理解成正式建议。
- 市场信息和产品适配性快速变化。
- AI 生成内容需要 disclosure、suitability 和记录留痕。
设计重点:
- 把 AI 限定为 education / preparation / explanation, 高风险建议必须顾问确认。
- 显示资料缺口和不适用假设。
- 自动生成 evidence bundle, 而不是只生成漂亮话术。
- 监控 override、客户投诉、销售偏差和产品集中度。
7.2 AML Analyst 工作系统
AI summary 可能让 analyst 更快, 但也可能:
- 降低对原始交易的检查。
- 把模型总结当事实。
- 让二线复核只看 AI 生成 rationale。
需要:
- fact / inference / recommendation 分离。
- evidence trace。
- sampled review。
- high-risk mandatory escalation。
- analyst feedback 进入 eval set。
7.3 客服 Copilot
真正的成功不是回答更长, 而是:
- 客服更快理解政策。
- 客户得到一致但不误导的答复。
- 异常和投诉被及时升级。
- 错误输出能被发现并修复。
- 客服不会因为 AI 增加认知负担。
8. 反模式
| 反模式 | 表现 | 后果 |
|---|---|---|
| Model-centric delivery | 只汇报模型指标 | 真实工作流问题被忽略 |
| Fake HITL | UI 上有人工确认, 但人没有时间和证据判断 | 责任转移而非风险控制 |
| Adoption theater | 只看使用次数和采纳率 | 过度信任被误当成功 |
| Hidden work shift | 一个团队效率提升, 另一个团队负载增加 | 系统总效率下降 |
| Exception blindness | 只优化 happy path | 事故集中在长尾场景 |
| No learning loop | 用户反馈没有进入 eval 和产品改进 | 同类错误重复发生 |
| Governance by meeting | 靠会议决定上线和放宽限制 | 缺少可追溯证据 |
9. 设计模板
# Sociotechnical AI Design Brief
## 1. Work-as-Imagined
- Target workflow:
- AI inserted step:
- Expected value:
## 2. Work-as-Done Discovery
- Real exceptions:
- Informal workarounds:
- Data gaps:
- Handoff pain:
- Load constraints:
## 3. Human-AI Collaboration Model
- AI role:
- Human role:
- Automation level:
- Trust calibration:
- Override and feedback:
## 4. Operating Model
- Owners:
- Review cadence:
- Escalation path:
- Incident response:
- Change control:
## 5. Resilience Metrics
- Detect:
- Absorb:
- Recover:
- Learn:
- Adapt:
## 6. Governance Evidence
- Eval contract:
- ADR:
- Risk acceptance:
- Monitoring dashboard:
10. 面试回答
Q1: 为什么很多 AI 项目上线后效果不好?
30 秒版本:
因为它们把 AI 当模型功能, 没把它当社会技术工作系统。真实成败取决于工作流、例外、人工负载、信任校准、数据质量、反馈循环和治理责任。如果只优化 demo 和 adoption, 很容易把风险和负载转移到下游团队。
Q2: 你会如何设计 AI Copilot 的上线运营模型?
30 秒版本:
我会先对比 work-as-imagined 和 work-as-done, 找出真实例外和 handoff; 再定义 AI 与人的协作模式、HITL 控制点、反馈机制、monitoring 和 incident response。上线不是结束, 还要有 eval 更新、知识更新、模型版本管理和跨团队 review cadence。
追问准备:
| 追问 | 回答要点 |
|---|---|
| 怎么避免人工审核流于形式? | 给 reviewer evidence、时间、权限和抽检机制 |
| 怎么衡量 AI 是否真的减负? | 测 total system load, 不只测一线处理时长 |
| 怎么处理用户过度信任? | UI 信任校准、引用、不确定性、升级和教育 |
11. 作品集交付物
- Work-as-Imagined vs Work-as-Done Map。
- Human-AI Collaboration Model。
- Handoff / Exception Matrix。
- Total System Load Analysis。
- AI Operating Model RACI。
- Resilience Metrics Dashboard。
- Feedback-to-Eval Loop Design。
- Incident and Rollback Playbook。
- Sociotechnical AI ADR。
这套作品能体现你对 AI 产品的理解已经超出“功能 + 模型”, 进入组织、架构、风险和运营一体化设计。