返回 Papers
AI 底层逻辑 / 经典论文

Sociotechnical AI / Resilience:工作系统

一句话:

329ai-foundations/papers/66-sociotechnical-ai-resilience-work-as-done.md

Sociotechnical AI / Resilience / Work-as-Done 解读

面向对象: AI Product Lead / AI Architect / Senior BA / Operations Lead / Governance Lead / Change Lead。 核心问题: 很多 AI 项目把系统边界画到模型、RAG、API 和 UI 为止, 但真实成败取决于人、流程、例外、工作负载、信任、反馈、组织职责和持续改进。AI 上线后, 工作会被重新分配, 责任会被重新解释, 例外会被放大或隐藏。 学习目标: 用社会技术系统和韧性工程视角, 把 AI 产品从“功能上线”升级为“可运营、可学习、可恢复、可治理的工作系统”。


Source Anchors

SourceLink用途
NIST AI Risk Management Frameworkhttps://www.nist.gov/itl/ai-risk-management-framework将 AI 系统放入组织治理、风险、测量和持续管理循环
Microsoft Guidelines for Human-AI Interactionhttps://www.microsoft.com/en-us/research/publication/guidelines-for-human-ai-interaction/参考 AI 交互中的期望校准、反馈、错误处理、人工控制
Google PAIR Guidebookhttps://pair.withgoogle.com/guidebook/参考以用户任务、数据、反馈和人机协作为中心的 AI 产品设计
Team Topologieshttps://teamtopologies.com/借鉴 team boundaries、cognitive load、interaction modes 对组织架构和平台能力的影响

一句话:

Sociotechnical AI 把 AI 看成由人、模型、数据、流程、工具、政策和反馈共同构成的工作系统; 产品成功来自整体适配, 不是模型能力单点领先。


1. Work-as-Imagined vs Work-as-Done

AI PRD 常描述 work-as-imagined:

用户提出问题 -> AI 给出建议 -> 用户确认 -> 系统执行 -> 流程完成

真实 work-as-done 往往是:

用户问题不完整
政策有例外
系统数据缺字段
客户情绪影响表达
一线员工有 SLA 压力
二线团队有 backlog
AI 引用看似正确但不适合这个客户
人工为了赶时间直接采纳
错误在下游投诉或审计中才暴露

如果只按 work-as-imagined 设计, AI 会在真实工作流中制造新风险:

  • 把判断压力转移给一线。
  • 增加二线复核负载。
  • 让异常 case 更难被发现。
  • 让用户误以为 AI 输出就是最终结论。
  • 让组织把责任推给“模型”或“人工确认”。

2. AI 工作系统的组成

组成关键问题
Human Actors谁使用 AI? 谁审核? 谁承担责任? 谁有权 override?
AI CapabilityAI 是检索、总结、分类、建议、决策还是执行?
Data / Knowledge数据来源是否权威、及时、可访问、可删除?
WorkflowAI 插入哪一步? 改变哪些 handoff?
Tools / APIsAI 能读写哪些系统? 权限和限额是什么?
Policies合规、业务、风险、品牌、客户权益约束是什么?
Feedback用户如何纠错? 错误如何进入改进循环?
Monitoring谁看 dashboard? 什么信号触发行动?
Governance谁批准上线、扩展、暂停、下线?
Organization哪个团队拥有平台、知识、模型、运营、风险?

高级 AI 产品设计要同时设计这些元素。


3. Human-AI Collaboration Patterns

模式AI 角色人类角色适用场景风险
Drafting生成草稿编辑、批准客服回复、报告初稿人工过度信任
Retrieval找依据判断适用性政策、知识库查询引用正确但上下文不适用
Triage排序、分类复核高风险AML alert、投诉队列低估长尾风险
Recommendation给建议接受、拒绝、override财富建议、下一步动作责任边界模糊
Decision Support给评分和理由做最终决策信贷、欺诈调查解释不足、偏差
Execution Agent调用工具执行批准、监控、接管退款、case update过度自动化
Coach引导用户学习用户自我决策理财教育、员工培训用户误解为正式建议

每种模式都需要不同的 UI、control、eval 和 operating model。


4. Handoff / Exception / Load

4.1 Handoff

handoff 不只是“转人工”。需要定义:

  • 谁接手?
  • 接手时看到什么 evidence bundle?
  • AI 的不确定性和失败原因是否可见?
  • 当前 SLA 是否重新计算?
  • 客户是否知道状态变化?
  • handoff 是否进入监控指标?

4.2 Exception

AI 系统的真实价值常被 exception 决定:

  • 数据缺失。
  • 政策冲突。
  • 客户身份异常。
  • 监管敏感话术。
  • 多系统记录不一致。
  • 用户请求超出授权范围。
  • 模型置信低但语气肯定。

产品要把 exception 当一等公民, 而不是边角备注。

4.3 Load

AI 可能降低一个团队的负载, 同时增加另一个团队的负载:

表面收益隐藏负载
一线客服更快回复二线复核增加
AML 初筛更快高风险 case 积压
自动生成报告审核人员需要检查更多文本
agent 自动更新 CRM数据治理团队处理更多异常

要测量 total system load, 不是只测单点效率。


5. Resilience Metrics

韧性不是“永不出错”, 而是系统能发现、吸收、恢复和学习。

韧性能力指标
Detectincident detection time、unsafe output discovery rate、drift alert coverage
Absorbfallback success rate、manual queue capacity、graceful degradation rate
RecoverMTTR、rollback time、customer remediation time
Learnerror-to-fix cycle time、eval set update rate、policy update propagation time
Adaptnew scenario onboarding time、workflow change lead time
Coordinatehandoff completion rate、ownership clarity、cross-team review SLA

这些指标比单纯 AI adoption 更能说明系统是否健康。


6. AI Operating Model

一个成熟的 AI operating model 至少包含:

CapabilityOwner关键职责
Product OutcomePM / Business Owner业务价值、用户体验、优先级、pilot
Requirement & Eval ContractSenior BA / PM / QAGQM、acceptance、golden set、UAT
ArchitectureArchitectpattern、integration、quality attributes、ADR
Model / Prompt / RAGAI Engineering模型、prompt、retrieval、版本管理
Data / KnowledgeData Owner / Knowledge Ownersource authority、lineage、freshness、权限
Risk & ComplianceRisk / Compliance / Legalpolicy, residual risk, review, evidence
Security & PrivacySecurity / Privacythreat model、DLP、access、logging
OperationsOps Leadreview workload、handoff、SOP、incident response
MonitoringPlatform / SRE / Model Opsdashboard、alert、drift、rollback
Continuous ImprovementCross-functional AI Review Board错误复盘、eval 更新、策略调整

RACI 必须明确到真实动作:

  • 谁能批准模型升级?
  • 谁能修改知识库?
  • 谁能放宽 guardrail?
  • 谁能暂停 agent 写权限?
  • 谁负责客户补救?
  • 谁拥有 eval set 的代表性?

7. 金融零售案例

7.1 分行财富顾问 Copilot

Work-as-imagined:

顾问输入客户情况 -> AI 生成资产配置建议 -> 顾问确认 -> 客户接受

Work-as-done:

  • 客户信息分散在 CRM、交易、风险测评和线下沟通。
  • 顾问有销售压力和合规责任。
  • 客户可能把教育性解释理解成正式建议。
  • 市场信息和产品适配性快速变化。
  • AI 生成内容需要 disclosure、suitability 和记录留痕。

设计重点:

  • 把 AI 限定为 education / preparation / explanation, 高风险建议必须顾问确认。
  • 显示资料缺口和不适用假设。
  • 自动生成 evidence bundle, 而不是只生成漂亮话术。
  • 监控 override、客户投诉、销售偏差和产品集中度。

7.2 AML Analyst 工作系统

AI summary 可能让 analyst 更快, 但也可能:

  • 降低对原始交易的检查。
  • 把模型总结当事实。
  • 让二线复核只看 AI 生成 rationale。

需要:

  • fact / inference / recommendation 分离。
  • evidence trace。
  • sampled review。
  • high-risk mandatory escalation。
  • analyst feedback 进入 eval set。

7.3 客服 Copilot

真正的成功不是回答更长, 而是:

  • 客服更快理解政策。
  • 客户得到一致但不误导的答复。
  • 异常和投诉被及时升级。
  • 错误输出能被发现并修复。
  • 客服不会因为 AI 增加认知负担。

8. 反模式

反模式表现后果
Model-centric delivery只汇报模型指标真实工作流问题被忽略
Fake HITLUI 上有人工确认, 但人没有时间和证据判断责任转移而非风险控制
Adoption theater只看使用次数和采纳率过度信任被误当成功
Hidden work shift一个团队效率提升, 另一个团队负载增加系统总效率下降
Exception blindness只优化 happy path事故集中在长尾场景
No learning loop用户反馈没有进入 eval 和产品改进同类错误重复发生
Governance by meeting靠会议决定上线和放宽限制缺少可追溯证据

9. 设计模板

# Sociotechnical AI Design Brief

## 1. Work-as-Imagined
- Target workflow:
- AI inserted step:
- Expected value:

## 2. Work-as-Done Discovery
- Real exceptions:
- Informal workarounds:
- Data gaps:
- Handoff pain:
- Load constraints:

## 3. Human-AI Collaboration Model
- AI role:
- Human role:
- Automation level:
- Trust calibration:
- Override and feedback:

## 4. Operating Model
- Owners:
- Review cadence:
- Escalation path:
- Incident response:
- Change control:

## 5. Resilience Metrics
- Detect:
- Absorb:
- Recover:
- Learn:
- Adapt:

## 6. Governance Evidence
- Eval contract:
- ADR:
- Risk acceptance:
- Monitoring dashboard:

10. 面试回答

Q1: 为什么很多 AI 项目上线后效果不好?

30 秒版本:

因为它们把 AI 当模型功能, 没把它当社会技术工作系统。真实成败取决于工作流、例外、人工负载、信任校准、数据质量、反馈循环和治理责任。如果只优化 demo 和 adoption, 很容易把风险和负载转移到下游团队。

Q2: 你会如何设计 AI Copilot 的上线运营模型?

30 秒版本:

我会先对比 work-as-imagined 和 work-as-done, 找出真实例外和 handoff; 再定义 AI 与人的协作模式、HITL 控制点、反馈机制、monitoring 和 incident response。上线不是结束, 还要有 eval 更新、知识更新、模型版本管理和跨团队 review cadence。

追问准备:

追问回答要点
怎么避免人工审核流于形式?给 reviewer evidence、时间、权限和抽检机制
怎么衡量 AI 是否真的减负?测 total system load, 不只测一线处理时长
怎么处理用户过度信任?UI 信任校准、引用、不确定性、升级和教育

11. 作品集交付物

  1. Work-as-Imagined vs Work-as-Done Map。
  2. Human-AI Collaboration Model。
  3. Handoff / Exception Matrix。
  4. Total System Load Analysis。
  5. AI Operating Model RACI。
  6. Resilience Metrics Dashboard。
  7. Feedback-to-Eval Loop Design。
  8. Incident and Rollback Playbook。
  9. Sociotechnical AI ADR。

这套作品能体现你对 AI 产品的理解已经超出“功能 + 模型”, 进入组织、架构、风险和运营一体化设计。