AI Sociotechnical Resilience Operating Model Playbook
以下来源是本文的外部锚点。本文把它们转成产品、架构、运营、风险和组织设计语言,不把任何来源简化为单一检查项。访问日期按 2026-06-29 记录。
AI Sociotechnical Resilience Operating Model Playbook
定位:面向高级 AI PM / AI BA / Product Architect / Enterprise Architect / Operations Leader / Model Risk / Compliance,把 AI 系统从“模型功能”升级为由人、流程、模型、数据、工具、治理和反馈共同构成的 sociotechnical work system。
适用边界:本文面向金融零售中的 AML、客服、信贷、分行运营、财富顾问、运营中台、风险运营和员工 copilot 场景。重点不是基础 BA、流程图入门或单点 prompt 设计,而是训练高级角色如何设计 AI 工作系统的韧性、协作、交接、例外、负载、反馈和运营模型。
重要说明:本文是学习、作品集和内部方案训练材料,不构成法律意见、合规结论、模型验证报告、审计意见或监管解释。正式项目必须由 Legal、Compliance、Model Risk、Operational Risk、Privacy、Security、Business Owner、Operations Owner、Technology Owner 和 Internal Audit 结合机构类型、司法辖区、客户影响和内部政策确认。
Source Anchors
以下来源是本文的外部锚点。本文把它们转成产品、架构、运营、风险和组织设计语言,不把任何来源简化为单一检查项。访问日期按 2026-06-29 记录。
| Anchor | Official / primary source | 本文使用方式 |
|---|---|---|
| NIST AI Risk Management Framework | https://www.nist.gov/itl/ai-risk-management-framework | 用 Govern / Map / Measure / Manage 组织 AI 风险、角色、监控、事件、反馈和持续改进;强调 AI risk management 是跨生命周期和跨组织的能力。 |
| Microsoft Guidelines for Human-AI Interaction | https://www.microsoft.com/en-us/research/publication/guidelines-for-human-ai-interaction/ | 用 Human-AI Interaction 的阶段性原则设计人机协作、控制权、纠错、解释、反馈、适应和变更通知。 |
| Google People + AI Guidebook | https://pair.withgoogle.com/guidebook/ | 用 human-centered AI、mental model、trust calibration、feedback and control、graceful failure 的视角设计真实工作场景中的 AI 产品。 |
| NIST AI RMF Core | https://airc.nist.gov/airmf-resources/airmf/5-sec-core/ | 用 Govern / Map / Measure / Manage 的核心结构把 sociotechnical 风险转成运营闭环和管理层语言。 |
| AI Human-AI Interaction Product Design Playbook | docs/AI_HUMAN_AI_INTERACTION_PRODUCT_DESIGN_PLAYBOOK.md | 复用交互控制、人工接管、信任校准和反馈设计,但本文进一步把这些能力放入组织运营模型。 |
| AI Operating Model / RACI / Runbook | docs/AI_OPERATING_MODEL_RACI_RUNBOOK.md | 复用 owner、RACI、governance cadence、incident 和 change management 结构,本文补充 work system、韧性和前线运营能力。 |
| AI Incident / Postmortem / Reliability Playbook | docs/AI_INCIDENT_POSTMORTEM_RELIABILITY_PLAYBOOK.md | 把 incident、postmortem、containment、rollback 和 reliability review 扩展到日常韧性指标与组织学习。 |
| AI Observability / Cost / SLO Playbook | docs/AI_OBSERVABILITY_COST_SLO_PLAYBOOK.md | 把 trace、span、SLO、cost ledger、quality dashboard 接入 handoff、load、feedback 和 resilience dashboard。 |
1. One-Sentence Positioning / 一句话定位
Sociotechnical AI 的核心不是“把模型嵌入流程”,而是:
Sociotechnical AI Operating Model =
把 AI 能力设计成一个可运行的工作系统,
其中人、流程、模型、数据、工具、治理、反馈和组织激励相互约束,
系统在正常、异常、过载、变化和事故中仍能保持可解释、可接管、可恢复、可学习。
对高级 AI PM / BA / Architect 来说,真正的问题不是:
模型准确率能不能到 90%?
而是:
真实工作发生时,谁依赖 AI,谁监督 AI,谁承接例外,
系统如何发现自己不知道,如何把负载交给合适的人,
如何从失败、纠错、投诉、人工覆盖和近失误中学习,
并且如何证明这种学习降低了客户、员工、运营和监管风险?
金融零售里的 AI 系统通常不是单一模型:
| 组成 | 真实含义 | 常见失败 |
|---|---|---|
| 人 | 客户、客服、AML analyst、信贷官、分行员工、财富顾问、主管、合规、模型风险、运营支持 | 过度信任、低信任、责任漂移、负载过高、培训不足 |
| 流程 | 业务 SOP、例外处理、审批、投诉、复核、交接、补救、升级 | 纸面流程和真实工作不一致,AI 只覆盖 happy path |
| 模型 | LLM、分类器、推荐、评分、实体解析、异常检测、检索、judge | 幻觉、漂移、错误置信、过拟合测试集、供应商版本变化 |
| 数据 | 客户、交易、政策、知识库、标签、案例、反馈、日志、权限 | 过期、缺失、偏差、权限错配、来源不清 |
| 工具 | CRM、case system、core banking、KYC、AML、loan origination、wealth platform、知识库、工单 | 工具动作越权、幂等失败、上下文丢失、系统响应慢 |
| 治理 | 风险分级、上线门禁、RACI、模型风险、合规、审计、供应商管理 | 决策权不清、证据不可追溯、审批一次性、缺少持续监控 |
| 反馈 | 用户纠错、人工覆盖、QA、投诉、incident、eval、postmortem、运营复盘 | 反馈沉没、只看满意度、没有 owner、不能转成改进 |
一句话作品集表达:
我不会把 AI 当成一个回答问题的模型。我会把它设计成一个金融零售工作系统:定义人机分工、交接、例外、负载、反馈、治理和韧性指标,并用运营证据证明它在真实工作中持续可控。
2. 从 Model-Centric 到 Work-System-Centric
2.1 Model-centric 思维的局限
很多 AI 项目失败不是因为模型完全不能用,而是因为模型能力和真实工作系统之间没有被设计。
| Model-centric 问法 | Work-system-centric 问法 |
|---|---|
| 模型能不能回答这个问题? | 在什么任务、角色、风险、渠道、时间压力和数据上下文里回答? |
| 准确率是多少? | 错误出现时谁能发现、谁能纠正、谁承担后果、多久恢复? |
| 是否有人在环? | 人在什么节点拥有信息、时间、权限和激励去真正监督? |
| 能否自动化这个步骤? | 这个步骤的可逆性、客户影响、异常比例、下游依赖和监管含义是什么? |
| 用户是否满意? | 用户是否形成了正确 mental model,是否过度依赖或错误拒用? |
| 上线后是否稳定? | 变化、过载、供应商变更、政策更新、攻击和组织重组时是否仍可控? |
高级判断:
AI 的生产风险通常出现在连接处:模型与数据的连接、AI 与工具的连接、员工与 AI 的连接、团队与团队的连接、正式流程与真实工作的连接、指标与激励的连接。
2.2 工作系统七层图
Business outcome
-> customer / employee / regulator impact
-> work practice and decision rights
-> AI capability and automation boundary
-> data / knowledge / tool substrate
-> human oversight and exception handling
-> operating model and governance cadence
-> feedback, learning and resilience improvement
每一层都要有 owner、指标、证据和升级路径。
| 层级 | 关键问题 | 典型证据 |
|---|---|---|
| Business outcome | AI 改善了什么业务结果,是否牺牲客户保护或运营韧性 | outcome metric、risk appetite、benefit-risk memo |
| Stakeholder impact | 谁受益、谁承担负载、谁可能被伤害 | stakeholder map、customer impact assessment、employee workload review |
| Work practice | 真实工作如何发生,哪些策略未写进 SOP | work-as-done evidence、shadowing notes、case trace |
| AI capability | AI 做什么、建议什么、生成什么、执行什么、拒绝什么 | capability boundary、risk-tiered automation policy |
| Data / tools | AI 依赖哪些系统事实、知识和工具动作 | data lineage、source registry、tool permission matrix |
| Oversight / exception | 哪些情况必须人工、专家、主管、合规或模型风险介入 | exception taxonomy、handoff payload、queue SLO |
| Operating model | 谁运营、谁审批、谁监控、谁复盘、谁支付成本 | RACI、governance cadence、dashboard、incident log |
| Learning loop | 反馈如何变成 eval、知识更新、流程变更和培训 | feedback taxonomy、corrective action register、release notes |
3. work-as-imagined vs work-as-done
3.1 定义
work-as-imagined 是管理层、产品、流程、合规和技术文档中认为工作应该如何发生。
work-as-done 是前线、运营、分析师、客户和主管在时间压力、系统限制、例外、信息缺口、KPI 和组织激励下实际如何完成工作。
在 AI 项目中,两者差距会被放大:
| 维度 | work-as-imagined | work-as-done |
|---|---|---|
| 数据完整性 | 系统字段完整、标签准确、文档及时更新 | 关键事实在备注、邮件、通话、截图和员工记忆里 |
| 流程路径 | 按标准步骤 intake、分析、审批、通知、归档 | 高频切换系统、跳过低价值字段、依赖非正式升级 |
| 人工监督 | 人会认真审阅 AI 建议 | 高峰期直接采纳、低信任时完全不用、经验者只看某些字段 |
| 例外处理 | 异常会进入清晰队列 | 异常被临时转给熟人、主管、共享邮箱或本地表格 |
| 反馈机制 | 用户点击反馈后进入改进 | 反馈太粗、无人认领、没有 SLA、同类错误重复出现 |
| 责任边界 | PM、Ops、Risk、Tech 各有职责 | 出事时责任在 AI、员工、供应商、数据、流程之间漂移 |
高级 AI worker 的任务不是指责真实工作“不合规”,而是识别真实工作中的适应性:
- 哪些 workaround 是风险源。
- 哪些 workaround 是系统保持运行的韧性来源。
- 哪些人工判断不能被模型替代,但可以被 AI 支持。
- 哪些负载由 AI 项目转移给了前线、QA、合规或模型风险。
- 哪些 KPI 会诱导 automation bias、低报问题或过度升级。
3.2 Work Gap Discovery Canvas
| Lens | 要找的证据 | 高级问题 |
|---|---|---|
| Case trace | 从真实 case 追踪客户、员工、系统、AI、审批和输出 | 哪些步骤在系统里不可见,但决定了结果? |
| Exception diary | 记录一周内所有非标准路径 | 例外是罕见异常,还是实际工作的主路径? |
| Override review | 分析 AI 建议被采纳、编辑、拒绝、覆盖的样本 | 人为什么不信 AI?人何时过度信 AI? |
| Queue analysis | 查看等待、返工、升级、积压、重复联系 | AI 是否降低了总负载,还是把负载转给下游? |
| Shadowing | 观察员工如何使用多个系统和非正式知识 | AI 产品是否支持真实注意力流,而不是理想流程? |
| Complaint / QA linkage | 把客户投诉、QA 缺陷、AI trace 和知识源关联 | 客户伤害是否来自模型、流程、交接、政策或培训? |
| Decision archaeology | 回看关键业务决策如何形成 | 关键判断是否有证据链、责任人和可复盘上下文? |
3.3 AI 设计中的五类 work gap
| Gap | 症状 | 设计补救 |
|---|---|---|
| Information gap | AI 看不到员工实际依赖的信息 | 接入系统事实、结构化备注、知识源 owner、上下文完整性检查 |
| Timing gap | AI 建议出现得太早、太晚或打断高风险任务 | context-aware invocation、workflow state machine、attention budget |
| Authority gap | AI 给出建议,但用户不知道是否可执行 | authority label、policy boundary、approval requirement、action consequence |
| Accountability gap | 多个角色都以为别人负责 | RACI、decision log、handoff record、risk acceptance owner |
| Learning gap | 错误被发现但不进入系统改进 | feedback taxonomy、eval case creation、knowledge update SLA、postmortem loop |
3.4 作品集表达
不要写:
我画了现状流程和未来流程。
要写:
我用 case trace、override review、exception diary 和 queue analysis 对比了 work-as-imagined 与 work-as-done,发现客服 AI 的主要风险不是 FAQ 准确率,而是投诉、困难援助和欺诈意图在三轮问答后才升级,导致客户重复叙述和人工接管上下文丢失。我的方案增加了 early exception classifier、warm handoff payload、handoff SLO 和 feedback-to-eval loop。
4. human-AI collaboration / 人机协作设计
4.1 协作不是“人在环”四个字
human-in-the-loop 经常被误用成风险装饰。真正的人机协作要明确:
| 问题 | 必须定义 |
|---|---|
| 人在什么时候介入? | 触发条件、风险等级、阈值、例外类型、队列 |
| 人看到什么? | AI 输出、证据、来源、置信、冲突、缺失信息、工具动作、历史上下文 |
| 人能做什么? | approve、edit、reject、override、escalate、rollback、pause、annotate |
| 人为什么会认真做? | 时间、培训、KPI、责任、审计、反馈、主管支持 |
| AI 如何从人那里学习? | 结构化反馈、golden set、知识更新、流程变更、模型回归 |
| 谁对结果负责? | decision rights、accountability、audit log、risk acceptance |
4.2 六种协作模式
| Mode | AI 角色 | 人的角色 | 适用场景 | 风险控制 |
|---|---|---|---|---|
| Search / retrieve | 找证据、政策、案例、系统事实 | 判断适用性和业务结论 | 政策查询、KYC 文件清单、客服知识 | 来源、版本、权限、引用 |
| Draft | 起草摘要、回复、case note、客户沟通 | 审阅、修改、发送、承担沟通责任 | 客服回复、AML narrative、信贷备忘录 | pre-send approval、模板锁定、tone / policy review |
| Critique | 找缺口、矛盾、风险、遗漏、下一步 | 决定是否补充材料或升级 | 信贷材料审查、AML case quality、投诉复核 | checklist-based eval、evidence gap report |
| Triage | 分流、优先级、类别、风险等级 | 复核边界样本、处理队列 | AML alert、客服意图、欺诈 queue | threshold、calibration、sample review、drift monitoring |
| Recommend | 给出下一步建议或决策支持 | 做最终判断并记录理由 | 信贷政策适用、财富顾问 next best action | explanation、counterfactual、override reason |
| Act with approval | 准备工具动作,等待授权 | 审批、确认影响、触发动作 | 创建 case、更新状态、发送通知、预约 | dual control、idempotency、limit、rollback |
高影响金融场景不应把协作模式从 recommend 偷偷升级为 act。每次模式升级都必须经过 risk tier、human oversight、audit evidence 和 release gate。
4.3 Collaboration Contract
每个 AI use case 都应有一页协作契约。
| 字段 | 示例 |
|---|---|
| Use case | AML alert investigation copilot |
| AI can do | 汇总交易模式、检索 KYC / policy、生成初版 narrative、提示缺失证据 |
| AI cannot do | 独立决定是否提交 SAR、修改客户风险等级、关闭调查 |
| Human authority | AML analyst 做调查判断,AML manager 审批高风险 case |
| Required evidence | 交易 summary、counterparty、KYC profile、历史 case、policy citation |
| Escalation trigger | 制裁命中、PEP、跨境高风险地区、证据冲突、模型低置信 |
| Controls | narrative 必须可编辑;提交前 manager approval;所有引用带 source ID |
| Feedback loop | analyst edit / reject reason 进入 eval set 和 knowledge owner review |
| Resilience goal | 高峰期仍保持高风险 case 不被自动关闭,warm handoff 不丢上下文 |
4.4 Trust Calibration
信任不是越高越好。正确目标是 calibration:
| 状态 | 症状 | 干预 |
|---|---|---|
| Over-trust | 员工直接采纳,少看证据,override rate 过低但后验缺陷高 | 增加 evidence-first UI、forced review fields、random audit、training |
| Under-trust | 员工不用 AI,重复手工,采纳率低且反馈少 | 展示可验证来源、解释适用边界、改进低质量建议、前线 champion |
| Mis-trust | 用户信错能力,认为 AI 可以做正式决策或承诺 | scope disclosure、authority label、action consequence、customer communication review |
| Contextual trust | 低风险任务采纳,高风险任务审慎,异常会升级 | 维持风险分层、持续抽样、校准 dashboard |
5. handoff/exception/load/feedback
这一组能力决定 AI 是否能在真实运营中活下来。很多 AI 项目在 demo 中成功,在生产中失败,是因为没有设计交接、例外、负载和反馈。
5.1 Handoff / 交接
交接不是按钮,是一个可测的工作系统。
| Handoff 类型 | 定义 | 适用场景 | 最小要求 |
|---|---|---|---|
| Cold handoff | 只把用户或 case 转到另一个队列 | 低风险、上下文简单、用户可重新说明 | case ID、意图、时间、基础摘要 |
| Warm handoff | AI / 前一角色把上下文、证据、已尝试动作、风险和下一步带给接收者 | 客服转投诉、客服转欺诈、分行转专家、AML analyst 转 manager | structured payload、source links、failed attempts、customer expectation |
| Hot handoff | 高风险或紧急场景实时接管 | 欺诈、账户冻结、脆弱客户、重大投诉、制裁命中 | priority route、supervisor notification、SLA timer、audit trail |
Warm handoff payload:
| 字段 | 含义 |
|---|---|
handoff_id | 唯一交接标识 |
case_id | 业务 case / ticket / alert |
from_actor / to_actor | AI、员工、专家、主管、队列 |
handoff_reason | low_confidence、complaint、fraud_signal、policy_conflict、customer_request、tool_failure |
customer_context | 客户诉求、情绪、语言、无障碍需求、脆弱客户标记 |
facts_confirmed | 已确认事实和来源 |
facts_unresolved | 未确认或冲突事实 |
ai_actions_taken | AI 已回答、已检索、已拒绝、已创建草稿 |
risk_flags | 合规、隐私、投诉、资金、信贷、财富适当性、AML |
recommended_next_step | 建议接收者先做什么 |
sla_start_time | 交接计时起点 |
Handoff SLO:
| 指标 | 目标 |
|---|---|
| Context completeness | 接收者无需重新问客户关键事实的比例提升 |
| Handoff latency | 从触发到接收者开始处理的 p50 / p90 |
| Re-contact rate | 因上下文丢失导致客户重复联系的比例下降 |
| Wrong queue rate | 交接到错误队列的比例下降 |
| Escalation acceptance | 接收方认为交接理由充分的比例 |
5.2 Exception / 例外
例外不是系统的边缘;在金融零售里,例外往往是风险和价值的中心。
| Exception 类型 | 触发信号 | 默认处理 |
|---|---|---|
| Low confidence | evidence 不足、source 冲突、模型 answerability 低 | 澄清、拒答、转人工 |
| Customer harm potential | 投诉、费用争议、欺诈、困难援助、账户限制 | hot / warm handoff,停止销售推荐 |
| Regulatory touchpoint | AML、KYC、信贷拒绝原因、适当性、隐私请求 | 专家队列、模板输出、审计记录 |
| Policy conflict | 多个政策来源冲突或版本不一致 | 引用冲突、升级 owner、禁止最终承诺 |
| Tool failure | CRM / core / KYC / AML 系统不可用或返回不一致 | 降级模式、人工记录、重试限制 |
| Behavioral risk | 用户诱导越权、prompt injection、员工绕过审批 | 安全策略、阻断、记录、主管通知 |
| Workload overload | 队列积压、复核超时、员工采纳异常 | 降级自动化、限流、重新分配、管理层预警 |
Exception design 要输出三件事:
| Artifact | 内容 |
|---|---|
| Exception taxonomy | 例外类别、触发信号、风险等级、owner、默认动作 |
| Exception router | 转给谁、带什么 payload、SLA、升级路径 |
| Exception review loop | 每周分析高频例外,决定修模型、修流程、修知识、修培训或修 policy |
5.3 Load / 负载
AI 常常不是减少负载,而是改变负载分布。
| Load 类型 | 可能被忽视的后果 | 观测方式 |
|---|---|---|
| Cognitive load | 员工要同时判断 AI、客户、政策和多个系统 | review time、edit distance、attention switches、subjective workload survey |
| Coordination load | 更多交接、复核、审批、解释和会议 | handoff count、queue wait、approval latency |
| Exception load | AI 处理简单任务后,人工剩下的都是难题 | exception mix、case complexity、burnout signal |
| QA / risk load | 大量 AI 输出需要抽样、复核、标注、复盘 | QA backlog、review SLA、sampling coverage |
| Data / knowledge load | 知识库 owner 要更频繁维护来源、版本和口径 | freshness SLO、source change volume、owner capacity |
| Customer load | 客户需要反复纠正 AI、重复说明、寻找人工 | repeat contact、handoff re-narration、complaint text |
| ModelOps load | eval、prompt、routing、vendor、monitoring 变更变多 | release frequency、change failure rate、rollback count |
Load design 的高级原则:
- 不只优化 AHT,也要看返工、投诉、二次联系、人工复核、QA backlog 和员工疲劳。
- 不只看平均负载,也要看高峰、长尾、复杂 case 和关键角色瓶颈。
- 不把 AI 节省的前线时间转嫁给合规、QA、模型风险或知识 owner。
- 例外负载增加时,要明确是好事还是坏事:好事可能是 AI 识别了以前被漏掉的风险;坏事可能是阈值、路由或知识质量差。
5.4 Feedback / 反馈
反馈不是 thumbs up/down。生产级反馈要能驱动治理和系统学习。
Feedback taxonomy:
| Feedback 类别 | 例子 | 下游处理 |
|---|---|---|
| Wrong fact | 金额、日期、客户状态、产品规则错误 | data / system-of-record fix、retrieval eval |
| Unsupported claim | 回答没有来源支撑 | groundedness eval、prompt / citation control |
| Wrong policy | 引用了过期或不适用政策 | knowledge owner review、freshness SLA |
| Bad handoff | 转错队列、上下文缺失、等待过久 | handoff router fix、payload change |
| Poor judgment | AI 建议忽略客户脆弱性、投诉、风险信号 | risk policy update、training、exception classifier |
| Over-automation | AI 推动执行了不该自动化的动作 | automation boundary review、approval gate |
| Under-support | AI 没帮到真实工作,员工仍需手工拼接信息 | workflow redesign、tool integration |
| Customer trust issue | 客户困惑、不信任、被误导或无法找到人工 | HAI copy、scope disclosure、fallback path |
Feedback loop:
Frontline feedback / customer complaint / QA defect / override
-> structured tag and severity
-> owner routing
-> triage SLA
-> corrective action
-> eval / knowledge / prompt / route / process / training update
-> release gate or controlled rollout
-> dashboard evidence
-> monthly resilience review
反馈必须有 owner,否则就是情绪收集。
6. AI operating model
6.1 Operating Model 总览
AI operating model 要回答:
谁决定 AI 能做什么?
谁运营 AI 在真实流程中的行为?
谁维护数据、知识、模型、工具和反馈?
谁承担风险接受和客户影响?
谁在过载、异常、事故和供应商变更时指挥?
一个金融零售 AI operating model 至少包含九个控制面:
| 控制面 | 核心责任 | 关键产物 |
|---|---|---|
| Strategy and portfolio | use case 组合、价值、风险、资源优先级 | AI portfolio、value-risk matrix、roadmap |
| Work system ownership | 真实流程、角色、KPI、例外和交接 | workflow owner map、work-as-done evidence |
| Product and capability boundary | AI 能力边界、用户价值、自动化级别 | capability contract、automation policy |
| Architecture and platform | 模型、RAG、工具、日志、权限、回滚、供应商路由 | C4 / sequence diagram、route policy、rollback plan |
| Data and knowledge | source-of-truth、版本、权限、质量、freshness | source registry、data contract、knowledge owner |
| EvalOps and monitoring | golden set、online quality、judge、human review、SLO | eval report、quality dashboard、regression gate |
| Risk and governance | risk tier、controls、approval、evidence、audit | risk register、control library、evidence binder |
| Operations and resilience | incident、handoff、exception、load、staffing、SLA | runbook、queue dashboard、game day |
| Adoption and learning | training、champion、feedback、change management | adoption plan、feedback loop、training record |
6.2 Decision Rights
| Decision | Accountable role | Consulted roles | Evidence required |
|---|---|---|---|
| AI use case enters discovery | Business Owner / AI Product Owner | Risk、Architecture、Operations、Data | problem statement、target workflow、initial risk tier |
| Automation level | Business Owner + Risk | PM、Architect、Ops、Compliance、Model Risk | customer impact、reversibility、exception rate、control design |
| Human oversight design | Operations Owner + Risk | PM、UX、Model Risk、Frontline Lead | review workload、handoff SLO、override policy |
| Model / prompt / retrieval release | Platform Owner + EvalOps Owner | PM、Risk、Knowledge Owner、Security | eval result、regression delta、rollback plan |
| Knowledge source change | Knowledge Owner | PM、Ops、Risk、Data Owner | source version、effective date、approval trail |
| Production incident severity | Incident Commander + Risk | Business Owner、Security、Legal、Compliance | impact assessment、blast radius、customer harm evidence |
| Scale rollout | Executive Sponsor / Business Owner | PM、Architecture、Risk、Ops、Finance | pilot outcome、resilience dashboard、residual risk |
| Retirement or pause | Business Owner + Risk | PM、Ops、Tech、Compliance | degradation trend、cost / risk evidence、alternative path |
6.3 Operating Cadence
| Cadence | Forum | Inputs | Decisions |
|---|---|---|---|
| Daily / shift | AI operations huddle | queue load、handoff failures、critical exceptions、tool outages | staffing adjustment、temporary routing、manual fallback |
| Weekly | AI quality and work-system review | eval failures、override patterns、feedback tags、knowledge freshness、load metrics | prompt / route / knowledge fixes、training needs、exception tuning |
| Biweekly | Product and adoption review | usage by role、accepted suggestions、edited outputs、customer impact、workflow time | scope changes、UI control changes、pilot expansion |
| Monthly | AI resilience and risk review | incident / near miss、SLO、KRI、supplier change、control effectiveness | risk acceptance、corrective action、policy updates |
| Quarterly | Executive AI capability review | value realization、residual risk、portfolio health、audit evidence、org capacity | scale / pause / retire、funding、org design changes |
6.4 Required Operating Artifacts
| Artifact | 作用 |
|---|---|
| Sociotechnical system map | 显示人、流程、AI、数据、工具、治理和反馈如何构成工作系统 |
| Work-as-imagined vs work-as-done evidence pack | 证明设计基于真实工作,而不是会议室流程 |
| Collaboration contract | 定义 AI 和人的角色、边界、证据和升级 |
| Handoff payload spec | 保证人工接管不丢上下文 |
| Exception taxonomy and router | 把异常变成可运营队列和 owner |
| Load model | 评估 AI 对认知、队列、复核、知识和客户负载的影响 |
| Feedback taxonomy | 让反馈能进入 eval、知识、流程、治理和培训 |
| Resilience dashboard | 监控恢复、过载、交接、例外、漂移、近失误和学习速度 |
| AI RACI | 明确 PM、BA、Architect、Ops、Risk、Data、Knowledge、EvalOps、Security、Vendor 的责任 |
| Change and release gate | 管理 prompt、model、retriever、tool、policy、知识和流程变更 |
| Incident and game day pack | 演练 bad retrieval、handoff failure、tool misuse、load spike 和 customer harm |
7. 金融零售案例
7.1 AML Alert Investigation Copilot
一句话场景:
AI 支持 AML analyst 汇总交易、检索 KYC / 政策、识别证据缺口、起草 investigation narrative,但不能替代可疑活动判断、SAR 决策或管理层审批。
| 维度 | 设计要点 |
|---|---|
| work-as-imagined | alert 进入队列,analyst 查看交易、KYC、历史 case,按 SOP 判断,主管复核 |
| work-as-done | analyst 在多个系统切换,依赖个人经验、旧 case、同事建议和手工备注;高峰期先处理明显 false positive |
| AI collaboration | search、summarize、critique、draft narrative、evidence gap detection |
| Handoff | analyst 转 manager 时带上交易模式、证据、疑点、AI 草稿、人工修改、未解问题 |
| Exception | 制裁、PEP、高风险地区、客户身份冲突、交易网络异常、来源冲突必须升级 |
| Load risk | AI 降低摘要时间,但可能增加 manager review 和 QA 抽样负载 |
| Feedback | analyst 编辑 narrative、拒绝 AI risk signal、补充证据都要结构化回流 |
| Resilience metric | high-risk alert missed by AI = critical signal;handoff completeness、manager rework、narrative defect rate |
设计红线:
- AI 不能独立关闭高风险 alert。
- AI 不能把相似案例结论直接迁移到当前客户。
- AI 不能在无证据情况下写“客户行为合理”或“无需进一步调查”。
- AI 不能隐藏来源冲突、KYC 过期或数据缺失。
作品集资产:
| Artifact | 展示能力 |
|---|---|
| AML sociotechnical map | 展示 alert、analyst、manager、KYC、transaction、policy、case system 和 feedback loop |
| Narrative quality rubric | 把好 narrative 拆成 evidence、logic、policy、risk signal、missing info |
| SAR boundary memo | 说明 AI 支持调查,不做 SAR 决策 |
| Exception router | 制裁、PEP、跨境、高风险行业、低置信、证据冲突的升级规则 |
7.2 Customer Service AI Assistant
一句话场景:
AI 支持客户自助和 agent assist,处理低风险查询、生成客服建议、识别投诉和欺诈信号,并把高风险意图 warm handoff 给人工。
| 维度 | 设计要点 |
|---|---|
| work-as-imagined | 客户提出问题,AI 或客服按知识库回答,复杂问题转人工 |
| work-as-done | 客户描述不完整、情绪强烈、跨多个主题;员工在 AHT 压力下快速套模板 |
| AI collaboration | intent detection、policy retrieval、draft response、case summary、next best action |
| Handoff | 客户转人工时必须带上已确认事实、客户诉求、AI 已回答、失败原因、风险 flag |
| Exception | 投诉、欺诈、困难援助、隐私请求、费用争议、监管关键词、脆弱客户 |
| Load risk | AI 解决简单问题后,人工队列复杂度上升;QA 和知识 owner 负载上升 |
| Feedback | 客户重复提问、转人工、差评、人工改写、投诉升级都进入反馈分类 |
| Resilience metric | first contact resolution 不能单独看,要配合 repeat contact、wrong answer harm、handoff re-narration |
设计红线:
- 不用 AHT 单指标驱动客服 AI。
- 客户请求人工时不应被 AI 无限挽留。
- AI 不应在投诉、欺诈或困难援助场景插入销售推荐。
- 无权威来源时不应给出费用、资格、投诉权利或监管承诺。
作品集资产:
| Artifact | 展示能力 |
|---|---|
| Customer harm exception taxonomy | 将投诉、欺诈、费用争议、困难援助、隐私请求提前识别 |
| Warm handoff payload | 让人工接管无需客户重复叙述 |
| Service resilience dashboard | 组合 AHT、FCR、repeat contact、complaint escalation、handoff completeness |
| Trust calibration copy matrix | 定义 AI 身份、能力边界、来源和转人工话术 |
7.3 Credit Decision Support
一句话场景:
AI 支持信贷官解释政策、检查材料、生成审批备忘录、提示风险和缺失信息,但不替代正式 credit decision、adverse action reason、fair lending control 和审批责任。
| 维度 | 设计要点 |
|---|---|
| work-as-imagined | 系统收集资料,模型评分,信贷官审核,审批流记录原因 |
| work-as-done | 材料缺失、客户解释复杂、政策例外多、审批人依赖经验和沟通 |
| AI collaboration | policy retrieval、document completeness check、risk factor summary、memo draft、counter-argument |
| Handoff | 信贷官转审批人时带上材料状态、政策引用、AI 草稿、人工判断、例外理由 |
| Exception | 边界评分、政策冲突、脆弱客户、公平贷款敏感变量、材料真实性疑点 |
| Load risk | AI memo 变快可能增加审批吞吐,但也可能让审批人过度依赖模板化理由 |
| Feedback | 审批人修改 reason、退回材料、override AI summary、QA 缺陷进入 eval |
| Resilience metric | adverse action reason defect、override quality、approval rework、fairness monitoring、exception aging |
设计红线:
- AI 不能生成与正式决策不一致的拒绝理由。
- AI 不能把受保护属性或代理变量作为解释依据。
- AI 不能让审批人只看到结论而看不到证据、冲突和缺失信息。
- AI 不能在未评估可解释性、公平性和模型风险的情况下进入高影响决策。
作品集资产:
| Artifact | 展示能力 |
|---|---|
| Credit collaboration contract | 明确 AI 是 decision support,不是 autonomous decision maker |
| Evidence and reason code map | 把政策、材料、模型信号和正式原因连接 |
| Override analytics | 分析人工覆盖是否提升质量或暴露模型偏差 |
| Fairness and resilience review | 将公平性、稳定性、人工负载和客户补救放入同一评审 |
7.4 Branch Operations / Wealth Advisor Copilot
一句话场景:
AI 支持分行员工和财富顾问做客户准备、产品知识查询、会议摘要、任务跟进和合规提示,但不替代适当性判断、投资建议责任或客户同意。
| 维度 | 设计要点 |
|---|---|
| work-as-imagined | 顾问查看客户资料,准备会议,按政策推荐,记录纪要和后续任务 |
| work-as-done | 顾问时间碎片化,客户需求跨银行、保险、投资、税务,政策和产品更新频繁 |
| AI collaboration | meeting prep、policy search、portfolio talking points、suitability checklist、summary draft |
| Handoff | 顾问转投资专家、运营后台或合规时带上客户目标、限制、已讨论内容、风险偏好 |
| Exception | 高风险产品、老年客户、脆弱客户、复杂税务、跨境、客户误解收益保障 |
| Load risk | AI 提高准备效率,但可能增加合规 review、记录保存和客户解释负担 |
| Feedback | 顾问拒绝建议、合规退回、客户误解、产品知识缺口进入改进 |
| Resilience metric | suitability exception rate、meeting note defect、compliance rework、customer misunderstanding signal |
设计红线:
- AI 不能暗示收益保证或淡化风险。
- AI 不能把营销推荐伪装成适当性建议。
- AI 不能忽略客户约束、风险承受能力、脆弱客户状态和监管披露。
- AI 不能让顾问在未看来源的情况下复制投资解释。
作品集资产:
| Artifact | 展示能力 |
|---|---|
| Advisor work-system map | 连接客户目标、CRM、产品知识、适当性、会议、合规和后续任务 |
| Suitability exception router | 高风险产品、客户理解不足、信息缺失、收益误解的升级 |
| Meeting note control design | AI 草稿、顾问确认、客户可见内容、审计留痕 |
| Wealth trust calibration matrix | 区分教育、信息、建议、销售和正式披露 |
8. 韧性指标 / Resilience Metrics
韧性不是“永远不出错”,而是系统能在变化、压力、异常和失败中保持受控,并且能学习。
8.1 Resilience Metric Families
| Metric family | 指标 | 含义 |
|---|---|---|
| Anticipate | exception leading indicators、policy freshness risk、vendor change watch、workload forecast | 系统是否能提前看见风险 |
| Monitor | online eval、override anomaly、handoff failure、queue overload、tool error、customer complaint signal | 系统是否能及时发现异常 |
| Respond | containment time、human takeover time、fallback success、queue reroute time、rollback time | 系统是否能快速控制影响 |
| Recover | time to restore controlled service、rework completion、customer remediation closure | 系统是否能恢复到受控状态 |
| Learn | feedback closure time、eval case creation rate、corrective action aging、repeat incident rate | 系统是否能把经验变成改进 |
| Adapt | release change failure rate、new policy adoption time、role training completion、threshold recalibration | 系统是否能随环境变化调整 |
8.2 生产级指标表
| 指标 | 定义 | 高级解读 |
|---|---|---|
| Handoff completeness | 接收者认为上下文足够处理的比例 | 衡量 AI 与人工之间是否形成真实协作 |
| Handoff re-narration rate | 客户被要求重复说明关键事实的比例 | 客户负载和交接质量的强信号 |
| Exception containment time | 高风险异常从触发到进入正确队列的时间 | 比平均响应时间更重要 |
| Human override precision | 人工覆盖中被 QA / expert 判定有效的比例 | 区分有价值判断和低信任噪声 |
| AI suggestion edit distance | 人工对 AI 草稿的修改幅度和类型 | 显示 AI 是否真正减少工作,或只是生成待修正文案 |
| Feedback closure latency | 反馈从提交到 owner 处理并进入改进证据的时间 | 反馈闭环是否真实存在 |
| Learning half-life | 同类错误再次出现的频率下降速度 | 衡量组织学习能力 |
| Overload early warning | 队列积压、复核超时、异常比例、员工采纳异常的组合信号 | 防止系统在高峰期脆断 |
| Graceful degradation coverage | 关键 AI path 是否有可用 fallback 和人工路径 | 衡量 AI 失效时业务是否可继续 |
| Near-miss capture rate | 未造成伤害但暴露控制缺口的样本记录比例 | 衡量风险文化和复盘能力 |
| Trust calibration index | 采纳、拒绝、编辑、证据查看、升级和后验质量的组合 | 避免只看 adoption |
| Workload displacement index | AI 上线后前线、QA、合规、知识 owner、模型运营负载变化 | 防止局部效率掩盖系统成本 |
| Change failure rate | prompt、model、index、tool、policy 变更导致回滚或缺陷的比例 | 衡量 release discipline |
| Customer harm signal | 投诉、重复联系、错误承诺、资金影响、误导、拒绝人工 | 把客户影响放在效率指标之前 |
8.3 Dashboard 组合
一个可展示的 resilience dashboard 不应只有 accuracy 和 adoption。
| Dashboard 区块 | 指标 |
|---|---|
| Value | completion rate、AHT where appropriate、case throughput、employee time saved、business outcome |
| Quality | groundedness、citation support、QA defect、expert review、edit distance |
| Collaboration | acceptance、override、handoff completeness、review latency、evidence view rate |
| Exception | exception rate by type、wrong queue、containment time、aging、repeat exception |
| Load | queue depth、review backlog、knowledge owner SLA、employee workload、customer repeat narration |
| Risk | policy violation、PII block、high-risk escalation、fairness / conduct signal、complaint |
| Resilience | fallback success、rollback time、near miss、repeat incident、learning latency |
| Cost | unit cost by workflow、human review cost、retry cost、wasted generation、cost per resolved case |
9. 组织设计
9.1 组织设计原则
Sociotechnical AI 的组织设计要避免两个极端:
| 极端 | 问题 |
|---|---|
| 全部集中到 AI Center of Excellence | 中央团队不了解 work-as-done,容易做出通用但不可运营的方案 |
| 全部下放给业务线 | 控制碎片化,模型、数据、风险、供应商和审计证据不可复用 |
推荐结构是 federated operating model:
Enterprise AI Governance / Risk / Platform
-> provides standards, platform, control library, evidence model, review gates
Business AI Product Squads
-> own workflow outcomes, adoption, exceptions, customer impact
Embedded Operations and Frontline Champions
-> surface work-as-done, workload, feedback, training and resilience signals
Model Risk / Compliance / Audit
-> challenge assumptions, validate controls, review evidence, monitor residual risk
9.2 核心角色
| Role | 责任 |
|---|---|
| Business Process Owner | owns workflow outcome、policy interpretation、exception acceptance、frontline staffing |
| AI Product Owner | owns use case value、capability boundary、roadmap、adoption、customer / employee impact |
| AI BA / Work-System Analyst | owns work-as-done evidence、stakeholder impact、handoff / exception / feedback requirements |
| Product / Enterprise Architect | owns architecture controls、tool integration、observability、rollback、security and resilience design |
| Operations Lead | owns queue design、SLA、staffing、handoff execution、training and day-to-day support |
| Frontline Champion | owns practical feedback、local adoption barriers、workaround discovery、trust calibration |
| Knowledge Owner | owns source accuracy、freshness、effective date、policy conflict resolution |
| Data Owner | owns data quality、lineage、access、retention、classification |
| EvalOps Owner | owns golden set、online eval、human review sampling、release gate evidence |
| Model / Platform Owner | owns model gateway、prompt registry、retriever、tool gateway、cost and uptime |
| Model Risk / Compliance | owns independent challenge、risk tier、control adequacy、residual risk |
| Incident Commander | owns incident command、containment、communication and postmortem discipline |
| Vendor Manager | owns supplier SLA、model change notice、exit plan、third-party evidence |
9.3 Governance Forums
| Forum | 参与者 | 决策 |
|---|---|---|
| Work-System Design Review | PM、BA、Ops、Frontline、Architect、Risk | work-as-done 是否被理解,AI 是否适合,例外和负载是否可运营 |
| AI Release Gate | PM、EvalOps、Platform、Risk、Security、Knowledge Owner、Ops | prompt / model / retriever / tool / policy 是否可发布 |
| Resilience Review Board | Ops、PM、Architect、Risk、Incident、Frontline、Model Risk | near miss、incident、load、handoff、feedback、corrective action |
| Knowledge Governance Review | Knowledge Owner、Data、Compliance、Ops、PM | 来源、版本、有效期、冲突、权限和更新 SLA |
| Executive AI Portfolio Review | Sponsor、Business Owner、Risk、Finance、Technology | scale、pause、retire、funding、residual risk、capacity |
9.4 激励设计
AI 韧性会被 KPI 破坏。常见冲突:
| KPI | 可能副作用 | 平衡指标 |
|---|---|---|
| AHT 降低 | 客服快速结束但客户重复联系或投诉上升 | repeat contact、complaint escalation、handoff quality |
| AI adoption 提升 | 员工 rubber stamp | evidence view、edit / override quality、post-hoc defects |
| Auto-resolution 提升 | 高风险客户被留在 AI path | exception recall、customer harm signal、manual access |
| False positive 降低 | AML / fraud 漏掉复杂风险 | high-risk miss、near miss、expert sampling |
| Case throughput 提升 | 复核、QA、知识维护负载积压 | review backlog、knowledge SLA、employee workload |
组织设计要把“发现问题”当成系统韧性的贡献,而不是把 feedback、override、near miss 视为个人失败。
10. 反模式
| 反模式 | 表面现象 | 深层风险 | 替代做法 |
|---|---|---|---|
| Model myopia | 项目围绕模型准确率、prompt 和 demo 展开 | 忽视人、流程、交接、例外、负载和治理 | 先画 work system,再决定 AI 能力 |
| Happy-path automation | 只优化标准流程 | 真实风险集中在投诉、欺诈、AML、信贷例外和脆弱客户 | exception-first design |
| Fake human-in-the-loop | 文档写有人复核 | 人没有时间、证据、权限或激励有效复核 | human oversight workload model |
| Feedback sink | 有反馈按钮 | 无分类、owner、SLA、eval 回流和复盘 | feedback taxonomy + closure metric |
| KPI monoculture | 只看 AHT、吞吐、自动解决率 | 客户伤害、返工、投诉、下游负载被隐藏 | balanced resilience dashboard |
| AI on broken process | 用 AI 包装混乱流程 | 旧问题规模化,责任更不清 | 修 work-as-done gap 和 owner map |
| Over-escalation | AI 不确定就全转人工 | 人工队列崩溃,低价值升级挤占高风险 case | risk-tiered exception router |
| Under-escalation | AI 强行回答所有问题 | 高风险客户被误导,投诉和监管风险上升 | answerability gate and warm handoff |
| Invisible workload | 只统计前线节省时间 | QA、合规、知识 owner、模型运营负载上升 | workload displacement index |
| Eval theater | 离线 eval 分数很好 | 线上真实 case、交接、反馈、工具动作没有被测 | online trace + human review + work-system eval |
| Pilot without owner | 试点看起来成功 | 上线后没人运营知识、反馈、事故和变更 | operating model before scale |
| Governance as paperwork | 为审计补文档 | 控制不进入日常决策和 dashboard | governance cadence tied to live evidence |
| Automation creep | 从建议逐渐变成自动执行 | 风险等级未更新,审批和客户影响未重新评估 | automation boundary review |
| Heroic operations | 靠资深员工临时救火 | 韧性依赖个人记忆,人员变化后系统脆弱 | codify handoff、exception、fallback and training |
11. 30 天训练计划
目标:30 天内完成一个金融零售 AI sociotechnical resilience capstone。建议选择 AML、客服、信贷或分行 / 财富顾问中的一个主场景,同时用另外三个场景做横向对比。
| Day | 训练主题 | 产出 |
|---|---|---|
| 1 | 选定 use case、业务目标、风险等级和目标角色 | One-page use case charter |
| 2 | 建立 sociotechnical system map 初版 | 人、流程、AI、数据、工具、治理、反馈图 |
| 3 | 梳理 work-as-imagined | SOP / policy / PRD / target journey evidence table |
| 4 | 设计 work-as-done discovery plan | case trace、shadowing、override review、exception diary 方案 |
| 5 | 完成 work gap hypothesis | 五类 gap 假设和验证证据 |
| 6 | 选择 5 个真实或仿真 case trace | case timeline and actor map |
| 7 | 分析 workaround 和 hidden work | workaround log and risk / resilience interpretation |
| 8 | 分析例外路径 | exception taxonomy v1 |
| 9 | 分析人工覆盖、编辑、拒绝、升级 | override and edit taxonomy |
| 10 | 输出 work-as-imagined vs work-as-done memo | gap memo with design implications |
| 11 | 定义 human-AI collaboration modes | collaboration mode matrix |
| 12 | 写 collaboration contract | AI can / cannot do、human authority、evidence、escalation |
| 13 | 设计 trust calibration | over-trust、under-trust、mis-trust controls |
| 14 | 设计 action boundary | recommend、draft、approve、act 的风险分层 |
| 15 | 完成人机协作 review | HAI review checklist and open risk list |
| 16 | 设计 handoff payload | cold / warm / hot handoff spec |
| 17 | 设计 exception router | trigger、owner、SLA、queue、fallback |
| 18 | 建立 load model | cognitive、coordination、QA、knowledge、customer load |
| 19 | 设计 feedback taxonomy | error tags、severity、owner、closure path |
| 20 | 完成 handoff/exception/load/feedback pack | operating pack v1 |
| 21 | 设计 AI operating model | nine control planes and RACI |
| 22 | 设计 governance cadence | daily、weekly、monthly、quarterly forums |
| 23 | 设计 resilience metrics | anticipate、monitor、respond、recover、learn、adapt 指标 |
| 24 | 设计 dashboard | value、quality、collaboration、exception、load、risk、resilience、cost |
| 25 | 设计 incident / near-miss scenario | tabletop script and containment plan |
| 26 | 套入 AML 案例 | AML case design sheet |
| 27 | 套入客服案例 | customer service case design sheet |
| 28 | 套入信贷案例 | credit decision support design sheet |
| 29 | 套入分行 / 财富顾问案例 | branch / wealth advisor design sheet |
| 30 | 完成作品集包和面试叙事 | capstone deck outline、artifacts、interview story |
30 天结束时,最低交付标准:
| 类别 | 交付物 |
|---|---|
| System | sociotechnical system map、work gap memo |
| Collaboration | collaboration contract、trust calibration matrix |
| Operations | handoff payload、exception router、load model、feedback loop |
| Governance | RACI、cadence、release / change gate |
| Resilience | dashboard、incident scenario、near-miss loop |
| Cases | AML、客服、信贷、分行 / 财富顾问四个 case sheet |
| Interview | 10 个高级面试答案和 3 分钟作品集故事 |
12. 面试答案
12.1 什么是 Sociotechnical AI?为什么对金融零售重要?
30 秒版本:
Sociotechnical AI 是把 AI 看成人、流程、模型、数据、工具、治理和反馈共同构成的工作系统,而不是单个模型功能。金融零售里 AI 会影响客户权益、员工判断、合规流程和运营负载,所以只看模型准确率不够,必须设计交接、例外、人工监督、反馈闭环和韧性指标。
2 分钟版本:
我会先定义 AI 所在的真实工作系统:谁使用、谁受影响、AI 依赖哪些数据和工具、哪些动作可逆、哪些场景必须人工接管。然后用 work-as-imagined vs work-as-done 找出正式流程和真实工作差距,再设计 human-AI collaboration contract、handoff、exception router、load model、feedback taxonomy 和 operating model。最后用 resilience dashboard 监控系统是否能 anticipate、monitor、respond、recover、learn and adapt。这样 AI 不是 demo,而是可运营、可审计、可恢复的能力。
12.2 work-as-imagined vs work-as-done 在 AI 项目中怎么用?
30 秒版本:
work-as-imagined 是流程和文档里认为工作如何发生,work-as-done 是前线在时间压力、系统限制和例外情况下实际如何完成工作。AI 设计必须基于 work-as-done,否则会自动化错误假设。
2 分钟版本:
我会用 case trace、shadowing、override review、exception diary 和 queue analysis 找真实工作证据。例如客服流程图说复杂问题转人工,但真实情况可能是客户在三轮 AI 问答后才被识别为投诉,人工接管时没有上下文。这个 gap 的解决方案不是再优化回答,而是 early exception classifier、warm handoff payload、handoff SLO 和 feedback-to-eval loop。
12.3 如何设计 human-AI collaboration,而不是空泛地说有人在环?
30 秒版本:
我会定义 AI 和人的协作契约:AI 能做什么、不能做什么;人什么时候介入;人看到什么证据;人能 approve、edit、reject、override 还是 rollback;人的反馈如何进入 eval 和知识更新。
2 分钟版本:
不同风险层级对应不同协作模式。低风险可以 search 或 draft,高风险信贷、AML、财富适当性更适合 critique 和 recommend,涉及客户账户、退款、case closure 的动作必须 act with approval。关键是人要有足够上下文、时间、权限和激励去监督,否则 human-in-the-loop 只是形式控制。
12.4 如何为 AI 客服设计 handoff?
30 秒版本:
Handoff 不是转人工按钮,而是上下文、责任和 SLA 的交接。客服 AI 必须把客户诉求、已确认事实、AI 已回答内容、失败原因、风险标签和建议下一步传给接收者。
2 分钟版本:
我会区分 cold、warm、hot handoff。普通 FAQ 可以 cold handoff;投诉、欺诈、困难援助、费用争议需要 warm handoff;账户风险或客户伤害需要 hot handoff。指标不只看转人工率,还要看 handoff completeness、wrong queue rate、handoff latency 和客户重复叙述率。
12.5 AI 上线后如何衡量韧性?
30 秒版本:
韧性指标要覆盖 anticipate、monitor、respond、recover、learn、adapt。除了准确率,还要看交接质量、例外控制、过载预警、人工覆盖质量、反馈关闭时间、回滚时间、近失误捕获和同类错误复发率。
2 分钟版本:
我会做 resilience dashboard,把 value、quality、collaboration、exception、load、risk、resilience、cost 放在一起。比如 AML copilot 不只看 narrative 草稿节省时间,还要看高风险 alert 是否升级、manager rework、evidence gap、QA defect、near miss、knowledge freshness 和 incident corrective action aging。
12.6 如何避免 AI 把负载转嫁给下游团队?
30 秒版本:
我会建立 workload displacement index,评估 AI 对前线、QA、合规、知识 owner、模型运营和客户的负载变化,避免只看局部效率。
2 分钟版本:
AI 可能降低客服平均处理时长,但让人工队列剩下更复杂 case;也可能让知识 owner 维护压力上升,让 QA 复核量上升。我会在试点期监控 queue depth、review backlog、knowledge SLA、employee workload survey、customer repeat contact 和 exception mix。如果负载转移不可接受,就要调整自动化边界、staffing、抽样策略或知识治理。
12.7 如何设计 AI operating model?
30 秒版本:
AI operating model 要明确 use case、工作系统、产品边界、架构平台、数据知识、EvalOps、风险治理、运营韧性和 adoption learning 九个控制面,并配套 RACI、cadence、dashboard 和 incident loop。
2 分钟版本:
我会先定义 decision rights:谁能批准自动化等级、谁能发布 prompt / model / retriever、谁接受残余风险、谁负责生产事件。然后建立 daily operations huddle、weekly quality review、monthly resilience review、quarterly executive portfolio review。这样 AI 不靠项目团队热情维持,而是成为可运营能力。
12.8 AML copilot 最重要的设计边界是什么?
30 秒版本:
AML copilot 可以汇总、检索、提示证据缺口和起草 narrative,但不能独立关闭高风险 alert、决定 SAR 或替代 analyst judgment。
2 分钟版本:
AML 的关键风险是证据链和责任边界。AI 必须显示交易模式、KYC、历史 case、政策来源和未解决疑点。制裁、PEP、高风险地区、身份冲突、来源冲突要强制升级。analyst 编辑和拒绝 AI narrative 的原因要进入 eval 和知识治理。指标要看 high-risk miss、manager rework、narrative defect、handoff completeness,而不只是处理时长。
12.9 为什么 AI pilot 成功后 scale 失败?
30 秒版本:
因为 pilot 常常只证明模型能回答和少数用户愿意试用,没有证明知识维护、交接、例外、负载、反馈、风险接受、incident 和供应商变更能长期运营。
2 分钟版本:
scale 前必须有 operating evidence:work-as-done evidence、collaboration contract、handoff SLO、exception router、load model、feedback closure、resilience dashboard、release gate、rollback plan 和 RACI。如果这些不存在,规模化会把小问题放大成客户伤害、员工不信任、合规缺口或运营过载。
12.10 如何向高管解释 Sociotechnical Resilience 的商业价值?
30 秒版本:
它让 AI 不只是降本工具,而是可持续运营能力。它降低客户伤害、返工、投诉、事故、审计缺口和员工抵触,同时让有价值的 AI 用例可以安全规模化。
2 分钟版本:
我会用 value-risk-resilience 三个维度汇报:value 看业务结果和单位经济性;risk 看客户、合规、隐私、模型和供应商风险;resilience 看异常、过载、交接、恢复和学习能力。高管真正需要的是知道哪些 AI 可以 scale,哪些要 pause,哪些需要补控制,哪些组织能力成为瓶颈。
13. 作品集交付物
一个高级作品集不应展示“我做了一个 AI chatbot”。建议做成 Financial Retail AI Sociotechnical Resilience Capstone。
13.1 核心交付物清单
| Deliverable | 内容 | 展示能力 |
|---|---|---|
| 1. Executive memo | use case、价值、风险、韧性策略、scale / no-scale 建议 | 高管沟通和取舍 |
| 2. Sociotechnical system map | 人、流程、AI、数据、工具、治理、反馈 | 系统思维 |
| 3. Work-as-imagined vs work-as-done memo | 真实工作证据、gap、workaround、设计影响 | 高级 BA / 运营洞察 |
| 4. Human-AI collaboration contract | AI can / cannot do、human authority、evidence、escalation | 人机协作设计 |
| 5. Handoff payload spec | cold / warm / hot handoff 字段、SLO、trace | 生产运营设计 |
| 6. Exception taxonomy and router | 例外类型、触发、owner、SLA、fallback | 风险和运营控制 |
| 7. Load model | 认知、队列、复核、知识、客户、ModelOps 负载 | 防止局部优化 |
| 8. Feedback taxonomy and loop | 反馈分类、severity、owner、closure、eval 回流 | 组织学习 |
| 9. AI operating model and RACI | 九个控制面、decision rights、cadence、artifacts | 治理和组织设计 |
| 10. Resilience dashboard wireframe | value、quality、collaboration、exception、load、risk、resilience、cost | 指标设计 |
| 11. Incident tabletop | bad retrieval、handoff failure、tool misuse、load spike 场景 | 可靠性和事故准备 |
| 12. Financial retail case sheets | AML、客服、信贷、分行 / 财富顾问四个场景 | 行业迁移能力 |
| 13. Portfolio storyline | 3 分钟讲述、10 个面试答案、关键图表 | 求职表达 |
13.2 Capstone 结构建议
Slide 1: Problem framing
Slide 2: Why model-centric AI is insufficient
Slide 3: Sociotechnical system map
Slide 4: Work-as-imagined vs work-as-done findings
Slide 5: Human-AI collaboration contract
Slide 6: Handoff / exception / load / feedback design
Slide 7: AI operating model and RACI
Slide 8: Resilience dashboard
Slide 9: Financial retail case comparison
Slide 10: Scale decision and residual risk
Appendix: metrics, payload schema, taxonomy, tabletop, interview answers
13.3 面试故事线
3 分钟版本:
我选择了一个金融零售 AI 场景,不把它做成单纯 chatbot。
第一步,我用 sociotechnical system map 定义人、流程、模型、数据、工具、治理和反馈。
第二步,我对比 work-as-imagined 与 work-as-done,找出真实工作中的 workaround、例外和负载转移。
第三步,我设计 human-AI collaboration contract,明确 AI 可以 search / draft / critique / recommend,但哪些动作必须人工审批。
第四步,我把 handoff、exception、load、feedback 做成 operating pack,保证异常能接管、负载能看见、反馈能闭环。
第五步,我设计 AI operating model、RACI、governance cadence 和 resilience dashboard。
最后,我用 AML、客服、信贷、分行 / 财富顾问四个案例说明这套方法可以迁移到不同金融零售场景。
高级收尾:
我的差异化不是会写 AI 需求,而是能把 AI 从 demo 带到真实金融零售运营:看见工作系统、设计人机协作、控制风险、管理例外、监控韧性,并把反馈转成组织学习。
14. 自检清单
| Check | 合格标准 |
|---|---|
| 系统边界 | 文件说明 AI 是工作系统,不是单个模型功能 |
| Source anchors | 包含 NIST AI RMF、Microsoft HAI Guidelines、Google PAIR Guidebook |
| Work reality | 明确 work-as-imagined vs work-as-done 和发现方法 |
| Human-AI | 不停留在有人在环,定义协作模式、控制权、证据和责任 |
| Handoff | 有 cold / warm / hot handoff、payload 和 SLO |
| Exception | 有 exception taxonomy、router、owner 和 review loop |
| Load | 覆盖认知、协调、QA、知识、客户和 ModelOps 负载 |
| Feedback | 反馈能进入 eval、知识、流程、治理和培训 |
| Operating model | 明确控制面、decision rights、cadence 和 artifacts |
| Financial retail | 覆盖 AML、客服、信贷、分行运营 / 财富顾问 |
| Resilience | 指标覆盖 anticipate、monitor、respond、recover、learn、adapt |
| Organization | 有 federated operating model、角色、论坛和激励 |
| Anti-patterns | 能识别 model myopia、fake HITL、feedback sink、KPI monoculture |
| Training | 有完整 30 天训练计划和可交付成果 |
| Interview | 有高级面试答案,不写基础 BA 入门 |
| Portfolio | 能直接转成作品集 capstone |