风控引擎 · 面试题集

实时风控决策引擎 — 面试 Q&A（10 题）

03-risk-engine/interview-qa.md

实时风控决策引擎 — 面试 Q&A（10 题）

Q1：风控引擎如何做到毫秒级响应？

简短回答（30 秒）

核心策略是「预计算 + 内存化 + 并行执行」，把所有耗时操作前置或旁路化，决策路径上零远程 I/O。

详细回答（2 分钟）

毫秒级响应需要从架构层面系统性优化，具体有六个关键手段：

第一，规则预编译。规则 DSL 在加载时编译为 Rete 网络缓存在 JVM 内存中，匹配时无需解析字符串。500 条规则的匹配可以在微秒级完成（<1ms），相比运行时解析提升 10 倍以上。

第二，特征预计算。实时特征由 Flink 持续计算（滑动窗口聚合），结果存入 Redis。决策时只需一次 Redis MGET（~2ms），不需要实时扫描交易流水做聚合。

第三，名单布隆预检。百万级名单用布隆过滤器预检，内存中 0.1ms 返回「一定不在」，只有「可能在」时才查 Redis 精确匹配。绝大多数请求在布隆层就被过滤。

第四，模型推理优化。使用 ONNX Runtime 替代 TensorFlow Serving，推理延迟从 30ms 降到 10ms。支持 batch 推理进一步提升吞吐。

第五，DAG 并行编排。规则引擎和模型推理没有依赖关系，使用 Fork-Join 并行执行，总延迟取决于最慢的一个（而非之和）。

第六，异步事后处理。决策日志写 Kafka、案件推送、合规报送全部异步化，不占用同步决策的时间预算。

追问准备

如果 Redis 挂了怎么办？ → 本地 JVM 缓存兜底（可能有几秒延迟），同时告警通知运维。
50ms 预算怎么分配？ → 特征提取 10ms / 名单匹配 5ms / 规则+模型并行 25ms / 编排+合并 10ms。
能做到 10ms 以内吗？ → 可以，但需要把特征和名单也内嵌到进程内存（放弃水平扩展的灵活性），是一个取舍。

Q2：规则和 ML 模型冲突时怎么办？

简短回答（30 秒）

采用「名单 > 规则 > 模型」的优先级机制，规则的确定性判定优先于模型的概率性判定。

详细回答（2 分钟）

规则和模型在本质上代表了两种不同的决策范式——规则是确定性的业务逻辑，模型是概率性的统计判断。它们冲突的场景很常见，需要明确的合并策略。

优先级机制：

黑名单命中 → 无条件 REJECT。这是合规要求，不可被任何规则或模型覆盖。
白名单命中 → 无条件 PASS。
规则 REJECT → 最终 REJECT。即使模型认为低风险，规则拒绝也优先执行。原因是规则通常编码了明确的业务约束（如监管要求、额度限制），不应该被模型推翻。
规则 REVIEW 或模型中风险 → REVIEW。两者取严的逻辑。
规则 PASS 且模型低风险 → PASS。

为什么规则优先于模型？

规则是确定性逻辑，可解释，可审计——监管要求的合规动作必须由规则保证
模型是黑盒概率判断，有误判风险——不适合承担合规类的硬性决策
规则更新快（分钟级），模型更新慢（天级）——新发现的欺诈模式先用规则拦截

但也有例外：在某些高级场景中，可以配置模型「加严」的权限——即模型分数极高时，即使规则 PASS 也进入人审。这需要在编排配置中显式定义。

追问准备

模型预测准确率很高时，为什么还要规则？ → 模型无法覆盖新出现的欺诈模式（zero-day），规则是快速应急的第一道防线。
如何判断规则是否过时了？ → 监控规则命中率和误杀率，长期无命中或高误杀的规则应下线。

Q3：新欺诈模式出现，规则更新流程？

简短回答（30 秒）

分三个阶段：小时级应急规则热更新、天级模型增量训练、周级策略体系优化，形成完整的对抗闭环。

详细回答（2 分钟）

当发现新的欺诈模式时，应急响应遵循「快-准-稳」三步走：

T+0 ~ T+1 小时：应急规则上线

案件审核团队发现异常 pattern（如同一设备多账户连续转账）
策略分析师在管理后台编写临时规则（DSL），如：feature("same_device_transfer_1h") > 3 THEN REJECT
规则编译服务验证语法 → 编译成 Rete 网络 → 推送到 ZooKeeper
所有 Rule Engine 实例通过 Watch 拉取新规则，双缓冲切换
从编辑到全量生效 < 1 分钟

T+1 天 ~ T+3 天：模型增量训练

数据团队将新欺诈案件标注为正样本
增量训练现有模型（保留旧知识 + 学习新 pattern）
新模型进入 Shadow Mode，记录预测结果但不参与决策
对比新旧模型的召回率和误杀率

T+1 周：策略体系优化

新模型验证通过 → Canary 灰度 → 全量上线
临时规则审视——是否需要调整阈值或删除（模型已覆盖）
特征工程优化——是否需要新增特征来更好捕捉该欺诈模式
案件审核反馈闭环——确认的欺诈加入黑名单，误杀放行的加入白名单

关键闭环：案件审核结果 → 模型训练样本 → 特征工程优化 → 规则阈值调整。这个反馈循环是风控系统持续进化的核心。

追问准备

规则热更新如何保证不影响在途请求？ → 双缓冲切换——新 Rete 网络加载完成后，原子替换引用，旧网络由 GC 回收。
模型重训需要多少样本？ → 增量训练通常需要 100-1000 个正样本即可看到效果。

Q4：如何评估风控系统效果？

简短回答（30 秒）

核心看四个指标：拦截率、误杀率、资损率、人审率，在安全和体验之间找平衡。

详细回答（2 分钟）

风控效果评估是一个多维度的平衡问题，不能只看单一指标。

核心指标矩阵：

指标	计算方式	目标范围	偏高说明	偏低说明
拦截率	REJECT 数 / 总事件数	0.1% - 1%	规则过严或误杀	可能有遗漏
误杀率	确认误杀数 / REJECT 数	< 5%	规则/模型精度不够	—
资损率	漏过欺诈金额 / 总交易金额	< 0.01%	—	如果太高需紧急调整
人审率	REVIEW 数 / 总事件数	< 5%	规则/模型区分度不够	—
人审确认率	人审确认欺诈 / 人审总量	30% - 50%	模型阈值合理	阈值太低，大量非欺诈进入人审
决策延迟 P99	毫秒	< 50ms	需要性能优化	—

关键洞察：这些指标之间存在天然矛盾。降低资损率需要加严规则（提高拦截率），但这会增加误杀率。好的风控系统的标志不是某一个指标极致，而是在多个指标间找到最优平衡点。

评估方法：

A/B 测试：新规则/模型灰度上线，对比实验组和对照组的指标差异
Cohort 分析：按用户群体（新用户/老用户/高净值）分别评估效果
资损-体验曲线：画出资损率 vs 误杀率的 ROC 曲线，找最优阈值

追问准备

如何区分「真正拦截了欺诈」还是「误杀了正常用户」？ → 需要人审确认 + 用户申诉反馈，建立标注闭环。
大促期间指标标准要调整吗？ → 是的，适当放宽拦截阈值，优先保障交易体验。

Q5：实时特征计算如何保证准确性？

简短回答（30 秒）

关键是解决两个问题：滑动窗口的精确性（Flink Event Time 语义）和训练-推理一致性（Feature Registry 统一定义）。

详细回答（2 分钟）

实时特征的准确性挑战主要有三个层面：

第一，窗口精确性。使用 Flink 的 Event Time + 滑动窗口（HOP Window），而不是 Processing Time 或滚动窗口。Event Time 基于事件本身的时间戳，不受处理延迟影响。设置合理的 Watermark 容忍度（如 5 秒）处理乱序数据。

第二，训练-推理一致性（Training-Serving Skew）。这是 ML 风控最容易踩的坑。解决方案是建立 Feature Registry（特征注册中心）：

每个特征有唯一的声明式定义（名称/计算逻辑/窗口/聚合方式）
Flink 实时作业和 Spark 离线作业从同一 Registry 生成计算代码
定期运行一致性校验作业：对同一批数据分别用实时和离线逻辑计算，对比结果差异

第三，特征延迟。 Flink 计算结果写入 Redis 的端到端延迟需控制在 1 秒以内。关键优化：

Checkpoint 间隔 10 秒（平衡可靠性和性能）
使用 Redis Pipeline 批量写入（减少网络往返）
写入使用 MULTI/EXEC 事务（保证读一致性）

验证手段：

实时 vs 离线特征对比（每日自动化校验，差异 > 1% 告警）
特征覆盖率监控（缺失率 > 5% 告警）
特征分布监控（PSI > 0.2 说明分布漂移，需排查）

追问准备

Flink 作业挂了怎么办？ → Checkpoint 恢复 + 特征降级到默认值 + 告警。
大窗口特征（7 天/30 天）怎么做？ → 离线 Spark 计算 T+1 写入 HBase，不走 Flink 实时链路。

Q6：风控超时了怎么办？

简短回答（30 秒）

按场景区分降级策略：交易/注册/登录超时放行（保体验），信贷超时拒绝（控风险）。

详细回答（2 分钟）

风控超时是一个必须提前设计好的场景，因为它直接影响用户体验和资金安全。

超时策略的核心原则：根据业务场景的风险敞口选择默认策略。

场景	超时策略	理由
交易风控	放行	单笔交易金额有限，误放的资损可控；拒绝会直接影响支付成功率
注册风控	放行	注册阶段还没有资金操作，放行后可通过后续环节补充验证
登录风控	放行 + 二次验证	放行但触发短信验证码等二次验证手段
信贷风控	拒绝	一旦放款就是真金白银，宁可拒绝一笔好申请也不能放过坏申请

分层超时控制：

Gateway 层：整体 50ms 超时，到时间强制返回
子组件层：每个组件独立超时（特征 10ms / 名单 5ms / 规则 15ms / 模型 20ms）
组件超时时使用降级值：
- 特征超时 → 使用默认特征值（0 或平均值）
- 模型超时 → 使用 fallback_score（配置的默认分数）
- 规则超时 → 使用已执行完的规则结果

超时后的补偿：超时放行不意味着放弃风控。异步补偿流程：

超时事件标记 isDegraded=true，推送到 Kafka
异步风控作业对降级事件做全量规则+模型评估
如果事后判定为高风险 → 触发冻结/人审/通知用户

监控告警：

超时率 > 1% → P1 告警（性能劣化）
超时率 > 5% → P0 告警（可能有系统故障）

追问准备

大促流量暴增，超时率飙升怎么办？ → 提前扩容 + 限流保护核心服务 + 临时提高超时阈值到 100ms。
超时放行会不会被攻击者利用？ → 会。所以需要异步补偿 + 单 IP/设备的超时放行次数限制。

Q7：如何防止模型退化？

简短回答（30 秒）

通过持续监控模型效果指标（AUC/PSI/精确率），建立自动化的退化检测 → 告警 → 重训 → 验证 → 上线流水线。

详细回答（2 分钟）

模型退化（Model Decay/Model Drift）在风控场景中特别严重，因为欺诈者会持续演化攻击手法。

退化检测指标：

指标	含义	监控频率	告警阈值
AUC	模型区分能力	每小时	< 0.85
PSI（Population Stability Index）	预测分布偏移	每天	> 0.2
精确率	预测为欺诈中真欺诈的比例	每天	环比下降 > 10%
召回率	真欺诈中被预测出的比例	每天	环比下降 > 5%
特征分布	输入特征的分布变化	每天	KS 检验 p < 0.05

防退化机制：

影子模式（Shadow Mode）：新模型上线前必须经过至少 3 天的影子模式观察，对比新旧模型的指标差异。
定期重训：即使没有检测到退化，也每月定期重训模型（使用最近 3 个月的标注数据），保持模型对最新数据的适应性。
增量训练：当检测到退化信号（PSI > 0.2），触发增量训练流程——用最近 1-2 周的标注数据微调模型参数，而非全量重训。
自动回滚：Canary 灰度期间如果新模型指标显著差于旧模型，自动回滚到旧版本。
模型版本管理：保留最近 5 个版本的模型快照，支持快速回滚。

反馈闭环：案件审核结果（True Positive / False Positive）→ 模型训练标注数据 → 定期重训 → 影子模式验证 → 上线。这个闭环越快，模型退化的影响越小。

追问准备

AUC 下降到 0.7 怎么办？ → 紧急切换到纯规则模式 + 加急重训 + 分析退化原因（新欺诈模式还是数据问题）。
冷启动阶段没有标注数据怎么办？ → 用无监督异常检测（Isolation Forest）做初始模型，逐步积累标注数据后切换到监督学习。

Q8：AML 和交易风控的架构差异？

简短回答（30 秒）

交易风控要求实时同步决策（毫秒级），AML 以异步批量筛查为主（分钟/天级），两者在延迟要求、规则复杂度和合规要求上有本质差异。

详细回答（2 分钟）

虽然都属于「风控」范畴，但 AML（反洗钱）和交易风控在架构设计上有根本性的差异：

维度	交易风控	AML 反洗钱
决策时效	实时同步（< 50ms）	准实时/批量（分钟~天级）
决策目的	阻断单笔欺诈交易	识别可疑交易模式并报送
规则复杂度	中等（单事件规则为主）	极高（跨事件、跨账户关联分析）
数据范围	单笔交易 + 近期特征	长时间序列（30 天/90 天）
模型类型	二分类（欺诈/正常）	异常检测 + 网络分析 + 聚类
合规要求	低（内部风控）	极高（法律要求，需报送监管）
误判成本	中（误杀影响体验）	高（漏报可能导致法律责任）

架构差异：

交易风控：同步决策链路，预计算特征，内存规则匹配，追求极致延迟
AML：异步分析链路，Spark/Flink 批量计算，图分析（资金流向网络），复杂规则引擎（可能用 Drools）

在统一风控平台中的共存方案：

共享特征平台（Feature Store）和名单系统
交易风控走同步链路（Decision Gateway）
AML 走异步链路（Kafka → Flink/Spark → AML Engine → SAR 报送）
交易风控的 REJECT 事件异步推送给 AML 做进一步分析

追问准备

为什么 AML 不做实时？ → AML 分析需要长时间窗口和跨账户关联，数据量和计算复杂度都不适合同步路径。而且 AML 的输出是「可疑交易报告（SAR）」，不需要实时阻断。
AML 有哪些典型规则？ → 大额交易报告（CTR，单笔 > 5 万或日累计 > 20 万）、结构化交易（Structuring，故意拆分规避阈值）、高频国际汇款。

Q9：如何处理风控的可解释性要求？

简短回答（30 秒）

三层可解释性：规则层（命中条件文本化）、模型层（SHAP Top-N 特征归因）、决策层（完整决策链路日志）。

详细回答（2 分钟）

风控可解释性不是锦上添花，而是刚需——金融监管要求决策必须可审计，客户投诉时必须能说明拒绝原因。

三层可解释性设计：

第一层：规则可解释性（最直观）规则引擎命中时，自动输出命中条件的文本化描述：

命中规则: R001-大额境外交易
命中条件:
  - 交易金额 80,000 > 阈值 50,000
  - 交易地点 US 不在白名单(CN,HK,MO)中
  - 近24小时交易次数 1 < 阈值 3

第二层：模型可解释性（技术挑战最大）使用 SHAP（SHapley Additive exPlanations）计算每个特征对预测结果的贡献：

模型: fraud_model_v3
风险分数: 0.92
Top-5 影响特征:
  1. 交易金额异常度 (z-score=3.2): +0.25
  2. 新商户首次交易: +0.18
  3. 非常用时段交易: +0.12
  4. 近5分钟交易频次=6: +0.10
  5. 设备首次出现: +0.08

SHAP 计算有一定开销（~5ms），在同步链路中可以只计算 Top-5，完整的 SHAP 值在异步链路中计算并存储。

第三层：决策链路可解释性 完整的 DAG 执行日志，记录每个节点的输入、输出和耗时：

{
  "event_id": "evt_001",
  "dag_trace": [
    {"node": "feature_extract", "latency_ms": 3, "output": {"txn_count_5min": 6}},
    {"node": "list_match", "latency_ms": 1, "result": "NOT_HIT"},
    {"node": "rule_engine", "latency_ms": 5, "hits": ["R001"]},
    {"node": "ml_serving", "latency_ms": 12, "score": 0.92},
    {"node": "decision_merge", "latency_ms": 1, "final": "REJECT"}
  ]
}

使用场景：

客户投诉拒绝 → 客服查看规则命中原因
合规审计 → 审计人员查看完整决策日志
策略优化 → 分析师查看模型 SHAP 值优化特征

追问准备

深度学习模型（如 LSTM）如何解释？ → SHAP 支持任意模型。也可以用 LIME 做局部解释，或者用可解释模型（XGBoost）替代黑盒模型。
解释性和性能的取舍？ → 同步路径只输出 Top-5 SHAP + 规则命中文本（<2ms），完整解释异步计算。

Q10：风控误杀申诉流程怎么设计？

简短回答（30 秒）

设计「用户自助申诉 → 自动初审 → 人工复审 → 结果通知 + 系统反馈」的闭环流程，同时利用申诉数据优化风控策略。

详细回答（2 分钟）

误杀申诉流程的设计目标是：快速解决用户问题的同时，利用申诉数据优化风控精度。

完整申诉流程：

用户交易被拒绝
    ↓
展示拒绝原因（脱敏后的规则描述）+ 申诉入口
    ↓
用户提交申诉（补充身份验证/交易说明）
    ↓
自动初审（3 分钟内）
├── 通过：自动放行 + 重试交易
└── 需人工：进入人工复审队列
    ↓
人工复审（SLA: 2 小时）
├── 确认误杀：放行 + 道歉 + 补偿（优惠券/积分）
│   └── 反馈：加入白名单 / 调整规则阈值
└── 确认风险：维持拒绝 + 解释原因
    └── 反馈：加入灰名单 / 保留拒绝记录
    ↓
用户通知（短信/APP 推送）

自动初审策略：

老用户（> 1 年）+ 首次被拒 + 补充了人脸验证 → 自动放行
金额 < 1000 且历史无风险 → 自动放行
涉及高风险规则（如黑名单命中）→ 必须人工复审

关键设计要点：

申诉入口要显眼。被拒绝的用户情绪激动，入口藏太深会导致投诉升级。
拒绝原因要脱敏。不能暴露具体规则逻辑（「因为你的设备指纹在黑名单」），而是给出模糊但有信息量的描述（「您的交易存在安全风险，请补充验证」）。
自动初审要够快。用户等不了，3 分钟内自动初审可以解决 60%+ 的误杀案件。
反馈闭环。每一个申诉成功（确认误杀）的案例都是宝贵的负样本：
- 加入白名单避免再次误杀
- 反馈给模型训练（False Positive 样本）
- 分析误杀原因，优化规则阈值
防滥用。同一用户 24 小时内最多 3 次申诉；频繁申诉的账户进入灰名单。

核心指标：

申诉率：被拒绝用户中发起申诉的比例（目标 < 30%）
自动解决率：自动初审直接解决的比例（目标 > 60%）
申诉成功率（误杀确认率）：申诉中确认误杀的比例（目标 < 50%，否则说明规则太严）
申诉处理时长：从提交到最终结果（目标 P90 < 2 小时）

追问准备

申诉成功率太高怎么办？ → 说明规则过严，需要系统性地检查高误杀率的规则，调整阈值或下线。
如何防止欺诈者利用申诉绕过风控？ → 申诉放行有次数限制 + 放行后 72 小时内持续监控 + 高金额申诉必须人工复审。