AI BA / PM / Architect 面试题库
STAR-T 是主线,ABPA 是证据层:
AI BA / AI PM / AI 架构师面试题库
适用岗位:AI Business Analyst、AI Product Manager、AI Solutions Architect。 重点场景:金融零售、AML/KYC、风控、客服运营、企业 AI 转型。 使用原则:不要背概念。每个回答都要落到证据、工作流、质量度量、控制和商业价值。
使用方法: STAR-T plus evidence, workflow, eval, control, ROI
STAR-T 是主线,ABPA 是证据层:
| 层次 | 面试中要说清楚什么 |
|---|---|
| S Situation | 业务场景、监管环境、用户角色、现有系统 |
| T Task | 你要改变的业务结果,不只是上线 AI |
| A Action | 你如何定义问题、建模流程、设计需求、推动交付 |
| R Result | 效率、质量、风险、采纳率、成本、收入或损失减少 |
| T Trade-off | 为什么不用更简单方案,为什么不自动化到底 |
| Evidence | 生产数据、访谈、日志、样本、case review、测试结果 |
| Workflow | 端到端流程、人工节点、系统边界、handoff、异常路径 |
| Eval | 离线 eval、shadow test、生产信号、阈值、回归集 |
| Control | human-in-the-loop、权限、审计、隐私、stop rule、监控 |
| ROI | 节省工时、降低返工、减少损失、提升转化、缩短周期 |
回答前先判断题目属于哪类:问题定义、流程需求、eval、数据架构、治理、adoption、ROI 或 capstone 深挖。 回答时优先引用自己的资产:Opportunity Canvas、Stakeholder Map、BPMN Pain Metrics、Requirements-to-Eval Matrix、Control Pack、Data Readiness、ADR、Operating Model、Adoption Dashboard、Business Case。 金融和 AML 场景中,不要把 AI 描述成无监督决策者。更强的表达是:AI 提供证据聚合、摘要、风险解释、下一步建议和草稿,最终高风险决定由授权人员批准并留下审计轨迹。
岗位差异速查
同一个案例要按岗位重心切换表达:
| 岗位 | 面试官最想验证 | 回答重点 |
|---|---|---|
| AI BA | 能否把模糊 AI 想法变成可交付需求 | 流程、角色、痛点指标、验收、异常路径 |
| AI PM | 能否把 AI 产品做成业务结果 | 用户价值、优先级、adoption、ROI、roadmap |
| AI Solutions Architect | 能否把方案安全落地 | 数据、RAG/Agent、集成、安全、可观测、治理 |
同一个 AML Copilot 故事可以这样改写:
| 角度 | 30秒切入 |
|---|---|
| BA | 我先把 alert triage 从口头痛点还原成 BPMN 和可验收需求 |
| PM | 我用 cycle time、case completeness、override 和 adoption 判断产品是否值得扩展 |
| Architect | 我选择受控 RAG Copilot 而不是全自动 Agent,并设计权限、引用和审计链路 |
面试证据包速查
准备面试时,至少带 8 类证据,而不是只带 PPT:
| 证据 | 用来回答什么 |
|---|---|
| Opportunity Canvas | 为什么这个问题值得做 AI |
| Stakeholder Evidence Map | 谁支持、谁反对、谁有 veto 权 |
| BPMN Pain Metrics | 流程哪里慢、哪里错、哪里返工 |
| Requirements-to-Eval Matrix | 需求如何被测试和上线把关 |
| Data Readiness Pack | 数据是否能支撑模型和审计 |
| Architecture ADR Set | 为什么选择这个架构,何时反转 |
| AI Control Pack | 风险如何被预防、发现和纠正 |
| Adoption Dashboard / Business Case | 用户是否真的采用,价值是否成立 |
题型 1: AI 机会识别与问题定义
-
你如何判断一个金融零售场景是否适合用 AI? 答题结构:业务痛点 -> 基线指标 -> AI fit -> no-AI boundary -> first 30-day validation。举例用 AML alert triage:高频、文本密集、证据分散、人工判断重,但 SAR 提交不能自动化。
-
如果业务方说“我们要一个 AML Copilot”,你第一周会问什么? 答题结构:谁的流程 -> 当前 case volume/cycle time -> 痛点证据 -> 决策责任 -> 合规边界 -> 成功指标。强调先定义 decision support,不先选模型。
-
如何区分“AI 机会”和“流程问题/数据问题/规则问题”? 答题结构:用价值流和痛点指标拆解。如果瓶颈来自审批层级、字段缺失、名单接口慢,先改流程或数据;如果来自证据阅读和叙事归纳,再考虑 AI。
-
你如何为一个 AI 转型项目写 business case? 答题结构:volume x handle time x rework x risk exposure -> target impact -> implementation cost -> control cost -> funding gate。不要只写“提升效率 50%”。
-
如何处理高管想追热点、但业务证据不足的 AI 项目? 答题结构:承认战略意图 -> 提出 discovery-only -> 10 天证据包 -> stop rule。用小样本 case review、流程观察和数据 readiness 降低争论成本。
-
AML、信用审批、客服助手三个场景,AI 优先级怎么排? 答题结构:价值、风险、数据、可控性、采纳难度。通常先做低自动化、高证据聚合的 copilot,再进入推荐或行动类 agent。
-
如何定义 AI 项目的 non-goals? 答题结构:列出不自动审批、不绕过规则、不替代合规签字、不使用未授权数据、不输出无出处结论。说明 non-goal 是控制范围和保护 ROI 的工具。
-
你如何把“降低 AML 风险”转成可执行目标? 答题结构:风险目标拆成 missed red flag rate、unsupported claim rate、case completeness、escalation precision、audit finding rate,并绑定 eval 和监控。
-
如果没有历史标签,AI 项目还能开始吗? 答题结构:可以 discovery,但不能直接规模化。先做专家标注、小样本 golden set、shadow review、规则基线对比,再决定是否进入 pilot。
-
你如何向非技术高管解释 RAG/Agent 的业务边界? 答题结构:RAG 是“带出处的知识检索和生成”,Agent 是“在权限内调用工具完成步骤”。金融场景要强调最小权限、审批点、审计和回退。
题型 2: 需求分析与流程建模
-
你如何把 AML analyst 的日常工作转成需求? 抓手:先观察 alert intake、CDD/EDD、交易证据、case notes、escalation、SAR draft,再把每一步的 pain、数据源、决策、异常路径写进 BPMN。
-
如何识别 AI 需求中的用户角色? 抓手:区分 analyst、team lead、compliance officer、model risk、data owner、IT security、audit、operations sponsor,每类人的验收标准不同。
-
你如何从访谈中避免只收集“想要功能”? 抓手:追问最近 5 个真实 case、等待时间、返工原因、证据缺口、谁批准、出了错谁负责,用 evidence map 记录来源和可信度。
-
如何写一个好的 AI user story? 抓手:As an AML analyst, I need evidence-backed alert summary, so that I can decide escalation faster。必须补充 acceptance criteria、eval data、control、owner。
-
如何处理业务流程中的例外和边界? 抓手:把 PEP、高风险国家、现金密集行业、关联账户、缺失 KYC、制裁名单命中作为异常路径,不把它们藏在 happy path 后面。
-
你会如何建模“人机协同”的流程? 抓手:标出 AI suggest、human review、human approve、AI cannot act、escalate、override、audit log。说明每个节点的责任人和证据要求。
-
AI 需求评审会上,你会带什么材料? 抓手:流程图、痛点指标、样本 case、需求到 eval 矩阵、控制包草案、数据缺口、pilot 范围和 stop rule。
-
如何避免需求范围膨胀? 抓手:按 workflow step 分期,不按模型能力分期。先做 evidence retrieval 和 summary,再做 recommendation,最后再考虑工具调用。
-
AI BA 和传统 BA 最大差异是什么? 抓手:传统 BA 关注流程和系统需求;AI BA 还必须把需求转成可评测的数据、阈值、失效模式、人工控制和生产反馈。
-
如果合规团队和运营团队目标冲突,你怎么推进? 抓手:用双指标治理:运营看 cycle time、backlog、touch time;合规看 case completeness、unsupported claim、override、audit finding。用 RACI 明确 veto 权。
题型 3: Requirements-to-Eval 与质量度量
-
什么是 Requirements-to-Eval? 抓手:每条重要需求都要有 acceptance criteria、eval data、grader、threshold、production signal、review cadence,否则只是愿望清单。
-
AML Copilot 的核心 eval 指标有哪些? 抓手:citation accuracy、evidence coverage、red flag recall、unsupported claim rate、summary completeness、case priority consistency、latency、cost per case。
-
如何设计 golden dataset? 抓手:抽样覆盖高风险、普通、误报、缺字段、跨账户、PEP、制裁、历史已升级 case;由 SME 双人标注并记录分歧。
-
什么时候用 LLM judge,什么时候不用? 抓手:格式、引用、确定性字段用代码或规则;摘要质量可用 LLM judge 加人工抽检;高风险合规结论不能只靠 LLM judge。
-
你如何定义 hallucination 在金融场景中的失败? 抓手:无出处事实、引用错 case、夸大风险、遗漏反证、生成不存在政策、把建议说成决定。每类失败要有检测和处置。
-
如果模型整体准确率高,但关键风险漏掉了怎么办? 抓手:不用 overall accuracy 作为唯一指标。按风险类别设 red flag recall 和 critical miss zero tolerance,失败进入 release gate。
-
如何把生产监控接回需求? 抓手:上线后跟踪 override rate、edit distance、citation invalid rate、escalation reversal、user feedback、latency、cost,并定期刷新 eval set。
-
如何向面试官解释“eval 是产品能力”? 抓手:eval 决定能不能发布、能不能扩场景、能不能通过审计。AI PM 不能只排功能,还要排质量门槛和学习闭环。
-
如何评估 RAG 输出是否可信? 抓手:retrieval hit rate、source freshness、citation span validity、answer groundedness、conflict handling、no-answer behavior。
-
如果业务要求快速上线,你如何设置最低质量门槛? 抓手:限定 pilot 人群和 case 类型,设置 must-pass eval、人工审批、禁止外发、监控告警、回滚条件和每日 review。
题型 4: 数据 readiness 与 RAG/Agent 架构
-
做 AML Copilot 前,数据 readiness 要看什么? 抓手:数据源、字段完整性、标签质量、权限、PII、血缘、刷新频率、历史 case notes、一致性、可审计性和保留策略。
-
RAG 在金融知识场景的关键设计是什么? 抓手:知识源授权、chunk 策略、metadata、hybrid retrieval、rerank、引用范围、版本控制、过期处理和 no-answer。
-
什么时候 RAG 不够,需要 agent? 抓手:当任务跨多系统、多步骤、需要查 case、取交易、生成草稿、创建任务时可考虑 bounded agent,但必须有工具权限和审批边界。
-
Agent 在 AML 中可以做什么,不能做什么? 抓手:可以检索证据、生成摘要、建议下一步、创建待办;不能单独关闭 case、提交 SAR、改客户风险等级或绕过四眼审批。
-
如何设计模型和供应商策略? 抓手:按质量、延迟、成本、数据控制、可用性、合规、fallback 打分。敏感场景优先考虑私有化、区域合规和可审计日志。
-
如何处理数据权限和最小可见原则? 抓手:按角色过滤检索、按 case scope 限定上下文、脱敏、字段级权限、工具调用授权、审计每次访问。
-
如何降低 prompt injection 风险? 抓手:隔离系统指令和检索内容、工具白名单、输入输出过滤、引用验证、敏感操作二次确认、注入检测监控。
-
如何解释 AI 架构 ADR? 抓手:每个关键选择写 context、options、decision、consequence、reversal trigger。面试中展示你能管理可逆决策。
-
如何设计可观测性? 抓手:记录 request、retrieval、prompt version、model、tool call、citation、latency、cost、error、override、user feedback,但注意 PII 最小化。
-
架构师如何避免过度设计? 抓手:以风险和证据定复杂度。低风险 FAQ 用 RAG;AML 高风险建议用 copilot + HITL;只有明确业务价值时才上 agent 编排。
题型 5: 风险、合规、治理与人机协同
-
AI 在 AML 场景的主要风险是什么? 抓手:错误结论、遗漏红旗、隐私泄露、偏见、过度依赖、审计不可追溯、模型漂移、供应商故障、成本失控。
-
你如何设计 AI Control Pack? 抓手:每个风险对应 preventive、detective、corrective control,并指定 evidence、owner、threshold、response。
-
什么是 human-in-the-loop 的好设计? 抓手:不是让人“看一眼”。要定义人审什么、何时审、凭什么审、如何 override、如何记录、如何反馈到 eval。
-
如何满足金融审计要求? 抓手:保留输入、证据来源、模型版本、prompt version、输出、人工修改、审批、时间戳、权限和数据保留策略。
-
如何处理模型偏见和不公平结果? 抓手:避免把敏感属性直接用于决策,做分群质量监控,保留人工复核,记录 adverse impact,并让合规参与阈值选择。
-
如何定义 stop rule? 抓手:critical miss、invalid citation、privacy incident、latency breach、cost spike、用户误用、audit finding 触发暂停或回滚。
-
如果 AI 输出和规则引擎冲突怎么办? 抓手:规则和政策优先;AI 提供解释和证据,不覆盖硬性规则。冲突进入人工复核,并作为 eval case 保存。
-
如何向 Model Risk Management 解释方案? 抓手:说明用途、限制、数据、验证、监控、变更管理、人工监督、残余风险和退场机制。
-
AI 治理委员会应该看什么? 抓手:release gate、eval trend、incident、override、adoption、cost、模型/提示词变更、数据源变更和合规例外。
-
你如何防止用户过度信任 AI? 抓手:显示证据和置信边界,要求引用,保留人工决定,设计 challenge prompt,监控低编辑率但高错误率的风险。
题型 6: Adoption、ROI、Operating Model
-
AI 项目上线后,如何判断真的被采用? 抓手:active users、case coverage、repeat usage、task completion、edit/override、time saved、workflow step adoption,而不是只看登录次数。
-
如何设计 adoption dashboard? 抓手:采纳、信任、质量、风险、效率、成本六类指标,按团队、case 类型、时间趋势切片。
-
ROI 怎么算才可信? 抓手:以基线为起点:case volume x touch time x loaded cost + rework + risk exposure,再扣除模型、集成、治理、培训和运营成本。
-
如何处理“节省时间但不省钱”的质疑? 抓手:说明节省时间转化为 backlog 下降、SLA 改善、同人力覆盖更多 case、降低 overtime 或提升高风险 case 深审质量。
-
Operating Model 里必须有哪些角色? 抓手:product owner、business process owner、SME、data owner、eval owner、risk/control owner、engineering、support、audit liaison。
-
AI 产品的持续运营和普通软件有什么不同? 抓手:需要 eval refresh、prompt/model change review、数据漂移监控、知识库刷新、incident drill、用户反馈闭环。
-
如何推动一线 analyst 从不用到愿意用? 抓手:从高痛点步骤切入,让用户看到证据可追溯,允许编辑和反馈,用 champions 试点,避免把 AI 做成额外录入负担。
-
如果 adoption 低,你怎么诊断? 抓手:看流程嵌入、输出质量、信任、速度、权限、培训、经理激励、误报成本。不要只归因“用户抗拒变化”。
-
如何做分阶段 rollout? 抓手:shadow mode -> pilot team -> limited case types -> expanded teams -> governance review -> scale。每阶段有门槛和回滚。
-
面试中如何展示你既懂产品又懂架构? 抓手:用同一个故事串起业务痛点、流程、需求、eval、数据架构、控制、adoption、ROI。不要把 PM 和 Architect 分成两套话术。
题型 7: AML Copilot capstone 深挖追问
- AML Copilot 的目标用户是谁?他们每天最痛的 3 个步骤是什么?
- 你如何证明 alert triage 是高价值问题,而不是“看起来适合 AI”?
- 你会选哪些 AML case 类型作为 pilot,哪些暂时排除?
- 你如何定义 false positive、false negative、unsupported claim 和 missed red flag?
- 你的 golden dataset 如何抽样?谁标注?如何处理标注分歧?
- 如果 analyst 的 case notes 本身质量很差,Copilot 怎么办?
- RAG 检索哪些知识源:政策、KYC、交易、历史 case、名单结果还是外部新闻?
- 哪些数据不能进入 prompt?哪些需要脱敏或按角色过滤?
- Copilot 输出必须带哪些引用,引用粒度到文档、段落还是字段?
- 如果检索结果互相冲突,Copilot 应该怎么回答?
- 如果没有足够证据,系统应该沉默、提示缺口,还是生成低置信答案?
- AML analyst 能否一键关闭 alert?为什么?
- 哪些操作需要 team lead 或 compliance officer 批准?
- SAR narrative draft 是否属于可交付范围?上线第一版要不要做?
- 你如何防止 Copilot 把建议说成最终合规判断?
- 如何设计 prompt injection 和 malicious document 的防护?
- 如果模型延迟 20 秒,业务是否还能接受?你怎么设计 fallback?
- 如何衡量 Copilot 减少了 analyst 的 touch time,而不是把工作转移到复核?
- 如果 override rate 很高,可能说明什么?下一步怎么做?
- 如果 adoption 很高但 audit finding 增加,你怎么处理?
- 如果合规要求所有输出可复现,你如何设计版本和日志?
- 如果模型供应商更换,哪些 eval 和 ADR 必须重跑?
- 你如何把 AML Copilot 从一个团队扩展到多个国家或业务线?
- 多语言 case、不同地区监管政策、数据驻留要求如何影响架构?
- AML Copilot 的第一版 business case 你会怎么写?
- 你会如何向 CTO、CRO、合规负责人分别汇报同一个方案?
- 这个 capstone 最容易被面试官质疑的点是什么?
- 如果面试官问“这和普通搜索有什么区别”,你怎么回答?
- 如果面试官问“为什么不用全自动规则引擎”,你怎么回答?
- 如果面试官问“你本人实际贡献是什么”,你如何用证据回答?
回答模板: 30秒, 2分钟, 深挖版
30秒模板
我会先把这个 AI 需求还原成业务流程问题。以 AML alert triage 为例,目标不是“做一个聊天机器人”,而是缩短 case review 周期、提升证据完整性,并降低 unsupported claim 和 missed red flag。我的做法是先建立 baseline,再用 BPMN 定位痛点,把关键需求映射到 eval 和控制,最后用 pilot 的 adoption、质量、风险和成本数据决定是否扩大。
2分钟模板
背景是金融零售 AML 团队面对大量 alert,证据分散在 KYC、交易、名单筛查、历史 case 和政策文档中。任务是帮助 analyst 更快形成有证据的判断,但不能让 AI 自动做高风险合规决定。
我会先做 Opportunity Canvas 和 Stakeholder Evidence Map,确认 case volume、touch time、backlog、返工率和审计痛点。然后画 BPMN,把 alert intake、证据收集、case note、升级、复核、SAR draft 拆成节点,并标出 AI 可以辅助和必须人工审批的位置。
需求层面,我会用 Requirements-to-Eval Matrix,把“生成摘要”改写成“摘要必须覆盖关键交易、客户风险、红旗和引用来源,unsupported claim rate 低于阈值”。架构上,第一版通常选择 RAG copilot,而不是 fully autonomous agent。控制上,必须有引用、权限过滤、override logging、stop rule 和人工审批。商业价值用 cycle time、backlog、case completeness、audit finding、cost per case 和 adoption 来验证。
深挖版模板
如果深入到方案设计,我会从 5 个层面展开。第一,业务层:定义目标 case 类型、baseline、用户角色和 no-AI boundary。第二,数据层:盘点 KYC、交易、名单、政策、历史 case notes,检查字段完整性、权限、标签和刷新频率。第三,架构层:选择 hybrid retrieval + rerank + citation validation,必要时加入受限工具调用,但不允许 AI 单独关闭 case 或提交 SAR。第四,eval 层:建立 golden set,覆盖高风险、误报、缺字段和跨账户场景,设置 red flag recall、citation validity、unsupported claim、latency 和 cost 阈值。第五,运营治理层:用 RACI 指定 product、SME、eval、data、risk、support owner,并通过 adoption dashboard 和 control review 持续管理。
常见失败回答与改法
| 失败回答 | 为什么弱 | 改法 |
|---|---|---|
| “我会用 RAG 解决 AML 知识查询。” | 只有技术名词,没有业务目标 | 改成:用 RAG 支持 alert triage 的证据聚合,并用 citation validity 和 case completeness 验收 |
| “模型准确率达到 90% 就能上线。” | 没有说明关键风险和阈值 | 改成:按 red flag、引用、摘要、隐私、延迟分别设 eval 和 release gate |
| “AI 可以自动判断是否可疑。” | 金融合规风险过高 | 改成:AI 推荐和解释,授权人员审批,所有 override 和证据进入审计日志 |
| “用户会因为效率提升自然采用。” | 忽略变更管理 | 改成:设计 champions、pilot、培训、反馈入口和 adoption dashboard |
| “ROI 是节省 50% 人力。” | 缺少基线和成本 | 改成:用 case volume、touch time、loaded cost、返工、治理成本和分阶段目标计算 |
| “数据接进来就可以做。” | 忽略数据 readiness | 改成:先检查权限、PII、标签、字段完整性、血缘、刷新和保留策略 |
| “我们会加人工审核。” | 人工审核太泛 | 改成:定义 review point、approval owner、override rule、audit field 和 stop condition |
| “Agent 可以跨系统自动处理 case。” | 自动化范围失控 | 改成:限定工具白名单、最小权限、dry-run、审批点和不可执行动作 |
| “这是一个技术项目。” | AI 转型需要运营模型 | 改成:说明 product、risk、data、eval、support、audit 的 RACI 和治理节奏 |
| “我会先做 PoC。” | PoC 可能脱离真实流程 | 改成:先做 discovery evidence pack,再做 shadow mode,最后用 pilot 指标进入扩展决策 |
面试结尾可以补一句:我不会把 AI 项目包装成模型演示,而会把它做成一个可评估、可审计、可运营、能证明业务价值的工作流改造。