面试三件套 I — agentic 系统设计八域白板与 customer roleplay
面试三件套 I — agentic 系统设计八域白板与 customer roleplay
日期: 2026-10-09 阶段: Phase 4 - 自建 Agent 平台×求职冲刺 标签: #agentic-system-design #interview #customer-roleplay
核心问题
前 116 天把 AML Copilot、agent-arch lab、dsdb-lab 三大作品做出来了,eval 数字、单位成本、私有化方案都有了。但求职最后一公里是面试白板——把 120 天的内功,在 45 分钟里讲给一个边听边挑刺的面试官。2026 的 agentic 系统设计面试已经不问「什么是 ReAct」了(systemdesignhandbook 2026 口径:「Interviewers are not impressed by the number of agents you propose. They are impressed by whether you can justify why more than one agent is needed」)。今天回答三个问题:
- 八个域怎么白板? agentic 系统设计的考点已收敛到八个域(适用性/控制面/目标分解/工具沙箱/记忆/multi-agent 取舍/评测/规模化成本)。每个域要能一句话点题、一张图、一个 war story。
- customer roleplay 怎么过? SA(Solutions Architect)面试有一轮是面试官扮演刁难的客户 stakeholder——异议处理的能力和技术方案一样重要。这一轮可以把架构界的 ATAM 评审方法论移植过来。
- 白板节奏怎么控? 45 分钟里先澄清、再立组件、再讲 trade-off,最后回扣真实约束——节奏错了再好的内容也讲不完。
这不是「背题」,是把真实做过的系统(含真实踩过的坑)组织成可复述的叙事。
关键内容
A. agentic 系统设计的八个域:一句点题 + 一图 + 一 war story
2026 的 agentic 面试,面试官「pick 3–5 questions and drill deep into failure modes, tradeoffs and what went wrong last time」(systemdesignhandbook 2026)。备考策略是把八个域各准备成一个最小可讲单元:一句点题(30 秒)、一张可手绘的图、一个来自本计划真实 failure 的 war story。八域来自 systemdesignhandbook 五组件(Agent/Goals/Actions/Memory/Feedback)+ futureagi 生产视角(guardrails/multi-agent/eval/cost)的合并:
| 域 | 一句点题(白板开场) | 一图(手绘核心) | war story(取自本计划真实 failure) |
|---|---|---|---|
| 1 适用性 build-vs-buy | 「先问该不该用 agent,多数任务一个工作流就够」 | 决策树:确定性流程→不用 agent;开放目标+工具+多步→才用 | AML 告警初分类本是规则能做的,早期硬塞 agent,成本翻 4 倍、可解释性反降 |
| 2 控制面 | 「reactive / planning / reflection 三档,按任务复杂度选,reflection 必须 bounded」 | 三种 loop 的状态机叠放 | reflection 深度没封顶,一个边界案 SAR 反思 11 轮,单案成本 $0.9 |
| 3 目标分解 | 「目标要 persistent+measurable,能当终止信号」 | 目标→子目标→工具调用树 | 「写一份合规 SAR」拆不出终止条件,agent 反复补充直到 token 耗尽 |
| 4 工具沙箱 | 「工具调用先校验参数再 sandboxed 执行,high-risk 走审批门」 | request→validate→sandbox→approve gate→execute | gateway 早期没校验工具参数,一次幻觉调用传了空 caseId,污染下游记忆 |
| 5 记忆 | 「structured state + summaries + artifacts 先行,vector 检索后补」 | 短期 bounded context / 长期 memory bank 双层 | RAG 检索召回够但记忆未做 summary 压缩,长会话 context 爆窗 |
| 6 multi-agent 取舍 | 「单 agent 优先,多 agent 只为 specialization/parallelism/failure-isolation」 | 单 vs 多 agent 协调开销曲线 | 把 AML 拆成 5 个子 agent,coordination loop 把延迟从 8s 拖到 40s |
| 7 评测 | 「score 全 trajectory:工具选择/参数/步数/成本/合规,不只看终答」 | trace → 五维 trajectory 评分 | 只测终答对不对,漏了一个 agent 偷偷跳过 KYC 工具仍判「可提交」 |
| 8 规模化成本 | 「reflection 深度/记忆大小/planning 开销三处砍成本,报单位成本」 | 每案 token 分解瀑布图 | 没分离 prefill/decode、judge 用全量重打分,月成本超预算 3 倍 |
反直觉洞察①(讲 failure 比讲 success 加分):候选人本能想展示「我的系统多完美」,但 staff 级面试官「want to know what breaks ... and how you think about tradeoffs when there's no perfect answer」(2026 口径)。每个域的 war story 不是减分项,是这一域的最高分信号——它证明你真的在生产里撞过这堵墙,而不是读了博客。白板时主动说「这里我踩过坑」,比面试官追问出来强十倍。
B. customer roleplay:异议处理,把 ATAM 移植过来
SA 面试有一轮 presentation round,「panels deliberately roleplay as difficult, skeptical client stakeholders, and your ability to handle objections gracefully is evaluated just as much as your technical solution」(2026 SA 面试口径)。这一轮的本质和软件架构界的 ATAM(Architecture Tradeoff Analysis Method)评审同构——都是让利益相关者用「场景」逼出架构的敏感点和取舍点。把 ATAM 的结构搬过来应对 roleplay:
客户异议(roleplay 抛出)
│
▼
[1 复述确认] 「您担心的是 X 场景下成本/合规/延迟,对吗?」
│ ← ATAM: 把模糊异议落成具体 scenario(utility tree)
▼
[2 定位敏感点] 这个异议命中架构哪个 trade-off?
│ ← ATAM: sensitivity point / tradeoff point
▼
[3 给取舍而非辩护] 「这里我们用 A 换了 B;若您更在意 B,可切到方案 A'」
│ ← 承认 trade-off 真实存在,给可调旋钮,不硬辩
▼
[4 量化兜底] 给数字:单位成本 $X/案、p95 延迟 Y、κ≥0.6 准入门
│ ← 用真实 eval 数字而非「我觉得够快」
▼
[5 留升级路径] 「这是 v1 取舍,v2 可演进到 Z」
异议处理三条铁律(来自架构评审经验):
- 不防御(don't defend, redesign in dialogue):客户说「太贵了」,错误回应是「其实不贵因为……」;正确是「贵在 reflection 多轮和 judge 全量重打分,这两处可砍,我现场算给您」。把异议变成协作设计。
- 承认 trade-off 真实存在:每个架构决策都有代价,假装没有代价会被一眼识破。ATAM 的核心就是 trade-off point——大方说出你用什么换了什么。
- 永远用数字兜底:「快」「便宜」「安全」是形容词,面试官(和真客户)只信数字。本计划每个作品都有 eval 数字和单位成本,这是 roleplay 轮的弹药库。
反直觉洞察②(roleplay 不是辩论赛,是协作设计):很多候选人把刁难客户当对手,进入「赢辩论」模式,越辩越僵。但 SA 的实际工作是和客户一起把方案改对。roleplay 评的是「你能不能在压力下把异议转成需求、把需求转成设计变更」。最高分动作是当场把白板上的架构改一笔回应异议——这证明你的设计是活的、可协商的。
C. 45 分钟白板节奏:澄清→立组件→trade-off→回扣约束
systemdesignhandbook 的五步 presentation structure 落到 45 分钟的时间盒:
[0-5min 澄清] 别急着画。问清:用户是谁?任务确定性多高?延迟/成本/合规约束?
← 跳过这步直接画图 = staff 级最大扣分项
[5-15min 立组件] 画五大件:orchestrator / tool layer / memory / guardrails / observability
建立共享心智模型;明说「LLM 只占系统 ~20%」
[15-35min trade-off] 主战场。逐组件给 2-3 个 trade-off,主动抛 war story
面试官在这 20 分钟里 drill deep,你要接得住
[35-42min 规模化/可靠/安全] 单位成本、降级路径、guardrails、漂移监控
[42-45min 回扣约束] 回到开头的约束,说清 v1 取舍 + v2 演进
执行流(白板上 orchestrator 内部要能画出来,futureagi 2026 口径):
request intake → context assembly → LLM reasoning → action validation
→ sandboxed execution → result processing → state update → loop / terminate
▲ │
└──────────── observability 贯穿每一步 ────────────────────┘
时间分配铁律:trade-off 段(15-35min)必须占近一半。新手把时间花在画框图,staff 级面试官真正打分的是 trade-off 段的深度。如果 35 分钟还在画组件,这场已经输了。量化对照(不同节奏的面试结果):
| 节奏类型 | 澄清 | 立组件 | trade-off | 收尾 | 典型结果 |
|---|---|---|---|---|---|
| 新手(画图狂) | 1min | 25min | 12min | 7min | 组件齐但 trade-off 浅,senior 都难过 |
| 背题型 | 0min | 15min | 20min(背的) | 10min | 流畅但接不住 drill,一追问就崩 |
| staff 目标节奏 | 5min | 10min | 20min(带 war story) | 10min | 约束清晰、trade-off 深、接得住追问 |
设计要点/决策表
| 要点 | 决策 | 理由 |
|---|---|---|
| 八域备考粒度 | 每域 = 一句点题 + 一图 + 一 war story | 面试官 drill deep,单元可灵活组合应对 3-5 题 |
| war story 来源 | 全部取自本计划真实 failure | 真实踩坑 > 读来的,staff 级看 trade-off 思考 |
| 控制面默认推荐 | reactive 优先,reflection 必 bounded | 多数任务不需 planning,反思深度是成本黑洞 |
| multi-agent 默认立场 | 单 agent 优先,需举证才上多 agent | 协调开销增长快,不证明必要就是过度设计 |
| roleplay 方法论 | 移植 ATAM:复述→定位敏感点→给取舍→量化→留路径 | 异议处理 = 协作设计,不是辩论 |
| 时间盒 | trade-off 段占近一半(20/45min) | staff 打分重心在 trade-off 深度 |
对本项目的落地
- 新建
docs/aipa/interview/eight-domains-whiteboard.md:把 A 节表格扩成八张白板速查卡,每卡含「30 秒点题词 / ASCII 图 / war story 一段 / 预期追问 2 条 + 答案」。war story 直接引本仓库真实路径:控制面坑指src/agent/durable/checkpointMachine.ts(reflection bounded 的检查点)、工具沙箱坑指src/agent/mcp/toolRegistry.ts(参数校验)、记忆坑指src/agent/memory/与src/agent/rag/、成本坑指src/lib/Budget/CostMeter。 - 新建
docs/aipa/interview/roleplay-objection-playbook.md:把 B 节五步流程做成异议→回应脚本库,覆盖三类高频异议(太贵/不够安全/为什么不用现成平台),每条给「ATAM 定位 + 数字兜底 + v2 路径」三件套。「为什么不用 AgentCore/Foundry」这条直接复用 Day 116 的 build-vs-buy 决策表。 - 演练装置复用 dsdb-lab 模式:
src/dsdb-lab/已有「交互式教学装置」模式(可点击单步推进的状态机演示)。为八域里的「控制面三种 loop」和「multi-agent 协调开销曲线」各做一个交互演示,挂到 agent-arch lab(src/components/agent-arch/)下,面试时可现场打开当白板辅助——把作品集本身变成面试道具。 - 诚实标注:本笔记的 war story 数字($0.9/案、40s 延迟、月成本 3 倍)为演练用的代表性量级,演练装置须标注「示意数据」;真实投递时用 AML Copilot 实测的单位成本与 p95,W4 回填。roleplay playbook 的数字弹药统一从
evalBaseline.ts/CostMeter实测口径取,禁止口头估。
参考资料
- systemdesignhandbook — Agentic System Design For Interviews: Design Autonomous AI Systems:五组件(Agent/Goals/Actions/Memory/Feedback);reactive/planning/reflection 三控制面;失败模式表(幻觉工具调用/无限循环/漂移/过度自信);multi-agent 仅为 specialization/parallelism/failure-isolation;「impressed by why more than one agent is needed」;五步 presentation structure (2026)
- futureagi — Multi-Agent AI Systems in 2026: Frameworks, Patterns, Production:执行流 request intake→context assembly→…→loop/terminate,observability 贯穿;trace 级 trajectory 评分(工具选择/参数/步数/成本/合规);coordination loops/context blow-up/tool misuse/goal drift 四大 multi-agent 失败模式 (2026)
- atul4u (TechEon) — The Complete Agentic AI System Design Interview Guide 2026:staff 级面试官 pick 3-5 题 drill deep;要 architecture diagrams + war stories;LLM 只占系统 ~20% (2026)
- Anthropic Solutions Architect 面试口径(Exponent / Glassdoor 2026-05):presentation round 面试官 roleplay 刁难 stakeholder,异议处理与技术方案同等评分;推理 API/GPU 内存系统设计题 (2026-05)
- 本仓库
src/agent/durable/checkpointMachine.ts/src/agent/mcp/toolRegistry.ts/src/agent/memory//src/dsdb-lab/(war story 与演练装置落点)(2026-06)
SOTA 检查 (2026-06-11)
- agentic 系统设计八域在 2026-06 是面试事实标准:systemdesignhandbook、futureagi、TechEon 三方口径一致——考点已从「概念定义」上移到「trade-off + war story + 失败模式」。本日 WebSearch 未见替代框架取代这套八域。
- 「LLM 只占系统 ~20%」是 2026 主流叙事:面试重心是 orchestrator/tool/memory/guardrails/observability 五件套的工程取舍,不是模型本身;与本计划「作品集铁律=产品结果+eval 数字+单位成本」一致。
- SA roleplay 轮持续存在且权重高:Anthropic 2026-05 面试样本显示异议处理与技术同等评分;ATAM 移植是本笔记的方法贡献,业界尚无标准化「agentic SA roleplay 评分卡」(待跟踪)。
- 过时认知警示:「面试主要考能不能搭出 agent」过时——2026 考的是「该不该用 agent(build-vs-buy)+ 出问题怎么办(failure mode)」;只会搭、不会砍和不会救的候选人在 staff 级会被刷。
- 待跟踪:Q4 关注是否出现标准化的 agentic 系统设计评分卡(类似 system design 的 scorecard);若 Open Group 推出 TOGAF×agentic 标准(截至 2026-06 仍空白),八域应对齐其术语,回填本笔记。演练装置数字 W4 用实测回填。