AIPA Notes
AI产品×架构 120天融合计划 — AI Solutions Architect 主轴:evals/可观测/AML Copilot/自建 Agent 平台
120天 AIPA 融合计划
120 篇 AIPA 学习笔记
P1 产品定义×评测×可观测底座
AML Copilot 产品发现与 JTBD
AML Copilot 产品发现与 JTBD
AML×AI 竞品格局 2026
AML×AI 竞品格局 2026
一页纸 PRD 与 evals 即成功指标
一页纸 PRD 与 evals 即成功指标
洗钱类型学与合成数据生成器设计
洗钱类型学与合成数据生成器设计
SAR 叙述结构与 HITL 复核设计
SAR 叙述结构与 HITL 复核设计
W1 原型实现复盘 — 契约先行与诚实标注
W1 原型实现复盘 — 契约先行与诚实标注
W1 周总结 — 尺子先于引擎
W1 周总结 — 尺子先于引擎
agent-v2 真实 traces 导出与采样
agent-v2 真实 traces 导出与采样
开放编码 open coding
开放编码 open coding
轴向编码 axial coding
轴向编码 axial coding
failure taxonomy 定稿
failure taxonomy 定稿
金标定向补难例 —— 用信息增益指导数据集扩充
金标定向补难例 —— 用信息增益指导数据集扩充
taxonomy → eval 映射 —— 每条失败该交给哪种评测
taxonomy → eval 映射 —— 每条失败该交给哪种评测
W2 周总结 —— 错误分析方法论的因果闭环与偏差登记
W2 周总结 —— 错误分析方法论的因果闭环与偏差登记
代码型检查 evals — 评测金字塔的确定性底座
代码型检查 evals — 评测金字塔的确定性底座
LLM-as-judge 四段式 rubric — judge prompt 结构与刻度选择
LLM-as-judge 四段式 rubric — judge prompt 结构与刻度选择
judge 校准与一致率 — Cohen's kappa 与校准闭环
judge 校准与一致率 — Cohen's kappa 与校准闭环
人工抽检协议 — 抽检率、漏检概率与升级路径
人工抽检协议 — 抽检率、漏检概率与升级路径
阻断式 CI eval gate — 让"尺子"挡住 merge
阻断式 CI eval gate — 让"尺子"挡住 merge
agent-lab evals 面板 — 把"尺子"做成可演示装置
agent-lab evals 面板 — 把"尺子"做成可演示装置
W3 周总结 — 三类 eval 齐备,尺子刻度成形
W3 周总结 — 三类 eval 齐备,尺子刻度成形
OTel GenAI semconv 精读
OTel GenAI semconv 精读
独立属性映射层
独立属性映射层
埋点接入全链路
埋点接入全链路
Langfuse 自托管
Langfuse 自托管
失败归因面板 — 工具失败 / 模型幻觉 / 上下文污染三分
失败归因面板 — 工具失败 / 模型幻觉 / 上下文污染三分
缓冲 + 长文#1 定稿 + P1 主线 SOTA 复查
缓冲 + 长文#1 定稿 + P1 主线 SOTA 复查
P1 阶段总结 — 尺子先于引擎,证据先于声明
P1 阶段总结 — 尺子先于引擎,证据先于声明
P2 AI-native 参考架构
Anthropic orchestrator-worker 精读 — +90.2% 背后的 15× token 与超线性
Anthropic orchestrator-worker 精读 — +90.2% 背后的 15× token 与超线性
handoff vs orchestrator-worker — 控制权转移的两种语义
handoff vs orchestrator-worker — 控制权转移的两种语义
单 agent vs 多 agent 的证据核查 — pass^k、HAL 与 64% 的出处
单 agent vs 多 agent 的证据核查 — pass^k、HAL 与 64% 的出处
token economics 决策框架 — 15× 成本何时换得回 +90.2%
token economics 决策框架 — 15× 成本何时换得回 +90.2%
ADR#1 — 本项目为什么(暂)不上多 agent
ADR#1 — 本项目为什么(暂)不上多 agent
LangGraph 1.0 checkpointing 接入 — 节点级恢复与静态站现实
LangGraph 1.0 checkpointing 接入 — 节点级恢复与静态站现实
W5 周总结 — 编排半周方法论、checkpoint 验收与 token 经济学框架
W5 周总结 — 编排半周方法论、checkpoint 验收与 token 经济学框架
checkpoint 断点续跑 — 难点不在保存,在幂等重放
checkpoint 断点续跑 — 难点不在保存,在幂等重放
HITL 审批点持久化 — interrupt 节点与跨会话恢复
HITL 审批点持久化 — interrupt 节点与跨会话恢复
time-travel 调试 — 「重放」不等于「重现」
time-travel 调试 — 「重放」不等于「重现」
durable execution 三方案取舍 — 宏观工作流 / 微观推理 / 事件溯源
durable execution 三方案取舍 — 宏观工作流 / 微观推理 / 事件溯源
context engineering — JIT 检索与 context rot
context engineering — JIT 检索与 context rot
agentic 自适应检索 — 查询改写、多跳与防重复
agentic 自适应检索 — 查询改写、多跳与防重复
W6 周总结 — durable execution × context engineering 收口
W6 周总结 — durable execution × context engineering 收口
自托管 AI gateway — LiteLLM/Bifrost/Portkey 与统一接入层
自托管 AI gateway — LiteLLM/Bifrost/Portkey 与统一接入层
MCP 2026-07-28 最终规范精读 — 无状态核心如何重写会话语义
MCP 2026-07-28 最终规范精读 — 无状态核心如何重写会话语义
语义缓存实测 — 双层判定、命中率真相与假阳的代价
语义缓存实测 — 双层判定、命中率真相与假阳的代价
gateway 治理 — 路由策略、fallback 链、预算闸与意图感知路由
gateway 治理 — 路由策略、fallback 链、预算闸与意图感知路由
成本×延迟×质量 Pareto 面板 — 没有最优模型,只有前沿上的取舍
成本×延迟×质量 Pareto 面板 — 没有最优模型,只有前沿上的取舍
gateway 实测报告 — 把 Day 47 的前沿填上真数字
gateway 实测报告 — 把 Day 47 的前沿填上真数字
EU AI Act Article 50 生效 — SAR 标注、Omnibus 推迟与 HITL 豁免同构
EU AI Act Article 50 生效 — SAR 标注、Omnibus 推迟与 HITL 豁免同构
MCP server 构建 I — 把 agent-v2 检索封装成无状态 MCP server
MCP server 构建 I — 把 agent-v2 检索封装成无状态 MCP server
MCP server 构建 II — Tasks 异步长任务 + OAuth 鉴权
MCP server 构建 II — Tasks 异步长任务 + OAuth 鉴权
MCPTox 式红队 I — 工具描述即注入面
MCPTox 式红队 I — 工具描述即注入面
agent 风控网关 v1 — 把支付风控三段式搬到 MCP 调用链
agent 风控网关 v1 — 把支付风控三段式搬到 MCP 调用链
红队 II — 拦截后对比与绕过归因
红队 II — 拦截后对比与绕过归因
A2A 协议精读 — Agent Card、任务委托与长任务生命周期
A2A 协议精读 — Agent Card、任务委托与长任务生命周期
长文#2 定稿《红队一个 MCP server》+ W8 周总结
长文#2 定稿《红队一个 MCP server》+ W8 周总结
框架对比基准 — 三固定原则与「对账异常调查」任务规范
框架对比基准 — 三固定原则与「对账异常调查」任务规范
Vercel AI SDK 6 实现 — usage vs totalUsage 的成本陷阱与数据点#1
Vercel AI SDK 6 实现 — usage vs totalUsage 的成本陷阱与数据点#1
Claude Agent SDK 对比实现 — 谁拥有 loop,谁拥有 context
Claude Agent SDK 对比实现 — 谁拥有 loop,谁拥有 context
四框架 trade-off 矩阵 + memory 厂商 benchmark 批判(ATAM 式 I)
四框架 trade-off 矩阵 + memory 厂商 benchmark 批判(ATAM 式 I)
memory 厂商批判评审定稿 — 用 ATAM 砸碎 benchmark 排名
memory 厂商批判评审定稿 — 用 ATAM 砸碎 benchmark 排名
长文#3 定稿 — 四框架 trade-off:同一桩 AML 调查,谁来编排?
长文#3 定稿 — 四框架 trade-off:同一桩 AML 调查,谁来编排?
P2 阶段总结 — 参考架构落地,部件齐而引擎待接
P2 阶段总结 — 参考架构落地,部件齐而引擎待接
P3 AML 调查 Copilot
证据汇集 pipeline 架构设计 — 五段流程的接口契约与失败隔离
证据汇集 pipeline 架构设计 — 五段流程的接口契约与失败隔离
证据汇集 — RRF 多源检索与召回优先
证据汇集 — RRF 多源检索与召回优先
dispatch + Budget 单案成本控制 — 子任务调度与超限降级
dispatch + Budget 单案成本控制 — 子任务调度与超限降级
类型学比对引擎升级 I — structuring/layering 的阈值、可解释与证据对齐
类型学比对引擎升级 I — structuring/layering 的阈值、可解释与证据对齐
类型学升级 II — mule network 图比对与叠加命中仲裁
类型学升级 II — mule network 图比对与叠加命中仲裁
金标扩集 ≥100 — 难例不是堆数量,是造区分度
金标扩集 ≥100 — 难例不是堆数量,是造区分度
W10 周总结 — 金标扩集后,基线第一次掉分
W10 周总结 — 金标扩集后,基线第一次掉分
SAR 规则模板基线 — 先建「愚蠢但确定」的对照系
SAR 规则模板基线 — 先建「愚蠢但确定」的对照系
SAR 叙述 LLM 化 I — 引用锚点与闭世界幻觉防护
SAR 叙述 LLM 化 I — 引用锚点与闭世界幻觉防护
SAR LLM vs 模板对照评测 — LLM 必须打败基线才配上线
SAR LLM vs 模板对照评测 — LLM 必须打败基线才配上线
审计轨迹 I — 全链路 OTel 与"案件 ID 贯穿"四段 span
审计轨迹 I — 全链路 OTel 与"案件 ID 贯穿"四段 span
审计轨迹 II — 不可篡改:哈希链、监管要件与落盘
审计轨迹 II — 不可篡改:哈希链、监管要件与落盘
每日 evals 防退化固化 — daily runner、退化告警与 CI gate
每日 evals 防退化固化 — daily runner、退化告警与 CI gate
W11 周总结 — SAR LLM 对照定稿、failure taxonomy v2、审计 trail 完成
W11 周总结 — SAR LLM 对照定稿、failure taxonomy v2、审计 trail 完成
Agent UX 模式选型 — 七模式与金融 HITL 的适配,以及"信任决定模式"的反直觉
Agent UX 模式选型 — 七模式与金融 HITL 的适配,以及"信任决定模式"的反直觉
plan-and-execute 预览实装 — 冻结计划、执行前授权与成本预估
plan-and-execute 预览实装 — 冻结计划、执行前授权与成本预估
置信度信号实装 — 类型学命中与 SAR 字段级置信度,judge 分到三档信号的映射
置信度信号实装 — 类型学命中与 SAR 字段级置信度,judge 分到三档信号的映射
渐进式授权实装 — 分级授权决策树、复用 P2 风控网关、授权决策写审计轨迹
渐进式授权实装 — 分级授权决策树、复用 P2 风控网关、授权决策写审计轨迹
结构化错误恢复实装 — 让用户保持控制,而非自动重试
结构化错误恢复实装 — 让用户保持控制,而非自动重试
HITL × durable execution 打通 — 审批等待是一种「对时钟的中断」
HITL × durable execution 打通 — 审批等待是一种「对时钟的中断」
W12 周总结 — Agent UX 模式库定稿,以及「金融特化」如何重写每一个通用模式
W12 周总结 — Agent UX 模式库定稿,以及「金融特化」如何重写每一个通用模式
SAR 质量 rubric — 四维 LLM-judge 评分锚定 taxonomy,与 Fiserv/FIS GA 对照
SAR 质量 rubric — 四维 LLM-judge 评分锚定 taxonomy,与 Fiserv/FIS GA 对照
SAR eval suite — judge×人工抽检的分层校准,与「LLM 模拟用户不可靠」的红线
SAR eval suite — judge×人工抽检的分层校准,与「LLM 模拟用户不可靠」的红线
AML 对抗红队 — 证据文本里的注入面,与 SAR 诱导遗漏
AML 对抗红队 — 证据文本里的注入面,与 SAR 诱导遗漏
v1.0 发布工程 — Article 50 透明标注落地点、脱敏演示集与发布检查清单
v1.0 发布工程 — Article 50 透明标注落地点、脱敏演示集与发布检查清单
Copilot v1.0 发布 + 每案件单位成本 — $/案件如何成为定价基础而非事后核算
Copilot v1.0 发布 + 每案件单位成本 — $/案件如何成为定价基础而非事后核算
长文#4 旗舰初稿 —《复刻 FIS-Anthropic:我从零做了一个 AML 调查 agent》
长文#4 旗舰初稿 —《复刻 FIS-Anthropic:我从零做了一个 AML 调查 agent》
W13 周总结 + 长文#4 发布 — v1.0 交付复盘与「认证的价值边界」
W13 周总结 + 长文#4 发布 — v1.0 交付复盘与「认证的价值边界」
AI Act 映射 I — Articles 9-12 落到 audit log / model registry / 数据血缘
AI Act 映射 I — Articles 9-12 落到 audit log / model registry / 数据血缘
AI Act 映射 II — Articles 13-15 落到 HITL gateway / eval suite / 红队
AI Act 映射 II — Articles 13-15 落到 HITL gateway / eval suite / 红队
DORA/CRD 叠加 — 模型供应商是关键 ICT 第三方,韧性接 durable execution
DORA/CRD 叠加 — 模型供应商是关键 ICT 第三方,韧性接 durable execution
美国线 + 治理底座 — SR 11-7 三道防线 / NIST AI RMF / ISO 42001 落到自家组件
美国线 + 治理底座 — SR 11-7 三道防线 / NIST AI RMF / ISO 42001 落到自家组件
C4 合规架构图 — 把法条画成着色组件,长文#5 初稿开骨架
C4 合规架构图 — 把法条画成着色组件,长文#5 初稿开骨架
AML Copilot AI PRD 定稿 — 组装而非新写,附定价模型与长文#5 发布
AML Copilot AI PRD 定稿 — 组装而非新写,附定价模型与长文#5 发布
P3 阶段总结 — 旗舰交付清单、SOTA 重审与 P4 开工预查
P3 阶段总结 — 旗舰交付清单、SOTA 重审与 P4 开工预查
P4 自建 Agent 平台×求职冲刺
平台化开工 — Agent 平台五件套的组件边界设计
平台化开工 — Agent 平台五件套的组件边界设计
工具网关 I — 工具注册表
工具网关 I — 工具注册表
工具网关 II — 鉴权层
工具网关 II — 鉴权层
工具网关 III — 调用审计 + 网关合龙
工具网关 III — 调用审计 + 网关合龙
策略引擎 I — 声明式规则 (principal/action/resource/condition 四元组)
策略引擎 I — 声明式规则 (principal/action/resource/condition 四元组)
策略引擎 II — 事中拦截 (每次工具调用过判定 · allow/deny/escalate→HITL)
策略引擎 II — 事中拦截 (每次工具调用过判定 · allow/deny/escalate→HITL)
Agent 注册表 + AgentCore 计费拆解 + W15 周总结
Agent 注册表 + AgentCore 计费拆解 + W15 周总结
多会话运行时 I — 会话隔离与上下文不泄漏
多会话运行时 I — 会话隔离与上下文不泄漏
多会话运行时 II — durable 会话与跨会话恢复
多会话运行时 II — durable 会话与跨会话恢复
计量计费与预算强制 — 三家定价与 TCO 输入
计量计费与预算强制 — 三家定价与 TCO 输入
平台管理面板 + 8 维选型矩阵
平台管理面板 + 8 维选型矩阵
自建平台 v1 合龙 + build-vs-buy TCO — 自建省的 API 费常被运维人力吃掉,但合规场景仍值
自建平台 v1 合龙 + build-vs-buy TCO — 自建省的 API 费常被运维人力吃掉,但合规场景仍值
长文#6 初稿 — build-vs-buy 解剖:我自建的每个零件,托管平台收你哪一层的钱
长文#6 初稿 — build-vs-buy 解剖:我自建的每个零件,托管平台收你哪一层的钱
长文#6 定稿 + W16 周总结 — build/buy 的线,不在你和厂商之间,在你自己技术栈的每一层
长文#6 定稿 + W16 周总结 — build/buy 的线,不在你和厂商之间,在你自己技术栈的每一层
金融私有化部署方案 — 数据敏感度→断网要求→GPU 资源的三问决策树
金融私有化部署方案 — 数据敏感度→断网要求→GPU 资源的三问决策树
售前方案书 — KYC 审核 AI 改造的 TCO/ROI 与 POC 门禁
售前方案书 — KYC 审核 AI 改造的 TCO/ROI 与 POC 门禁
长文#7 — spec-driven 下的多 coding agent 工作方式
长文#7 — spec-driven 下的多 coding agent 工作方式
长文#8 — TOGAF ADM × agentic AI 的治理悖论
长文#8 — TOGAF ADM × agentic AI 的治理悖论
面试三件套 I — agentic 系统设计八域白板与 customer roleplay
面试三件套 I — agentic 系统设计八域白板与 customer roleplay
面试三件套 II — 作品集三件套改写与 45min POC 演练
面试三件套 II — 作品集三件套改写与 45min POC 演练
主动出击 + 三层投递 + JD-能力映射 + 阶段末 SOTA 复查
主动出击 + 三层投递 + JD-能力映射 + 阶段末 SOTA 复查
收官日 — 知识图谱、能力验证对照与 Q4 移交清单
收官日 — 知识图谱、能力验证对照与 Q4 移交清单