AI Programmatic Labeling / Data-Centric AI Playbook
以下来源是本文的技术和治理锚点。本文把它们转成产品能力、架构组件、质量指标、SME 工作流、审计证据和上线门禁,不把任何论文或框架直接等同于监管合规结论。
AI Programmatic Labeling & Data-Centric AI Playbook
定位:面向高级 AI PM / AI BA / AI Architect / Model Risk / Data Governance / 金融零售运营团队,把 programmatic labeling、weak supervision、Snorkel/data programming、SME review、label quality、dataset documentation 和 release gate 组合成可上线、可审计、可迭代的数据中心型 AI 生产体系。
适用边界:本文面向 KYC 文件分类、AML case triage、客户投诉分类、欺诈 typology tagging、运营工单分流、合规文本归类、RAG 训练/评估集构建和内部 copilot 反馈标签。它不把“弱监督”当成免人工标注,而是把专家知识、规则、历史案例、系统证据和模型辅助判断组织成可版本化、可度量、可治理的标签资产。
重要说明:本文是学习、作品集和内部方案训练材料,不构成法律意见、合规结论、模型验证报告、监管解释或正式模型风险批准。正式项目必须由 Legal、Compliance、Model Risk、Fair Lending、Privacy、Security、Data Governance、Business Owner、Operations、SME 和管理层结合机构类型、司法辖区、客户影响、内部政策和使用场景确认。
Source Anchors
以下来源是本文的技术和治理锚点。本文把它们转成产品能力、架构组件、质量指标、SME 工作流、审计证据和上线门禁,不把任何论文或框架直接等同于监管合规结论。
| Anchor | Link | 本文使用方式 |
|---|---|---|
| Ratner et al., Snorkel: Rapid Training Data Creation with Weak Supervision | https://arxiv.org/abs/1711.10160 和 https://www.vldb.org/pvldb/vol11/p269-ratner.pdf | 建立 data programming 主线:用 labeling functions 表达启发式、规则、外部知识库和 SME 逻辑,再用 generative label model 融合 noisy / conflicting / abstaining labels。 |
| NIST AI RMF 1.0 | https://www.nist.gov/itl/ai-risk-management-framework 和 https://doi.org/10.6028/NIST.AI.100-1 | 用 Govern / Map / Measure / Manage 组织标签风险治理,把 label policy、coverage、segment fairness、audit evidence、release gate 和 monitoring 纳入 AI 风险管理。 |
| Gebru et al., Datasheets for Datasets | https://arxiv.org/abs/1803.09010 和 https://cacm.acm.org/research/datasheets-for-datasets/ | 作为数据文档锚点:要求记录数据动机、组成、采集、处理、推荐用途、限制、伦理/偏差风险和维护责任。 |
| Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI | https://arxiv.org/abs/2204.01075 | 作为面向产品团队的数据说明锚点:把 dataset documentation 从静态附件扩展为便于多角色理解和复用的透明沟通资产。 |
| Snorkel AI Documentation | https://docs.snorkel.ai/ | 作为工程概念锚点:将 labeling functions、label model、analysis、slicing、data-centric iteration 等概念转成平台能力和工作流设计。 |
1. 一句话定位
Programmatic labeling 的核心不是“用规则批量打标签”,而是:
Label-to-Model Control System =
把 SME 知识、政策定义、历史案例、业务规则、外部知识库、模型建议和抽样人工判断
编码为可测试、可版本化、可解释来源的 labeling functions,
再用 label model 和 gold set 估计标签质量,
把 noisy labels 转成可治理的训练数据、评估数据、路由策略和审计证据。
在金融零售里,label 是产品和风控的事实层,不是数据科学的中间产物:
| 场景 | 标签错误的业务后果 | 正确目标 |
|---|---|---|
| KYC document classification | 身份证明、地址证明、公司文件被误分,导致开户延迟、重复提交或错误通过 | 文件类型、字段证据、有效期、签发地、OCR 置信度和人工复核理由可追踪 |
| AML case triage | 高风险 case 被低优先级处理,或低价值 case 挤占调查资源 | typology、risk driver、evidence strength、analyst routing 和最终决策隔离 |
| Complaints classification | 投诉根因、产品线或客户影响分类错误,导致 SLA、升级和整改偏离 | complaint taxonomy、regulatory sensitivity、root cause、channel 和 remediation 标签一致 |
| Fraud typology tagging | account takeover、synthetic identity、card-not-present、merchant fraud 混淆 | fraud pattern、attack vector、customer impact、recovery status 和控制缺口可分析 |
| RAG / Copilot evaluation | 训练集或评估集本身错误,导致模型看似进步但实际学到错误偏好 | answerability、citation support、policy class、severity 和 reviewer rationale 可复核 |
高级 AI PM / 架构师要能回答四个问题:
- 标签政策是什么,哪些标签能自动生成,哪些必须 SME 裁决?
- 每个标签的证据、版本、冲突、覆盖率和质量指标在哪里?
- 标签缺陷如何影响模型、流程、客户体验和审计风险?
- 数据中心型迭代如何进入 release gate,而不是停留在 notebook 实验?
2. 为什么重要
2.1 从模型中心到数据中心
许多 AI 项目失败不是因为模型架构不够新,而是因为训练标签没有稳定定义。
典型失败链路:
业务团队说“识别高风险 AML case”
-> 数据团队从历史字段里取一个 proxy label
-> 历史标签混合了不同团队、时期和政策口径
-> 模型学到旧流程偏差
-> 线上效果不稳定
-> 团队继续调参、换模型、加特征
-> 根因仍然是 label policy 和 evidence trail 缺失
数据中心型 AI 的反向做法:
定义标签政策和业务动作
-> 设计 label ontology 和 evidence requirements
-> 建立 gold set 与 SME adjudication
-> 编写 labeling functions 捕获专家知识和系统证据
-> 分析 coverage / conflicts / precision / recall / segment gaps
-> 修正标签、数据和流程
-> 再训练模型和评估上线风险
2.2 Programmatic labeling 解决的不是成本,而是迭代速度和可治理性
人工标注可以产生高质量样本,但在金融零售的复杂场景里会遇到四个瓶颈:
| 瓶颈 | 传统人工标注问题 | Programmatic labeling 的价值 |
|---|---|---|
| 规则变化快 | 政策口径、产品条款、欺诈模式、投诉分类会变 | labeling functions 可版本化更新,并生成 impact analysis |
| 标签稀缺 | AML true positive、复杂欺诈、特殊投诉低频 | 用启发式、知识库和历史调查信号提升覆盖,保留不确定性 |
| 专家时间贵 | SME 不适合逐条低价值标注 | SME 设计政策、审查冲突、裁决高价值样本,放大专家影响 |
| 审计要求高 | 难证明标签为什么这样来 | 每个 LF、证据字段、review action、dataset version 形成 evidence trail |
Programmatic labeling 不等于自动化所有标注。它把“专家逐条判断”升级为“专家设计、测试、监控和治理标签系统”。
2.3 金融零售的标签风险具有客户影响
标签缺陷会进入模型训练、运营分流、客户沟通和管理报告。高级团队必须把 label quality 当成生产控制。
| Label 风险 | 表现 | 生产影响 |
|---|---|---|
| Ambiguous label policy | SME 对同一 case 的分类口径不同 | 模型上限低,运营争议高 |
| Proxy label leakage | 使用历史动作当真实结果 | 学到旧流程偏差和资源分配偏差 |
| Low coverage | 只覆盖主流渠道、英语文本或成熟产品 | 新渠道、新地区、新客群效果差 |
| Hidden conflict | 多条规则同时命中不同标签但未暴露 | 弱标签噪声被当成确定事实 |
| Segment imbalance | 某客户群、商户类型、文档语言样本不足 | 公平性、服务质量和模型稳定性风险 |
| Version drift | 标签规则变化未重新生成数据集 | 训练、评估、线上行为不可复现 |
3. 核心概念地图
3.1 Programmatic labeling
Programmatic labeling 是用程序化规则、启发式、模式匹配、外部知识、历史系统信号、模型建议和 SME 逻辑批量产生标签候选。
它适合以下条件:
| 条件 | 说明 |
|---|---|
| 专家能说清判断线索 | 例如“地址证明必须包含姓名、地址、日期且在可接受时间窗口内” |
| 标签可由多个弱信号组合 | 例如投诉类别由关键词、产品、渠道、情绪、历史 root cause 共同判断 |
| 数据量大且标签变化快 | 例如欺诈 typology、AML typology、运营工单分类 |
| 需要证据链 | 每个标签要知道来自哪条 LF、哪个字段、哪个版本和哪个 reviewer |
| 可以保留 abstain | 没有足够证据时不强行打标签 |
不适合以下条件:
| 条件 | 原因 |
|---|---|
| 标签本身没有业务定义 | 规则会固化混乱,而不是解决混乱 |
| 结果决定高影响客户动作且无人工控制 | 弱标签不能直接替代正式决策 |
| 无法获得 gold set 或 SME 反馈 | label model 无法可靠验证实际质量 |
| 数据权限、隐私或保留期限不允许 | 标签平台必须服从数据治理和安全控制 |
3.2 Weak supervision
Weak supervision 把不完美但有用的监督信号组合起来:
| 来源 | 示例 | 风险 |
|---|---|---|
| Heuristic rules | 关键词、regex、字段阈值、时间窗口 | 规则过窄或过时 |
| Distant supervision | 外部名单、知识库、产品目录、文档模板库 | 来源质量和更新频率不稳定 |
| Historical labels | 历史调查结果、客服分类、人工队列 | 带有旧流程偏差 |
| Model-assisted labels | OCR 分类器、embedding 相似度、LLM 建议 | 模型偏差被再训练放大 |
| SME-authored functions | 专家定义的组合逻辑 | 可能覆盖有限或口径不一致 |
| Crowd or operations signals | 一线处理动作、二审记录、申诉结果 | 标注者能力和激励不同 |
Weak supervision 的目标不是让每个弱信号都正确,而是通过组合、估计、冲突分析和 gold validation 产生更稳健的 probabilistic labels。
3.3 Labeling function
Labeling function, LF,是一个输入样本到标签或 abstain 的函数:
LF(sample) -> one of {label_a, label_b, label_c, ABSTAIN}
优秀 LF 有五个特征:
| 特征 | 说明 |
|---|---|
| Explicit intent | 清楚说明它捕获哪条业务判断 |
| Evidence-based | 指向具体字段、文本 span、系统事件或外部来源 |
| Measurable | 能计算 coverage、conflict、precision、recall、segment coverage |
| Versioned | 代码、参数、标签政策、数据窗口和依赖源可复现 |
| Reviewable | SME 能理解命中原因并决定保留、修改或废弃 |
3.4 Generative label model
在 Snorkel / data programming 思路中,多个 LF 会形成一个 label matrix:
Rows = samples
Columns = labeling functions
Values = label id or abstain
Generative label model 估计 LF 的准确率、相关性和冲突模式,输出 probabilistic labels。它解决的问题是:
LFs noisy and conflicting
-> estimate source accuracies and dependencies
-> produce confidence-weighted training labels
-> train downstream discriminative model
关键边界:
| 边界 | 高级判断 |
|---|---|
| 不是免验证 | 必须用 gold set、SME review 和 production outcome 做质量闭环 |
| 不是越多 LF 越好 | 高相关、重复、低精度 LF 会制造虚假信心 |
| 不是直接业务决策器 | 标签模型生成的是训练/评估/分流输入,不应绕过高影响动作的正式控制 |
| 不是一次性工程 | 标签政策、数据分布、欺诈模式和产品流程变化后必须重新评估 |
3.5 Data-centric AI
Data-centric AI 的 PM / 架构含义:
模型迭代 = 标签定义、数据覆盖、证据质量、冲突裁决、分段公平、数据文档和监控的共同迭代。
对 AI PM 来说,数据中心型工作不是“让数据科学家清洗数据”,而是建立 label product:
| 产品对象 | 需要被管理的内容 |
|---|---|
| Label ontology | 标签层级、定义、排他性、动作映射、废弃策略 |
| Label policy | 标注口径、证据要求、冲突处理、SME 权限 |
| Label platform | LF registry、execution、analysis、review、export、audit |
| Label quality | gold precision、recall、coverage、conflict、fairness、drift |
| Label release | 版本、change log、impact analysis、approval、rollback |
4. LabelOps 平台能力
4.1 能力全景
Source systems
- documents, cases, transactions, complaints, CRM, core banking, fraud tools
- policy docs, product catalog, external lists, investigation notes
-> Data ingestion and permission boundary
-> Label ontology and label policy registry
-> Labeling function development
- rule LF
- dictionary / taxonomy LF
- metadata LF
- knowledge-base LF
- model-assisted LF
- LLM-assisted LF with review controls
-> LF execution engine
-> Label matrix store
-> Label model and quality analysis
-> SME review and adjudication console
-> Dataset and label version registry
-> Training / evaluation / monitoring exports
-> Audit evidence binder and release gate
4.2 关键组件
| 组件 | 主要职责 | 设计要点 |
|---|---|---|
| Label ontology service | 管理标签层级、定义、适用范围和业务动作 | 支持 parent-child、mutually exclusive、多标签、废弃标签映射 |
| Label policy registry | 管理标注政策和证据要求 | 每个 policy 有 owner、effective date、approval、change reason |
| LF registry | 存储 LF 代码、参数、依赖、作者、review 状态 | 不允许无 owner、无测试、无解释的 LF 进入生产生成 |
| LF execution engine | 对样本批量运行 LF | 记录输入数据版本、运行时间、依赖版本和错误率 |
| Label matrix store | 保存每个样本被每个 LF 命中的结果 | 支持 conflict、overlap、abstain、evidence payload 查询 |
| Label model service | 训练/运行 generative label model | 输出 probabilistic label、uncertainty、source contribution |
| Quality dashboard | 展示 coverage、conflict、precision、recall、segment gaps | 支持按渠道、产品、语言、地区、客户 tenure、商户类型切片 |
| SME review console | 让专家审查冲突、低置信、高影响样本 | 保留裁决、理由、证据、二审、时间戳和 reviewer |
| Dataset registry | 管理 train / validation / test / gold / monitoring slices | 记录 dataset card、label policy version、sampling logic |
| Release gate | 控制标签版本进入训练、评估或上线 | 强制质量阈值、审批、风险接受和 rollback plan |
4.3 角色模型
| 角色 | 权限 | 不应拥有的权限 |
|---|---|---|
| Business owner | 定义业务目标、风险容忍度、动作映射 | 不能单独批准绕过模型风险或合规控制 |
| SME / Analyst lead | 定义标签政策、审查 LF、裁决冲突 | 不能无审计记录地改写生产标签版本 |
| Data scientist | 编写 LF、训练 label model、评估下游模型 | 不能修改 label policy approval 状态 |
| Data engineer | 建立数据管道、版本、权限、质量监控 | 不能裁决业务标签真值 |
| Model Risk / Validation | 审查方法、假设、结果、限制和监控 | 不能替代 business owner 接受业务风险 |
| Compliance / Legal | 审查政策约束、客户影响、保留和披露 | 不能直接用模型指标替代法律判断 |
| Operations manager | 使用标签改进队列、SLA、质检和培训 | 不能把弱标签直接当正式客户结论 |
5. 架构设计
5.1 Reference Architecture
Operational and document sources
-> data contract and access control
-> canonical sample builder
- document sample
- case sample
- complaint sample
- transaction pattern sample
-> evidence extractor
- OCR spans
- metadata
- transaction aggregates
- policy references
- historical decisions
-> LF runtime
- deterministic rules
- taxonomy matchers
- knowledge-base joins
- model-assisted signals
-> label matrix
-> quality analyzer
- LF coverage
- overlap and conflict
- gold precision and recall
- segment coverage
- drift and stale rule checks
-> label model
-> probabilistic labels
-> SME review queue
-> adjudicated labels and gold set
-> dataset registry
-> downstream model training and evaluation
-> release gate and monitoring
5.2 Canonical sample design
Programmatic labeling 平台必须先统一“被标注对象”,否则 LF 会绑定各系统的偶然字段。
| Sample 类型 | 最小字段 | 证据字段 |
|---|---|---|
| KYC document sample | document_id, customer_id, channel, received_at, ocr_text, metadata | OCR span、文件模板、签发日期、有效期、国家/地区、上传历史 |
| AML case sample | case_id, customer_id, alerts, transactions, case_notes | 触发规则、交易网络、金额模式、历史调查、名单筛查结果 |
| Complaint sample | complaint_id, customer_id, product, channel, text, created_at | 客户原文、客服摘要、产品事件、SLA、升级记录、处理结果 |
| Fraud event sample | event_id, customer_id, merchant, device, transactions, outcome | device fingerprint、velocity、chargeback、login anomaly、recovery result |
5.3 Evidence trail schema
标签系统的审计价值来自 evidence trail。
| 字段 | 说明 |
|---|---|
sample_id | 被标注对象唯一标识 |
sample_version | 输入样本版本,包含数据窗口和提取逻辑版本 |
label_policy_version | 标签政策版本 |
lf_id | labeling function 标识 |
lf_version | LF 代码和参数版本 |
lf_output | 标签或 abstain |
lf_confidence | 如果 LF 自身有置信分数,记录原始分数和校准方式 |
evidence_refs | 命中的字段、文本 span、规则 id、外部知识库 id |
label_model_version | 生成概率标签的 label model 版本 |
probabilistic_label | 标签分布或 top label |
quality_slice | 所属 segment,例如渠道、语言、产品、地区、客户类型 |
review_status | 未审、已审、二审、争议、废弃 |
reviewer_id | SME 或 reviewer 标识 |
review_rationale | 裁决理由,必须引用证据或政策 |
release_id | 进入训练/评估/上线的标签版本 |
5.4 Versioning strategy
标签版本必须同时覆盖数据、政策、LF、label model 和人工裁决。
Label Release =
dataset snapshot
+ extraction code version
+ label ontology version
+ label policy version
+ LF bundle version
+ label model version
+ gold set version
+ SME adjudication version
+ quality report
+ approval record
版本策略:
| 变更 | 版本动作 | 必需分析 |
|---|---|---|
| 新增标签类 | ontology minor 或 major,根据动作影响决定 | historical backfill、confusion with existing labels、SME agreement |
| 修改标签定义 | policy major | affected samples、model retraining need、customer impact |
| 新增 LF | LF bundle minor | coverage gain、conflict increase、precision on gold、segment impact |
| 修改 LF 参数 | LF bundle minor | before/after label diff、high-impact sample diff |
| 更换 label model | label model major | probabilistic label shift、downstream model performance |
| 增加 gold set | gold set minor | metric confidence interval、segment coverage improvement |
| 删除低质量 LF | LF bundle minor | coverage loss、conflict reduction、downstream impact |
6. Labeling Function 设计
6.1 LF 类型
| LF 类型 | 金融零售示例 | 使用边界 |
|---|---|---|
| Keyword / regex LF | 投诉文本含“unauthorized transaction”“重复扣款”“身份盗用” | 适合高召回初筛,必须处理否定、上下文和多语言 |
| Metadata LF | KYC 文件上传渠道、文件扩展名、OCR 语言、case 来源 | 不能让渠道 proxy 取代真实标签 |
| Threshold LF | 交易频次、金额增幅、登录失败次数、退款率 | 阈值要按产品和 segment 校准 |
| Taxonomy LF | 产品目录、投诉分类树、欺诈 typology 字典 | taxonomy owner 和废弃映射必须清楚 |
| Knowledge-base LF | 外部名单、商户类别、文档模板库、公司注册类型 | 记录来源、更新时间和匹配置信度 |
| Historical decision LF | 历史 analyst disposition、chargeback outcome、case closure reason | 需要识别旧政策、旧流程和 resource bias |
| Model-assisted LF | OCR 分类器、embedding nearest neighbor、LLM suggestion | 只能作为弱信号,不能无 gold validation 直接替代 SME |
| Cross-field consistency LF | 文件姓名与客户资料一致、地址与 CRM 一致 | 要处理合法差异、拼写、地址标准化和隐私边界 |
6.2 LF 设计原则
| 原则 | 说明 |
|---|---|
| Prefer abstain over guessing | LF 没有足够证据时返回 abstain,而不是填充最常见标签 |
| Evidence first | 每次命中都能解释“哪个字段、哪段文本、哪条政策、哪个版本” |
| Narrow and testable | 一个 LF 捕获一类判断,避免把多个复杂条件揉成不可解释黑箱 |
| Segment-aware | 设计时考虑语言、渠道、地区、产品、客户类型和文档格式差异 |
| Conflict is a signal | 不隐藏冲突,冲突样本是 SME review 和 policy clarification 的高价值输入 |
| Separate triage from final decision | 弱标签可用于训练和分流,不直接产生高影响正式结论 |
| Review negative space | 关注没有被任何 LF 覆盖的样本,而不只看命中的样本 |
6.3 KYC document LF 示例
ABSTAIN = -1
PASSPORT = 1
UTILITY_BILL = 2
BANK_STATEMENT = 3
def lf_passport_keywords(sample):
text = sample.ocr_text.lower()
strong_terms = ["passport", "date of birth", "place of birth", "passport no"]
if sum(term in text for term in strong_terms) >= 2:
return PASSPORT
return ABSTAIN
def lf_recent_utility_bill(sample):
text = sample.ocr_text.lower()
has_utility_terms = any(term in text for term in ["electricity", "water", "gas", "utility"])
has_address = sample.extracted_address is not None
is_recent = sample.document_date_within_days(120)
if has_utility_terms and has_address and is_recent:
return UTILITY_BILL
return ABSTAIN
def lf_bank_statement_layout(sample):
text = sample.ocr_text.lower()
if "statement period" in text and "account number" in text and sample.has_transaction_table:
return BANK_STATEMENT
return ABSTAIN
产品/架构注意点:
| 点 | 要求 |
|---|---|
| Evidence | 保存命中的关键词、日期字段、OCR span、模板 id |
| Conflict | 如果 lf_recent_utility_bill 和 lf_bank_statement_layout 同时命中,进入 document type conflict queue |
| Segment | 按语言、签发国家/地区、移动端上传、扫描件质量切片 |
| Governance | 文档类型分类不等于 KYC 通过,KYC 通过仍需单独政策和控制 |
6.4 AML case triage LF 示例
ABSTAIN = -1
STRUCTURING_SIGNAL = 10
RAPID_MOVEMENT_SIGNAL = 11
HIGH_RISK_COUNTERPARTY_SIGNAL = 12
def lf_structuring_pattern(case):
tx = case.transaction_summary
if tx.cash_deposit_count_30d >= 5 and tx.amounts_cluster_below_reporting_threshold:
return STRUCTURING_SIGNAL
return ABSTAIN
def lf_rapid_in_out(case):
tx = case.transaction_summary
if tx.incoming_to_outgoing_ratio_7d > 0.85 and tx.median_hold_time_hours < 24:
return RAPID_MOVEMENT_SIGNAL
return ABSTAIN
def lf_high_risk_counterparty(case):
if case.counterparty_risk_hits >= 1 and case.counterparty_match_quality in ["strong", "confirmed"]:
return HIGH_RISK_COUNTERPARTY_SIGNAL
return ABSTAIN
边界要求:
| 点 | 要求 |
|---|---|
| 用途 | 只能用于 case typology tagging、调查队列优先级建议、模型训练标签候选 |
| 隔离 | 不自动触发正式可疑活动报告、账户关闭或客户不利动作 |
| Evidence | 记录交易窗口、触发规则、金额聚合方式、counterparty source version |
| SME | 高风险命中、冲突 typology 和低覆盖 segment 进入 analyst lead review |
6.5 Complaints classification LF 示例
ABSTAIN = -1
UNAUTHORIZED_TRANSACTION = 20
SERVICE_DELAY = 21
FEE_DISPUTE = 22
def lf_unauthorized_transaction_terms(complaint):
text = complaint.normalized_text
terms = ["unauthorized", "did not authorize", "fraudulent charge", "identity theft"]
if any(term in text for term in terms):
return UNAUTHORIZED_TRANSACTION
return ABSTAIN
def lf_service_delay_terms(complaint):
text = complaint.normalized_text
terms = ["still waiting", "not received", "delay", "no response", "pending for"]
if any(term in text for term in terms) and complaint.days_open >= 3:
return SERVICE_DELAY
return ABSTAIN
def lf_fee_dispute_terms(complaint):
text = complaint.normalized_text
if "fee" in text and any(term in text for term in ["waive", "refund", "charged", "overdraft"]):
return FEE_DISPUTE
return ABSTAIN
投诉标签要连接:
| 标签 | 下游动作 |
|---|---|
| Category | routing、SLA、质检抽样 |
| Root cause | 产品整改、流程修复、培训 |
| Severity | 升级、客户补救、管理报告 |
| Evidence | 原文 span、客服摘要、产品事件、处理记录 |
6.6 Fraud typology LF 示例
ABSTAIN = -1
ACCOUNT_TAKEOVER = 30
CARD_NOT_PRESENT = 31
SYNTHETIC_IDENTITY = 32
def lf_account_takeover(event):
login = event.login_features
tx = event.transaction_features
if login.new_device and login.geo_velocity_high and tx.first_time_payee and tx.value_zscore > 3:
return ACCOUNT_TAKEOVER
return ABSTAIN
def lf_card_not_present(event):
if event.card_present is False and event.ecommerce_mcc and event.avs_mismatch:
return CARD_NOT_PRESENT
return ABSTAIN
def lf_synthetic_identity(event):
identity = event.identity_features
if identity.thin_file and identity.recently_created_contact_points and identity.high_credit_velocity:
return SYNTHETIC_IDENTITY
return ABSTAIN
欺诈标签要避免两个误区:
| 误区 | 正确做法 |
|---|---|
| 把 chargeback 当所有欺诈真值 | 区分客户申诉、商户争议、操作错误和确认欺诈 |
| 只按损失金额优化 | 同时看客户影响、误拦截、恢复成本、攻击演化和 segment coverage |
7. Label Quality Metrics
7.1 基础指标
| 指标 | 定义 | 产品含义 |
|---|---|---|
| LF coverage | LF 非 abstain 的样本比例 | 这条专家逻辑影响多大 |
| Label coverage | 至少一个 LF 命中的样本比例 | 当前标签系统覆盖多少业务空间 |
| Overlap | 多个 LF 同时命中的比例 | 是否有足够信息可供 label model 融合 |
| Conflict | 多个 LF 输出不同标签的比例 | 标签政策、规则或数据存在争议 |
| Empirical precision | LF 命中样本中 gold label 一致比例 | 这条 LF 是否可信 |
| Empirical recall | gold label 属于某类时 LF 能捕获多少 | 这条 LF 是否漏掉大量真实样本 |
| Label model accuracy | probabilistic label top class 与 gold 的一致性 | 融合后的标签质量 |
| Abstain rate | LF 或标签系统不做判断的比例 | 保守性和覆盖不足的平衡 |
| Segment coverage | 各 segment 的覆盖率 | 是否只服务主流样本 |
| Segment precision gap | 各 segment precision 差异 | 是否存在标签质量不均 |
7.2 高级指标
| 指标 | 为什么重要 | 使用方式 |
|---|---|---|
| Conflict heatmap | 找出哪些 LF 对之间经常冲突 | 触发 SME policy clarification |
| Label entropy | 衡量 label model 输出不确定性 | 高 entropy 样本进入 review 或 active learning |
| Evidence completeness | 命中标签是否带足证据引用 | release gate 的审计检查 |
| Stale LF rate | LF 依赖的政策、名单、模板是否过期 | 防止旧规则污染新数据 |
| Label drift | 新批次标签分布与历史版本差异 | 识别产品、渠道、攻击和政策变化 |
| Downstream sensitivity | 删除或修改某类 LF 对模型指标影响 | 判断哪些 LF 是关键控制点 |
| Review overturn rate | SME 推翻自动标签的比例 | 衡量自动标签和政策口径的偏差 |
| Inter-reviewer agreement | 多位 SME 对 gold set 的一致性 | 识别标签定义模糊和培训缺口 |
7.3 Label precision / recall 的业务解释
标签 precision 和 recall 不是单纯模型指标,而是运营风险语言。
| 指标 | 高时代表 | 低时风险 |
|---|---|---|
| KYC document precision | 被标为 passport 的文档大多真是 passport | 客户被要求补错材料或错误通过预校验 |
| KYC document recall | 真 passport 大多能被捕获 | 文件被落到人工泛队列,开户延迟 |
| AML typology precision | typology 命中对调查有帮助 | analyst 被噪声拖累,调查资源浪费 |
| AML typology recall | 关键 typology 不被漏掉 | 高风险模式被低估 |
| Complaint class precision | 路由准确,SLA 和补救路径匹配 | 客户重复解释、投诉升级 |
| Fraud typology recall | 攻击模式可及时聚合分析 | 控制缺口发现滞后 |
7.4 Gold set 设计
Gold set 是标签系统的校准锚点,不是随手抽一批样本。
| Gold set 类型 | 用途 | 设计要求 |
|---|---|---|
| Random gold | 估计整体质量 | 按时间、渠道、产品抽样,避免只抽容易样本 |
| Stratified gold | 估计 segment 质量 | 覆盖语言、地区、客户类型、文档类型、商户类型 |
| Conflict gold | 解决 LF 冲突 | 优先审查高冲突、高影响、高 entropy 样本 |
| Edge-case gold | 覆盖少数但重要情形 | 新产品、罕见文档、复杂欺诈、新投诉主题 |
| Monitoring gold | 线上持续抽样 | 固定节奏复核,连接投诉、申诉、调查结果 |
Gold set 审查要求:
每条 gold label =
label
+ evidence references
+ policy version
+ reviewer
+ rationale
+ adjudication status
+ timestamp
8. SME Workflow
8.1 从逐条标注到标签系统治理
SME 的高价值工作不是无休止点击标签,而是:
| SME 工作 | 产出 |
|---|---|
| 定义 label ontology | 标签树、互斥关系、动作映射 |
| 编写 label policy | 定义、证据要求、边界案例、禁止用途 |
| 审查 LF proposal | 判断 LF 是否符合政策和业务现实 |
| 裁决 conflict samples | 发现政策模糊和数据缺陷 |
| 建立 gold set | 为质量指标提供可信锚点 |
| 审查 release report | 判断标签版本是否可进入训练或上线 |
| 复盘生产反馈 | 用申诉、投诉、调查结果修正标签系统 |
8.2 SME Review Queue
Review queue 不应随机堆积样本,而要按信息价值排序。
| 队列 | 进入条件 | 目标 |
|---|---|---|
| High conflict | 多个高权重 LF 输出不同标签 | 澄清政策或拆分标签 |
| High entropy | label model 对多个标签不确定 | 增强 gold set 和 LF |
| High impact | 可能影响客户不利动作、合规升级或重大损失 | 加强人工控制 |
| Low coverage segment | 某 segment 几乎没有 LF 命中 | 扩展规则和样本 |
| Drift sample | 新批次分布显著变化 | 判断是否产品、渠道或攻击变化 |
| Override sample | 运营或客户反馈推翻标签 | 发现系统性缺陷 |
8.3 Adjudication protocol
Step 1: Reviewer 只看原始样本、证据和 label policy,不看模型最终建议
Step 2: Reviewer 给出 label、evidence、rationale、confidence
Step 3: 第二 reviewer 审查高影响或争议样本
Step 4: Disagreement 进入 adjudication panel
Step 5: Panel 决定是样本误判、政策模糊、标签体系缺失还是 LF 缺陷
Step 6: 结果进入 gold set、policy change 或 LF backlog
8.4 SME 工作量设计
| 工作量对象 | 推荐控制 |
|---|---|
| 初始政策设计 | 让 senior SME 参与,避免低质量标签大规模扩散 |
| LF 审查 | 每个 LF 必须有业务 owner 和 reviewer |
| Gold set | 优先覆盖高影响、高冲突、低覆盖 segment |
| 日常复核 | 固定抽样加风险触发抽样 |
| Release 审批 | 以质量报告为输入,而不是逐条看完整数据集 |
9. 金融零售场景落地
9.1 KYC document classification
目标不是“识别图片是什么”,而是减少客户反复提交、提升预校验准确性,并把证据交给后续 KYC 流程。
| 能力 | 设计 |
|---|---|
| Label ontology | identity document、proof of address、bank statement、corporate registry、tax document、unsupported |
| LF 来源 | OCR keyword、layout、metadata、template matching、issuer dictionary、date extraction |
| Quality metrics | document type precision、unsupported recall、OCR quality slice、language coverage |
| SME review | 新文档模板、低清晰度、跨语言、conflict samples |
| Evidence | OCR span、模板 id、日期字段、地址字段、文件元数据 |
| Release gate | 新版本不得降低 unsupported recall 和低质量图片 segment precision |
关键边界:
Document type label != KYC pass decision
Proof of address label != address verified
Passport label != identity verified
9.2 AML case triage
目标是帮助调查队列排序、typology 初筛和证据组织,而不是自动做正式合规结论。
| 能力 | 设计 |
|---|---|
| Label ontology | structuring signal、rapid movement、high-risk counterparty、unusual cash activity、network concentration、insufficient evidence |
| LF 来源 | 交易聚合、触发规则、历史 case notes、counterparty risk source、analyst disposition |
| Quality metrics | typology precision on adjudicated cases、coverage by product/channel、conflict by typology pair |
| SME review | 高风险低置信、多个 typology 冲突、新产品、新客户类型 |
| Evidence | 交易窗口、规则 id、counterparty source version、case note spans |
| Release gate | label 只进入 triage support,不直接触发正式报告、客户退出或冻结动作 |
产品机会:
| 机会 | 价值 |
|---|---|
| Analyst evidence pack | 把命中的 LF 和证据片段组织给 analyst |
| Typology coverage dashboard | 展示哪些 typology 覆盖不足或过度冲突 |
| Investigation feedback loop | 把 analyst disposition 和 rationale 回流 label system |
9.3 Complaints classification
目标是提升路由、SLA、根因分析和整改闭环,而不是用 AI 替代客户权益判断。
| 能力 | 设计 |
|---|---|
| Label ontology | product、issue、root cause、severity、regulatory sensitivity、customer impact |
| LF 来源 | 客户原文、客服摘要、产品事件、交易异常、渠道、历史处理结果 |
| Quality metrics | routing precision、severity recall、root cause agreement、language/channel coverage |
| SME review | 高严重度、客户损害、监管敏感、跨产品争议 |
| Evidence | 文本 span、产品事件 id、SLA 状态、处理记录 |
| Release gate | 高 severity recall 不得低于批准阈值;低置信分类必须人工复核 |
9.4 Fraud typology tagging
目标是把欺诈事件从“是否欺诈”拆成攻击模式、控制缺口、客户影响和补救路径。
| 能力 | 设计 |
|---|---|
| Label ontology | account takeover、card-not-present、synthetic identity、merchant fraud、scam/social engineering、first-party misuse |
| LF 来源 | device、login、transaction velocity、chargeback、customer claim、merchant category、identity history |
| Quality metrics | typology precision、attack recall proxy、segment coverage、loss-weighted label error |
| SME review | 新攻击模式、模型高损失错误、客户申诉推翻、跨 typology 冲突 |
| Evidence | device event、transaction window、claim text、chargeback outcome、recovery action |
| Release gate | 新 typology 必须有政策定义、样本证据、review protocol 和 rollback plan |
10. 治理和 Release Gate
10.1 NIST AI RMF 映射
| AI RMF 功能 | LabelOps 控制 |
|---|---|
| Govern | 标签责任人、政策审批、角色权限、变更记录、审计证据、风险接受 |
| Map | 明确标签用途、客户影响、数据来源、受影响群体、下游动作 |
| Measure | coverage、conflict、precision、recall、segment quality、drift、review overturn |
| Manage | release gate、human review、rollback、监控、incident remediation、policy update |
10.2 Label policy
每个高价值标签必须有 label policy。
| 字段 | 要求 |
|---|---|
| Label name | 唯一名称和业务解释 |
| Business purpose | 训练、评估、分流、监控或报告用途 |
| Allowed use | 可以支持哪些动作 |
| Prohibited use | 不得直接用于哪些动作 |
| Positive criteria | 满足标签的证据要求 |
| Negative criteria | 明确不应标为该标签的情况 |
| Boundary cases | 常见混淆和裁决原则 |
| Evidence requirement | 必须保留的字段、文本 span、系统事件 |
| SME owner | 政策 owner 和审批人 |
| Review cadence | 周期性复核和触发式复核条件 |
10.3 Fairness and segment coverage
弱监督标签也会产生 fairness 风险。即使最终模型尚未训练,标签阶段已经可能引入偏差。
| 检查 | 问题 |
|---|---|
| Segment coverage | 某些语言、地区、渠道、年龄代理变量、收入段、商户类型是否 coverage 明显低 |
| Segment precision | LF 在不同 segment 上是否质量不同 |
| Label availability | 某些群体是否更容易留下可被 LF 捕获的系统证据 |
| Historical bias | 历史调查或客服标签是否反映旧资源分配 |
| Proxy risk | 渠道、设备、地区、文档类型是否被不当用作风险 proxy |
| Review allocation | SME review 是否只集中在高价值客户或高损失场景 |
公平性治理动作:
发现 segment gap
-> 判断是数据缺失、政策差异、LF 缺陷还是真实业务差异
-> 扩充 gold set 或 LF
-> 必要时限制自动化用途
-> 在 release report 中记录残余限制和风险接受
10.4 Audit evidence binder
一个标签版本进入下游模型训练或生产分流前,至少应形成 evidence binder:
| Evidence | 内容 |
|---|---|
| Label ontology | 标签树、定义、互斥关系、废弃映射 |
| Label policies | 各标签政策、证据要求、禁止用途 |
| Dataset card | 数据来源、时间窗口、采样、权限、限制 |
| LF inventory | LF 列表、版本、owner、说明、依赖、测试结果 |
| Quality report | coverage、conflict、precision、recall、segment metrics |
| Gold set report | 抽样方法、SME 裁决、一致性、争议处理 |
| Impact analysis | 新旧版本标签分布差异、高影响样本变化 |
| Approval record | Business、SME、Data Governance、Model Risk、Compliance 按需审批 |
| Monitoring plan | 线上抽样、漂移、override、投诉、申诉和 incident 触发条件 |
| Rollback plan | 如何恢复前一标签版本或降级到人工流程 |
10.5 Release gate
Release Gate Decision =
用途是否清楚
+ 标签政策是否批准
+ 数据权限是否满足
+ LF 是否有 owner 和测试
+ gold set 是否覆盖关键 segment
+ coverage / precision / recall 是否达标
+ conflicts 是否有处置
+ 高影响用途是否有人审
+ audit evidence 是否完整
+ monitoring and rollback 是否可执行
Gate 结果:
| 结果 | 含义 |
|---|---|
| Approve | 可进入指定用途和范围 |
| Approve with restriction | 只允许低风险用途、限定 segment 或必须人工复核 |
| Defer | 补充 gold set、policy clarification、LF 修复或证据 |
| Reject | 标签定义、数据权限、质量或客户影响风险不可接受 |
11. 模板
11.1 Label policy template
# Label Policy: Complaint - Unauthorized Transaction
## Business Purpose
用于投诉路由、SLA 优先级、根因分析和模型训练标签候选。
## Allowed Use
- 客服工单初始分类建议
- 质检抽样和根因分析
- 投诉分类模型训练和评估
## Prohibited Use
- 不直接作为客户赔付、拒赔、账户限制或正式监管结论
- 不绕过人工复核处理高严重度投诉
## Positive Criteria
- 客户明确表示交易、扣款、转账或账户访问未经授权
- 文本或客服摘要包含与未授权、身份盗用、欺诈交易相关的证据
## Negative Criteria
- 仅对费用金额不满但承认交易发生
- 仅询问交易状态或处理延迟
- 商户服务争议但无未授权主张
## Evidence Requirement
- 原始客户文本 span
- 关联交易 id 或账户事件 id
- 渠道、时间、产品线
- reviewer rationale
## SME Review Rule
- 高严重度、客户损害、重复投诉、低置信或与 fee dispute 冲突的样本进入二审。
11.2 Labeling function card
# Labeling Function Card: lf_unauthorized_transaction_terms
## Intent
捕获客户投诉文本中明确表达未授权交易、身份盗用或欺诈扣款的样本。
## Input
- complaint.normalized_text
- complaint.product
- complaint.channel
- linked_transaction.exists
## Output
- UNAUTHORIZED_TRANSACTION
- ABSTAIN
## Evidence
- matched_terms
- text_spans
- linked_transaction_id
## Expected Strength
高 recall 初筛;precision 依赖否定语义和上下文过滤。
## Known Failure Modes
- 客户引用银行回复中的“unauthorized”但本人并未主张未授权
- 商户争议被误判为未授权交易
- 非英语或混合语言文本覆盖不足
## Metrics Required
- coverage overall
- precision on gold
- recall on gold
- conflict with FEE_DISPUTE and SERVICE_DELAY
- coverage by language and channel
## Review Owner
Complaint operations SME lead
11.3 Dataset / label version card
# Label Dataset Card: AML Triage Labels v2026.06
## Purpose
为 AML case triage model 提供 typology training labels 和 analyst evidence pack,不用于自动生成正式合规结论。
## Data Sources
- AML case management cases closed between 2025-10-01 and 2026-03-31
- Transaction aggregates generated by approved feature pipeline
- Analyst notes with restricted access controls
- Counterparty risk source version 2026.05
## Label Ontology
- STRUCTURING_SIGNAL
- RAPID_MOVEMENT_SIGNAL
- HIGH_RISK_COUNTERPARTY_SIGNAL
- INSUFFICIENT_EVIDENCE
## Label Policy Version
AML-TYPOLOGY-POLICY-2026.05
## LF Bundle Version
AML-LF-BUNDLE-2026.06.2
## Gold Set
- 1,200 adjudicated cases
- stratified by product, channel, customer type and alert source
- all high-conflict samples reviewed by two SMEs
## Quality Summary
- label coverage: 78%
- conflict rate: 14%
- top-label precision on gold: 86%
- lowest segment precision: 79% for new digital channel cases
- release restriction: new digital channel cases require analyst confirmation
## Limitations
- Historical analyst labels may reflect prior queue strategy
- Typology labels are triage support and do not replace investigation conclusions
11.4 SME review protocol template
# SME Review Protocol: Fraud Typology
## Review Scope
Review high-conflict, high-loss, customer-disputed and low-coverage samples from the latest fraud typology label run.
## Reviewer Instructions
1. Read the policy definition before viewing LF outputs.
2. Inspect transaction, device, login and customer claim evidence.
3. Assign one primary typology and optional secondary typology.
4. Record rationale using concrete evidence.
5. Mark policy ambiguity when evidence supports multiple labels.
## Escalation
- New attack pattern goes to fraud taxonomy owner.
- Customer harm or adverse action issue goes to operations risk owner.
- Potential policy conflict goes to governance review.
## Output
- adjudicated_label
- evidence_refs
- reviewer_confidence
- rationale
- policy_issue_flag
11.5 Release gate checklist
# Label Release Gate: KYC Document Classification v2026.06
## Scope
Mobile and web upload document classification for onboarding pre-check and operations routing.
## Required Evidence
- Approved label ontology and policy
- LF inventory with owner and tests
- Gold set report with segment coverage
- Quality dashboard export
- New vs previous version impact analysis
- Security and privacy approval for OCR text handling
- SME approval
- Monitoring and rollback plan
## Minimum Criteria
- top-label precision on gold >= 90%
- unsupported document recall >= 85%
- no critical segment below approved precision threshold
- all high-conflict document templates reviewed
- no LF with expired policy or external source dependency
## Decision
Approve with restriction: unsupported or low OCR quality samples route to manual review.
12. 30 天训练计划
| Day | 主题 | 产出 |
|---|---|---|
| 1 | Data-centric AI vs model-centric AI | 写一页“为什么标签是产品资产” |
| 2 | Snorkel / data programming paper 精读 | 摘要 labeling functions、label model、weak supervision trade-off |
| 3 | 选定金融零售 use case | 定义 KYC、AML、投诉或欺诈中的一个 label problem |
| 4 | Label ontology 设计 | 输出标签树、互斥关系、允许多标签规则 |
| 5 | Label policy 设计 | 写 3 个标签的 positive / negative / boundary cases |
| 6 | Dataset documentation | 用 datasheet 思路写数据来源、限制、推荐用途 |
| 7 | Evidence trail 设计 | 画 evidence schema 和样本生命周期 |
| 8 | 编写第一组 LF | 完成 5 条 deterministic LF pseudo-code |
| 9 | Coverage / conflict 分析 | 做 LF matrix 表和 conflict heatmap 草图 |
| 10 | Gold set 抽样策略 | 设计 random、stratified、conflict、edge-case gold |
| 11 | SME workflow | 设计 review queue、adjudication 和二审机制 |
| 12 | Label model 原理 | 解释 generative label model 如何融合 noisy LF |
| 13 | Quality metrics | 定义 coverage、precision、recall、entropy、segment gap |
| 14 | KYC 场景深化 | 输出 KYC document classification release gate |
| 15 | AML 场景深化 | 输出 AML triage evidence pack 和禁止用途 |
| 16 | Complaints 场景深化 | 输出 complaint taxonomy 和 routing policy |
| 17 | Fraud 场景深化 | 输出 fraud typology tagging framework |
| 18 | Fairness / segment coverage | 设计按渠道、语言、地区、客户类型的质量监控 |
| 19 | Versioning | 设计 label release version scheme |
| 20 | Audit evidence binder | 输出 binder 目录和审批角色 |
| 21 | Release gate | 写 approve / restrict / defer / reject 决策逻辑 |
| 22 | Monitoring | 设计 drift、override、review overturn、complaint feedback |
| 23 | Incident response | 写标签缺陷修复和模型影响分析流程 |
| 24 | Product PRD | 写 LabelOps 平台 MVP PRD |
| 25 | Architecture | 画 LabelOps reference architecture 文本图 |
| 26 | KPI | 定义平台成功指标和运营指标 |
| 27 | Interview answers | 准备 6 个高级问答 |
| 28 | Portfolio case | 写一个端到端案例故事 |
| 29 | Executive memo | 写给 CRO / COO / CDO 的一页说明 |
| 30 | Capstone review | 整合 playbook、模板、架构图和案例页 |
13. 面试答案
Q1: Programmatic labeling 和普通规则标注有什么区别?
30 秒版本
普通规则标注通常是批量 if-else。Programmatic labeling 是一个标签生产系统:用多个 LF 表达专家知识和弱监督信号,显式保留 abstain、conflict、coverage 和 evidence,再用 label model、gold set 和 SME review 估计标签质量,最终形成可版本化、可审计的训练数据。
2 分钟版本
我会从四层解释。第一层是 label policy,先定义标签含义、证据和禁止用途。第二层是 LF,把规则、知识库、历史信号和模型建议转成可测试的弱监督来源。第三层是 label model 和质量分析,处理 LF 之间的冲突、相关性和噪声,输出 probabilistic labels。第四层是治理,包括 gold set、SME adjudication、segment coverage、release gate 和 monitoring。在金融场景里,弱标签不能直接触发客户不利动作,它更多用于训练、分流、证据组织和人工复核优先级。
Q2: Generative label model 解决什么问题?
30 秒版本
它解决多个 noisy、conflicting、abstaining LF 如何融合的问题。它估计 LF 的准确性和依赖关系,把 label matrix 转成概率标签。
2 分钟版本
在 weak supervision 中,每个 LF 都可能覆盖有限、精度不一,还可能相互冲突。Generative label model 不是训练最终业务模型,而是建模标签生成过程:哪些 LF 更可信,哪些 LF 经常一起错,哪些冲突代表真正不确定。输出的 probabilistic labels 再用于训练下游 discriminative model。它的边界是必须通过 gold set 和 SME review 验证,不能因为模型给出概率就把标签当真值。
Q3: 如何衡量标签质量?
30 秒版本
我会同时看 coverage、overlap、conflict、precision、recall、label entropy、segment coverage、review overturn rate 和 downstream sensitivity。
2 分钟版本
coverage 告诉我们标签系统覆盖多少样本;conflict 告诉我们政策或规则哪里有争议;precision / recall 要在 gold set 上看,尤其是高影响标签;segment coverage 和 segment precision 用来识别不同渠道、语言、地区和客户类型的质量差异;review overturn rate 反映 SME 是否经常推翻系统标签;downstream sensitivity 判断某类 LF 改动是否会显著影响模型。金融场景不能只看总体准确率,因为低覆盖 segment 可能正是风险最高或客户影响最大的地方。
Q4: SME 在 programmatic labeling 中应该做什么?
30 秒版本
SME 不应该只是逐条打标签,而应该设计标签政策、审查 LF、裁决冲突、建立 gold set、审查 release report,并用生产反馈持续修正标签系统。
2 分钟版本
Programmatic labeling 的价值是放大 SME 判断。高级 SME 先定义 label ontology 和 policy,包括 positive、negative、boundary cases 和证据要求。数据团队把这些知识编码成 LF 后,SME 审查 LF 是否符合业务现实。系统运行后,SME 优先处理高冲突、高不确定、高影响和低覆盖 segment 样本。裁决结果不仅形成 gold set,还反向推动政策澄清和 LF 改进。这样 SME 时间从低价值重复标注转向高价值治理。
Q5: 如何防止弱标签固化历史偏差?
30 秒版本
不能直接把历史处理结果当真值。要记录标签来源,区分 outcome、action 和 proxy,按 segment 检查 coverage 和 precision,用 gold set、SME review 和生产反馈校验。
2 分钟版本
历史标签可能反映旧政策、旧资源分配和旧队列优先级。例如 AML case 被调查并不等于真实风险更高,投诉被某团队处理也不等于分类正确。我会在 label policy 中明确 allowed source,给 historical decision LF 标记 proxy risk,并在质量报告里单独看 segment bias、review overturn 和 downstream sensitivity。高风险历史 proxy 只能作为弱信号,不能作为唯一真值。上线前 release gate 必须说明这种残余风险如何被限制。
Q6: LabelOps 平台 MVP 应该包括什么?
30 秒版本
MVP 至少包括 label ontology/policy registry、LF registry、LF execution、label matrix、quality dashboard、SME review、dataset versioning 和 release gate。
2 分钟版本
我会先建端到端闭环,而不是追求复杂 UI。第一是定义和版本化标签政策。第二是让数据科学家和 SME 能提交 LF,并记录 owner、evidence、测试和依赖。第三是运行 LF 生成 label matrix,展示 coverage、conflict、precision、recall 和 segment gaps。第四是 SME review console,处理高价值样本并形成 gold set。第五是 dataset registry 和 release gate,把标签版本进入训练或生产前的证据、审批和 rollback 固化下来。
Q7: LLM 可以作为 labeling function 吗?
30 秒版本
可以作为弱监督来源,但必须有 prompt version、evidence requirement、gold validation、segment analysis 和 SME review,不能把 LLM 输出直接当真值。
2 分钟版本
LLM 适合处理文本分类、摘要辅助、候选 evidence extraction 和 hard sample suggestion。但它的输出受 prompt、上下文、模型版本和数据分布影响,可能流畅但错误。因此我会把 LLM LF 设计成可审计组件:记录 prompt、model version、input context、输出、引用证据和置信信息;在 gold set 上评估 precision / recall;按语言和渠道切片;高影响样本必须人工复核。LLM LF 的定位是扩展覆盖和发现候选,不是替代标签政策。
Q8: 如何向管理层解释 Data-centric AI 的投资价值?
30 秒版本
它降低的不是单次标注成本,而是模型迭代、审计、运营一致性和风险控制成本。高质量标签平台让 AI 项目从一次性实验变成可复用的数据资产。
2 分钟版本
我会用金融零售语言表达:第一,减少开户、投诉、欺诈和 AML 队列中的误分流,提高运营效率;第二,形成可审计证据,支持模型风险和合规审查;第三,提升模型上线后的稳定性,因为标签政策、数据覆盖和 segment quality 可监控;第四,缩短新产品、新渠道、新攻击模式下的迭代周期。与其不断换模型,不如把最稀缺的 SME 知识变成可版本化、可复用、可治理的标签资产。
14. 作品集表达
14.1 Portfolio case structure
# Case Study: Data-Centric AI LabelOps for Financial Retail
## Business Problem
KYC / AML / complaints / fraud 场景中标签质量不稳定,导致模型效果、运营分流和审计证据不足。
## Product Goal
建立 programmatic labeling 平台,把 SME 知识、规则、历史证据和弱监督信号转成可版本化标签资产。
## Architecture
Source systems -> canonical sample -> evidence extractor -> LF runtime -> label matrix -> label model -> SME review -> dataset registry -> release gate -> monitoring.
## Key Product Decisions
- 弱标签不直接触发高影响客户动作
- 每个标签必须有 policy、evidence 和 owner
- conflict 和 low coverage 被视为产品信号
- release gate 以质量指标和审计证据为核心
## Metrics
- label coverage
- precision and recall on gold set
- conflict rate
- segment coverage
- SME review overturn rate
- downstream model lift
- operational routing improvement
## Governance
用 NIST AI RMF 的 Govern / Map / Measure / Manage 映射 label policy、SME review、fairness coverage、audit evidence 和 release gate。
## Outcome Narrative
把 AI 项目从模型调参转向标签资产治理,使金融零售团队能够更快构建训练集、更清楚解释数据来源,并在高影响场景中保留人工和治理控制。
14.2 简历 bullet
Designed a data-centric AI LabelOps architecture for financial retail use cases, covering programmatic labeling, weak supervision, SME adjudication, label quality metrics, dataset versioning, audit evidence and release gates for KYC, AML, complaints and fraud typology workflows.
14.3 面试故事线
Situation:
模型效果不稳定,根因不是算法,而是标签定义、历史 proxy、低覆盖 segment 和 SME 裁决缺失。
Task:
建立一个可复用的标签生产和治理体系,支持多个金融零售 AI 场景。
Action:
设计 label ontology、label policy、LF registry、label matrix、generative label model、SME review queue、gold set、dataset card、quality dashboard 和 release gate。
Result:
让团队能解释每个标签的来源、证据、版本、质量和限制,并把数据中心型迭代纳入 AI 风险治理。
14.4 架构师表达
架构师不要只说“我们使用 Snorkel”。更高级的表达是:
我把 weak supervision 放在 LabelOps 控制平面里:
标签定义由 policy 管理,
专家知识由 LF 表达,
冲突由 label matrix 暴露,
质量由 gold set 和 segment metrics 度量,
上线由 release gate 控制,
审计由 evidence binder 支撑。
15. 关键结论
- Programmatic labeling 是标签生产体系,不是批量规则脚本。
- Weak supervision 的价值来自多个弱信号的组合、冲突暴露、质量估计和 SME 闭环。
- Generative label model 能融合 noisy LF,但不能替代 gold set、SME review 和治理审批。
- 金融零售标签必须有 evidence trail、版本、禁止用途和 release gate。
- Label quality 要同时看 coverage、precision、recall、conflict、segment gaps 和 review overturn。
- Data-centric AI 的高级 PM 能力,是把 SME 知识、政策、数据、模型和运营反馈组织成可复用的标签资产。
- 作品集表达要从“我会标注数据”升级为“我能设计可审计、可治理、可迭代的 LabelOps 平台”。