返回 Papers
AI 扩展计划 / Playbooks

AI Programmatic Labeling / Data-Centric AI Playbook

以下来源是本文的技术和治理锚点。本文把它们转成产品能力、架构组件、质量指标、SME 工作流、审计证据和上线门禁,不把任何论文或框架直接等同于监管合规结论。

1,232AI_PROGRAMMATIC_LABELING_DATA_CENTRIC_AI_PLAYBOOK.md

AI Programmatic Labeling & Data-Centric AI Playbook

定位:面向高级 AI PM / AI BA / AI Architect / Model Risk / Data Governance / 金融零售运营团队,把 programmatic labeling、weak supervision、Snorkel/data programming、SME review、label quality、dataset documentation 和 release gate 组合成可上线、可审计、可迭代的数据中心型 AI 生产体系。

适用边界:本文面向 KYC 文件分类、AML case triage、客户投诉分类、欺诈 typology tagging、运营工单分流、合规文本归类、RAG 训练/评估集构建和内部 copilot 反馈标签。它不把“弱监督”当成免人工标注,而是把专家知识、规则、历史案例、系统证据和模型辅助判断组织成可版本化、可度量、可治理的标签资产。

重要说明:本文是学习、作品集和内部方案训练材料,不构成法律意见、合规结论、模型验证报告、监管解释或正式模型风险批准。正式项目必须由 Legal、Compliance、Model Risk、Fair Lending、Privacy、Security、Data Governance、Business Owner、Operations、SME 和管理层结合机构类型、司法辖区、客户影响、内部政策和使用场景确认。


Source Anchors

以下来源是本文的技术和治理锚点。本文把它们转成产品能力、架构组件、质量指标、SME 工作流、审计证据和上线门禁,不把任何论文或框架直接等同于监管合规结论。

AnchorLink本文使用方式
Ratner et al., Snorkel: Rapid Training Data Creation with Weak Supervisionhttps://arxiv.org/abs/1711.10160https://www.vldb.org/pvldb/vol11/p269-ratner.pdf建立 data programming 主线:用 labeling functions 表达启发式、规则、外部知识库和 SME 逻辑,再用 generative label model 融合 noisy / conflicting / abstaining labels。
NIST AI RMF 1.0https://www.nist.gov/itl/ai-risk-management-frameworkhttps://doi.org/10.6028/NIST.AI.100-1用 Govern / Map / Measure / Manage 组织标签风险治理,把 label policy、coverage、segment fairness、audit evidence、release gate 和 monitoring 纳入 AI 风险管理。
Gebru et al., Datasheets for Datasetshttps://arxiv.org/abs/1803.09010https://cacm.acm.org/research/datasheets-for-datasets/作为数据文档锚点:要求记录数据动机、组成、采集、处理、推荐用途、限制、伦理/偏差风险和维护责任。
Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AIhttps://arxiv.org/abs/2204.01075作为面向产品团队的数据说明锚点:把 dataset documentation 从静态附件扩展为便于多角色理解和复用的透明沟通资产。
Snorkel AI Documentationhttps://docs.snorkel.ai/作为工程概念锚点:将 labeling functions、label model、analysis、slicing、data-centric iteration 等概念转成平台能力和工作流设计。

1. 一句话定位

Programmatic labeling 的核心不是“用规则批量打标签”,而是:

Label-to-Model Control System =
把 SME 知识、政策定义、历史案例、业务规则、外部知识库、模型建议和抽样人工判断
编码为可测试、可版本化、可解释来源的 labeling functions,
再用 label model 和 gold set 估计标签质量,
把 noisy labels 转成可治理的训练数据、评估数据、路由策略和审计证据。

在金融零售里,label 是产品和风控的事实层,不是数据科学的中间产物:

场景标签错误的业务后果正确目标
KYC document classification身份证明、地址证明、公司文件被误分,导致开户延迟、重复提交或错误通过文件类型、字段证据、有效期、签发地、OCR 置信度和人工复核理由可追踪
AML case triage高风险 case 被低优先级处理,或低价值 case 挤占调查资源typology、risk driver、evidence strength、analyst routing 和最终决策隔离
Complaints classification投诉根因、产品线或客户影响分类错误,导致 SLA、升级和整改偏离complaint taxonomy、regulatory sensitivity、root cause、channel 和 remediation 标签一致
Fraud typology taggingaccount takeover、synthetic identity、card-not-present、merchant fraud 混淆fraud pattern、attack vector、customer impact、recovery status 和控制缺口可分析
RAG / Copilot evaluation训练集或评估集本身错误,导致模型看似进步但实际学到错误偏好answerability、citation support、policy class、severity 和 reviewer rationale 可复核

高级 AI PM / 架构师要能回答四个问题:

  1. 标签政策是什么,哪些标签能自动生成,哪些必须 SME 裁决?
  2. 每个标签的证据、版本、冲突、覆盖率和质量指标在哪里?
  3. 标签缺陷如何影响模型、流程、客户体验和审计风险?
  4. 数据中心型迭代如何进入 release gate,而不是停留在 notebook 实验?

2. 为什么重要

2.1 从模型中心到数据中心

许多 AI 项目失败不是因为模型架构不够新,而是因为训练标签没有稳定定义。

典型失败链路:

业务团队说“识别高风险 AML case”
-> 数据团队从历史字段里取一个 proxy label
-> 历史标签混合了不同团队、时期和政策口径
-> 模型学到旧流程偏差
-> 线上效果不稳定
-> 团队继续调参、换模型、加特征
-> 根因仍然是 label policy 和 evidence trail 缺失

数据中心型 AI 的反向做法:

定义标签政策和业务动作
-> 设计 label ontology 和 evidence requirements
-> 建立 gold set 与 SME adjudication
-> 编写 labeling functions 捕获专家知识和系统证据
-> 分析 coverage / conflicts / precision / recall / segment gaps
-> 修正标签、数据和流程
-> 再训练模型和评估上线风险

2.2 Programmatic labeling 解决的不是成本,而是迭代速度和可治理性

人工标注可以产生高质量样本,但在金融零售的复杂场景里会遇到四个瓶颈:

瓶颈传统人工标注问题Programmatic labeling 的价值
规则变化快政策口径、产品条款、欺诈模式、投诉分类会变labeling functions 可版本化更新,并生成 impact analysis
标签稀缺AML true positive、复杂欺诈、特殊投诉低频用启发式、知识库和历史调查信号提升覆盖,保留不确定性
专家时间贵SME 不适合逐条低价值标注SME 设计政策、审查冲突、裁决高价值样本,放大专家影响
审计要求高难证明标签为什么这样来每个 LF、证据字段、review action、dataset version 形成 evidence trail

Programmatic labeling 不等于自动化所有标注。它把“专家逐条判断”升级为“专家设计、测试、监控和治理标签系统”。

2.3 金融零售的标签风险具有客户影响

标签缺陷会进入模型训练、运营分流、客户沟通和管理报告。高级团队必须把 label quality 当成生产控制。

Label 风险表现生产影响
Ambiguous label policySME 对同一 case 的分类口径不同模型上限低,运营争议高
Proxy label leakage使用历史动作当真实结果学到旧流程偏差和资源分配偏差
Low coverage只覆盖主流渠道、英语文本或成熟产品新渠道、新地区、新客群效果差
Hidden conflict多条规则同时命中不同标签但未暴露弱标签噪声被当成确定事实
Segment imbalance某客户群、商户类型、文档语言样本不足公平性、服务质量和模型稳定性风险
Version drift标签规则变化未重新生成数据集训练、评估、线上行为不可复现

3. 核心概念地图

3.1 Programmatic labeling

Programmatic labeling 是用程序化规则、启发式、模式匹配、外部知识、历史系统信号、模型建议和 SME 逻辑批量产生标签候选。

它适合以下条件:

条件说明
专家能说清判断线索例如“地址证明必须包含姓名、地址、日期且在可接受时间窗口内”
标签可由多个弱信号组合例如投诉类别由关键词、产品、渠道、情绪、历史 root cause 共同判断
数据量大且标签变化快例如欺诈 typology、AML typology、运营工单分类
需要证据链每个标签要知道来自哪条 LF、哪个字段、哪个版本和哪个 reviewer
可以保留 abstain没有足够证据时不强行打标签

不适合以下条件:

条件原因
标签本身没有业务定义规则会固化混乱,而不是解决混乱
结果决定高影响客户动作且无人工控制弱标签不能直接替代正式决策
无法获得 gold set 或 SME 反馈label model 无法可靠验证实际质量
数据权限、隐私或保留期限不允许标签平台必须服从数据治理和安全控制

3.2 Weak supervision

Weak supervision 把不完美但有用的监督信号组合起来:

来源示例风险
Heuristic rules关键词、regex、字段阈值、时间窗口规则过窄或过时
Distant supervision外部名单、知识库、产品目录、文档模板库来源质量和更新频率不稳定
Historical labels历史调查结果、客服分类、人工队列带有旧流程偏差
Model-assisted labelsOCR 分类器、embedding 相似度、LLM 建议模型偏差被再训练放大
SME-authored functions专家定义的组合逻辑可能覆盖有限或口径不一致
Crowd or operations signals一线处理动作、二审记录、申诉结果标注者能力和激励不同

Weak supervision 的目标不是让每个弱信号都正确,而是通过组合、估计、冲突分析和 gold validation 产生更稳健的 probabilistic labels。

3.3 Labeling function

Labeling function, LF,是一个输入样本到标签或 abstain 的函数:

LF(sample) -> one of {label_a, label_b, label_c, ABSTAIN}

优秀 LF 有五个特征:

特征说明
Explicit intent清楚说明它捕获哪条业务判断
Evidence-based指向具体字段、文本 span、系统事件或外部来源
Measurable能计算 coverage、conflict、precision、recall、segment coverage
Versioned代码、参数、标签政策、数据窗口和依赖源可复现
ReviewableSME 能理解命中原因并决定保留、修改或废弃

3.4 Generative label model

在 Snorkel / data programming 思路中,多个 LF 会形成一个 label matrix:

Rows    = samples
Columns = labeling functions
Values  = label id or abstain

Generative label model 估计 LF 的准确率、相关性和冲突模式,输出 probabilistic labels。它解决的问题是:

LFs noisy and conflicting
-> estimate source accuracies and dependencies
-> produce confidence-weighted training labels
-> train downstream discriminative model

关键边界:

边界高级判断
不是免验证必须用 gold set、SME review 和 production outcome 做质量闭环
不是越多 LF 越好高相关、重复、低精度 LF 会制造虚假信心
不是直接业务决策器标签模型生成的是训练/评估/分流输入,不应绕过高影响动作的正式控制
不是一次性工程标签政策、数据分布、欺诈模式和产品流程变化后必须重新评估

3.5 Data-centric AI

Data-centric AI 的 PM / 架构含义:

模型迭代 = 标签定义、数据覆盖、证据质量、冲突裁决、分段公平、数据文档和监控的共同迭代。

对 AI PM 来说,数据中心型工作不是“让数据科学家清洗数据”,而是建立 label product:

产品对象需要被管理的内容
Label ontology标签层级、定义、排他性、动作映射、废弃策略
Label policy标注口径、证据要求、冲突处理、SME 权限
Label platformLF registry、execution、analysis、review、export、audit
Label qualitygold precision、recall、coverage、conflict、fairness、drift
Label release版本、change log、impact analysis、approval、rollback

4. LabelOps 平台能力

4.1 能力全景

Source systems
  - documents, cases, transactions, complaints, CRM, core banking, fraud tools
  - policy docs, product catalog, external lists, investigation notes
-> Data ingestion and permission boundary
-> Label ontology and label policy registry
-> Labeling function development
  - rule LF
  - dictionary / taxonomy LF
  - metadata LF
  - knowledge-base LF
  - model-assisted LF
  - LLM-assisted LF with review controls
-> LF execution engine
-> Label matrix store
-> Label model and quality analysis
-> SME review and adjudication console
-> Dataset and label version registry
-> Training / evaluation / monitoring exports
-> Audit evidence binder and release gate

4.2 关键组件

组件主要职责设计要点
Label ontology service管理标签层级、定义、适用范围和业务动作支持 parent-child、mutually exclusive、多标签、废弃标签映射
Label policy registry管理标注政策和证据要求每个 policy 有 owner、effective date、approval、change reason
LF registry存储 LF 代码、参数、依赖、作者、review 状态不允许无 owner、无测试、无解释的 LF 进入生产生成
LF execution engine对样本批量运行 LF记录输入数据版本、运行时间、依赖版本和错误率
Label matrix store保存每个样本被每个 LF 命中的结果支持 conflict、overlap、abstain、evidence payload 查询
Label model service训练/运行 generative label model输出 probabilistic label、uncertainty、source contribution
Quality dashboard展示 coverage、conflict、precision、recall、segment gaps支持按渠道、产品、语言、地区、客户 tenure、商户类型切片
SME review console让专家审查冲突、低置信、高影响样本保留裁决、理由、证据、二审、时间戳和 reviewer
Dataset registry管理 train / validation / test / gold / monitoring slices记录 dataset card、label policy version、sampling logic
Release gate控制标签版本进入训练、评估或上线强制质量阈值、审批、风险接受和 rollback plan

4.3 角色模型

角色权限不应拥有的权限
Business owner定义业务目标、风险容忍度、动作映射不能单独批准绕过模型风险或合规控制
SME / Analyst lead定义标签政策、审查 LF、裁决冲突不能无审计记录地改写生产标签版本
Data scientist编写 LF、训练 label model、评估下游模型不能修改 label policy approval 状态
Data engineer建立数据管道、版本、权限、质量监控不能裁决业务标签真值
Model Risk / Validation审查方法、假设、结果、限制和监控不能替代 business owner 接受业务风险
Compliance / Legal审查政策约束、客户影响、保留和披露不能直接用模型指标替代法律判断
Operations manager使用标签改进队列、SLA、质检和培训不能把弱标签直接当正式客户结论

5. 架构设计

5.1 Reference Architecture

Operational and document sources
  -> data contract and access control
  -> canonical sample builder
     - document sample
     - case sample
     - complaint sample
     - transaction pattern sample
  -> evidence extractor
     - OCR spans
     - metadata
     - transaction aggregates
     - policy references
     - historical decisions
  -> LF runtime
     - deterministic rules
     - taxonomy matchers
     - knowledge-base joins
     - model-assisted signals
  -> label matrix
  -> quality analyzer
     - LF coverage
     - overlap and conflict
     - gold precision and recall
     - segment coverage
     - drift and stale rule checks
  -> label model
  -> probabilistic labels
  -> SME review queue
  -> adjudicated labels and gold set
  -> dataset registry
  -> downstream model training and evaluation
  -> release gate and monitoring

5.2 Canonical sample design

Programmatic labeling 平台必须先统一“被标注对象”,否则 LF 会绑定各系统的偶然字段。

Sample 类型最小字段证据字段
KYC document sampledocument_id, customer_id, channel, received_at, ocr_text, metadataOCR span、文件模板、签发日期、有效期、国家/地区、上传历史
AML case samplecase_id, customer_id, alerts, transactions, case_notes触发规则、交易网络、金额模式、历史调查、名单筛查结果
Complaint samplecomplaint_id, customer_id, product, channel, text, created_at客户原文、客服摘要、产品事件、SLA、升级记录、处理结果
Fraud event sampleevent_id, customer_id, merchant, device, transactions, outcomedevice fingerprint、velocity、chargeback、login anomaly、recovery result

5.3 Evidence trail schema

标签系统的审计价值来自 evidence trail。

字段说明
sample_id被标注对象唯一标识
sample_version输入样本版本,包含数据窗口和提取逻辑版本
label_policy_version标签政策版本
lf_idlabeling function 标识
lf_versionLF 代码和参数版本
lf_output标签或 abstain
lf_confidence如果 LF 自身有置信分数,记录原始分数和校准方式
evidence_refs命中的字段、文本 span、规则 id、外部知识库 id
label_model_version生成概率标签的 label model 版本
probabilistic_label标签分布或 top label
quality_slice所属 segment,例如渠道、语言、产品、地区、客户类型
review_status未审、已审、二审、争议、废弃
reviewer_idSME 或 reviewer 标识
review_rationale裁决理由,必须引用证据或政策
release_id进入训练/评估/上线的标签版本

5.4 Versioning strategy

标签版本必须同时覆盖数据、政策、LF、label model 和人工裁决。

Label Release =
dataset snapshot
+ extraction code version
+ label ontology version
+ label policy version
+ LF bundle version
+ label model version
+ gold set version
+ SME adjudication version
+ quality report
+ approval record

版本策略:

变更版本动作必需分析
新增标签类ontology minor 或 major,根据动作影响决定historical backfill、confusion with existing labels、SME agreement
修改标签定义policy majoraffected samples、model retraining need、customer impact
新增 LFLF bundle minorcoverage gain、conflict increase、precision on gold、segment impact
修改 LF 参数LF bundle minorbefore/after label diff、high-impact sample diff
更换 label modellabel model majorprobabilistic label shift、downstream model performance
增加 gold setgold set minormetric confidence interval、segment coverage improvement
删除低质量 LFLF bundle minorcoverage loss、conflict reduction、downstream impact

6. Labeling Function 设计

6.1 LF 类型

LF 类型金融零售示例使用边界
Keyword / regex LF投诉文本含“unauthorized transaction”“重复扣款”“身份盗用”适合高召回初筛,必须处理否定、上下文和多语言
Metadata LFKYC 文件上传渠道、文件扩展名、OCR 语言、case 来源不能让渠道 proxy 取代真实标签
Threshold LF交易频次、金额增幅、登录失败次数、退款率阈值要按产品和 segment 校准
Taxonomy LF产品目录、投诉分类树、欺诈 typology 字典taxonomy owner 和废弃映射必须清楚
Knowledge-base LF外部名单、商户类别、文档模板库、公司注册类型记录来源、更新时间和匹配置信度
Historical decision LF历史 analyst disposition、chargeback outcome、case closure reason需要识别旧政策、旧流程和 resource bias
Model-assisted LFOCR 分类器、embedding nearest neighbor、LLM suggestion只能作为弱信号,不能无 gold validation 直接替代 SME
Cross-field consistency LF文件姓名与客户资料一致、地址与 CRM 一致要处理合法差异、拼写、地址标准化和隐私边界

6.2 LF 设计原则

原则说明
Prefer abstain over guessingLF 没有足够证据时返回 abstain,而不是填充最常见标签
Evidence first每次命中都能解释“哪个字段、哪段文本、哪条政策、哪个版本”
Narrow and testable一个 LF 捕获一类判断,避免把多个复杂条件揉成不可解释黑箱
Segment-aware设计时考虑语言、渠道、地区、产品、客户类型和文档格式差异
Conflict is a signal不隐藏冲突,冲突样本是 SME review 和 policy clarification 的高价值输入
Separate triage from final decision弱标签可用于训练和分流,不直接产生高影响正式结论
Review negative space关注没有被任何 LF 覆盖的样本,而不只看命中的样本

6.3 KYC document LF 示例

ABSTAIN = -1
PASSPORT = 1
UTILITY_BILL = 2
BANK_STATEMENT = 3

def lf_passport_keywords(sample):
    text = sample.ocr_text.lower()
    strong_terms = ["passport", "date of birth", "place of birth", "passport no"]
    if sum(term in text for term in strong_terms) >= 2:
        return PASSPORT
    return ABSTAIN

def lf_recent_utility_bill(sample):
    text = sample.ocr_text.lower()
    has_utility_terms = any(term in text for term in ["electricity", "water", "gas", "utility"])
    has_address = sample.extracted_address is not None
    is_recent = sample.document_date_within_days(120)
    if has_utility_terms and has_address and is_recent:
        return UTILITY_BILL
    return ABSTAIN

def lf_bank_statement_layout(sample):
    text = sample.ocr_text.lower()
    if "statement period" in text and "account number" in text and sample.has_transaction_table:
        return BANK_STATEMENT
    return ABSTAIN

产品/架构注意点:

要求
Evidence保存命中的关键词、日期字段、OCR span、模板 id
Conflict如果 lf_recent_utility_billlf_bank_statement_layout 同时命中,进入 document type conflict queue
Segment按语言、签发国家/地区、移动端上传、扫描件质量切片
Governance文档类型分类不等于 KYC 通过,KYC 通过仍需单独政策和控制

6.4 AML case triage LF 示例

ABSTAIN = -1
STRUCTURING_SIGNAL = 10
RAPID_MOVEMENT_SIGNAL = 11
HIGH_RISK_COUNTERPARTY_SIGNAL = 12

def lf_structuring_pattern(case):
    tx = case.transaction_summary
    if tx.cash_deposit_count_30d >= 5 and tx.amounts_cluster_below_reporting_threshold:
        return STRUCTURING_SIGNAL
    return ABSTAIN

def lf_rapid_in_out(case):
    tx = case.transaction_summary
    if tx.incoming_to_outgoing_ratio_7d > 0.85 and tx.median_hold_time_hours < 24:
        return RAPID_MOVEMENT_SIGNAL
    return ABSTAIN

def lf_high_risk_counterparty(case):
    if case.counterparty_risk_hits >= 1 and case.counterparty_match_quality in ["strong", "confirmed"]:
        return HIGH_RISK_COUNTERPARTY_SIGNAL
    return ABSTAIN

边界要求:

要求
用途只能用于 case typology tagging、调查队列优先级建议、模型训练标签候选
隔离不自动触发正式可疑活动报告、账户关闭或客户不利动作
Evidence记录交易窗口、触发规则、金额聚合方式、counterparty source version
SME高风险命中、冲突 typology 和低覆盖 segment 进入 analyst lead review

6.5 Complaints classification LF 示例

ABSTAIN = -1
UNAUTHORIZED_TRANSACTION = 20
SERVICE_DELAY = 21
FEE_DISPUTE = 22

def lf_unauthorized_transaction_terms(complaint):
    text = complaint.normalized_text
    terms = ["unauthorized", "did not authorize", "fraudulent charge", "identity theft"]
    if any(term in text for term in terms):
        return UNAUTHORIZED_TRANSACTION
    return ABSTAIN

def lf_service_delay_terms(complaint):
    text = complaint.normalized_text
    terms = ["still waiting", "not received", "delay", "no response", "pending for"]
    if any(term in text for term in terms) and complaint.days_open >= 3:
        return SERVICE_DELAY
    return ABSTAIN

def lf_fee_dispute_terms(complaint):
    text = complaint.normalized_text
    if "fee" in text and any(term in text for term in ["waive", "refund", "charged", "overdraft"]):
        return FEE_DISPUTE
    return ABSTAIN

投诉标签要连接:

标签下游动作
Categoryrouting、SLA、质检抽样
Root cause产品整改、流程修复、培训
Severity升级、客户补救、管理报告
Evidence原文 span、客服摘要、产品事件、处理记录

6.6 Fraud typology LF 示例

ABSTAIN = -1
ACCOUNT_TAKEOVER = 30
CARD_NOT_PRESENT = 31
SYNTHETIC_IDENTITY = 32

def lf_account_takeover(event):
    login = event.login_features
    tx = event.transaction_features
    if login.new_device and login.geo_velocity_high and tx.first_time_payee and tx.value_zscore > 3:
        return ACCOUNT_TAKEOVER
    return ABSTAIN

def lf_card_not_present(event):
    if event.card_present is False and event.ecommerce_mcc and event.avs_mismatch:
        return CARD_NOT_PRESENT
    return ABSTAIN

def lf_synthetic_identity(event):
    identity = event.identity_features
    if identity.thin_file and identity.recently_created_contact_points and identity.high_credit_velocity:
        return SYNTHETIC_IDENTITY
    return ABSTAIN

欺诈标签要避免两个误区:

误区正确做法
把 chargeback 当所有欺诈真值区分客户申诉、商户争议、操作错误和确认欺诈
只按损失金额优化同时看客户影响、误拦截、恢复成本、攻击演化和 segment coverage

7. Label Quality Metrics

7.1 基础指标

指标定义产品含义
LF coverageLF 非 abstain 的样本比例这条专家逻辑影响多大
Label coverage至少一个 LF 命中的样本比例当前标签系统覆盖多少业务空间
Overlap多个 LF 同时命中的比例是否有足够信息可供 label model 融合
Conflict多个 LF 输出不同标签的比例标签政策、规则或数据存在争议
Empirical precisionLF 命中样本中 gold label 一致比例这条 LF 是否可信
Empirical recallgold label 属于某类时 LF 能捕获多少这条 LF 是否漏掉大量真实样本
Label model accuracyprobabilistic label top class 与 gold 的一致性融合后的标签质量
Abstain rateLF 或标签系统不做判断的比例保守性和覆盖不足的平衡
Segment coverage各 segment 的覆盖率是否只服务主流样本
Segment precision gap各 segment precision 差异是否存在标签质量不均

7.2 高级指标

指标为什么重要使用方式
Conflict heatmap找出哪些 LF 对之间经常冲突触发 SME policy clarification
Label entropy衡量 label model 输出不确定性高 entropy 样本进入 review 或 active learning
Evidence completeness命中标签是否带足证据引用release gate 的审计检查
Stale LF rateLF 依赖的政策、名单、模板是否过期防止旧规则污染新数据
Label drift新批次标签分布与历史版本差异识别产品、渠道、攻击和政策变化
Downstream sensitivity删除或修改某类 LF 对模型指标影响判断哪些 LF 是关键控制点
Review overturn rateSME 推翻自动标签的比例衡量自动标签和政策口径的偏差
Inter-reviewer agreement多位 SME 对 gold set 的一致性识别标签定义模糊和培训缺口

7.3 Label precision / recall 的业务解释

标签 precision 和 recall 不是单纯模型指标,而是运营风险语言。

指标高时代表低时风险
KYC document precision被标为 passport 的文档大多真是 passport客户被要求补错材料或错误通过预校验
KYC document recall真 passport 大多能被捕获文件被落到人工泛队列,开户延迟
AML typology precisiontypology 命中对调查有帮助analyst 被噪声拖累,调查资源浪费
AML typology recall关键 typology 不被漏掉高风险模式被低估
Complaint class precision路由准确,SLA 和补救路径匹配客户重复解释、投诉升级
Fraud typology recall攻击模式可及时聚合分析控制缺口发现滞后

7.4 Gold set 设计

Gold set 是标签系统的校准锚点,不是随手抽一批样本。

Gold set 类型用途设计要求
Random gold估计整体质量按时间、渠道、产品抽样,避免只抽容易样本
Stratified gold估计 segment 质量覆盖语言、地区、客户类型、文档类型、商户类型
Conflict gold解决 LF 冲突优先审查高冲突、高影响、高 entropy 样本
Edge-case gold覆盖少数但重要情形新产品、罕见文档、复杂欺诈、新投诉主题
Monitoring gold线上持续抽样固定节奏复核,连接投诉、申诉、调查结果

Gold set 审查要求:

每条 gold label =
label
+ evidence references
+ policy version
+ reviewer
+ rationale
+ adjudication status
+ timestamp

8. SME Workflow

8.1 从逐条标注到标签系统治理

SME 的高价值工作不是无休止点击标签,而是:

SME 工作产出
定义 label ontology标签树、互斥关系、动作映射
编写 label policy定义、证据要求、边界案例、禁止用途
审查 LF proposal判断 LF 是否符合政策和业务现实
裁决 conflict samples发现政策模糊和数据缺陷
建立 gold set为质量指标提供可信锚点
审查 release report判断标签版本是否可进入训练或上线
复盘生产反馈用申诉、投诉、调查结果修正标签系统

8.2 SME Review Queue

Review queue 不应随机堆积样本,而要按信息价值排序。

队列进入条件目标
High conflict多个高权重 LF 输出不同标签澄清政策或拆分标签
High entropylabel model 对多个标签不确定增强 gold set 和 LF
High impact可能影响客户不利动作、合规升级或重大损失加强人工控制
Low coverage segment某 segment 几乎没有 LF 命中扩展规则和样本
Drift sample新批次分布显著变化判断是否产品、渠道或攻击变化
Override sample运营或客户反馈推翻标签发现系统性缺陷

8.3 Adjudication protocol

Step 1: Reviewer 只看原始样本、证据和 label policy,不看模型最终建议
Step 2: Reviewer 给出 label、evidence、rationale、confidence
Step 3: 第二 reviewer 审查高影响或争议样本
Step 4: Disagreement 进入 adjudication panel
Step 5: Panel 决定是样本误判、政策模糊、标签体系缺失还是 LF 缺陷
Step 6: 结果进入 gold set、policy change 或 LF backlog

8.4 SME 工作量设计

工作量对象推荐控制
初始政策设计让 senior SME 参与,避免低质量标签大规模扩散
LF 审查每个 LF 必须有业务 owner 和 reviewer
Gold set优先覆盖高影响、高冲突、低覆盖 segment
日常复核固定抽样加风险触发抽样
Release 审批以质量报告为输入,而不是逐条看完整数据集

9. 金融零售场景落地

9.1 KYC document classification

目标不是“识别图片是什么”,而是减少客户反复提交、提升预校验准确性,并把证据交给后续 KYC 流程。

能力设计
Label ontologyidentity document、proof of address、bank statement、corporate registry、tax document、unsupported
LF 来源OCR keyword、layout、metadata、template matching、issuer dictionary、date extraction
Quality metricsdocument type precision、unsupported recall、OCR quality slice、language coverage
SME review新文档模板、低清晰度、跨语言、conflict samples
EvidenceOCR span、模板 id、日期字段、地址字段、文件元数据
Release gate新版本不得降低 unsupported recall 和低质量图片 segment precision

关键边界:

Document type label != KYC pass decision
Proof of address label != address verified
Passport label != identity verified

9.2 AML case triage

目标是帮助调查队列排序、typology 初筛和证据组织,而不是自动做正式合规结论。

能力设计
Label ontologystructuring signal、rapid movement、high-risk counterparty、unusual cash activity、network concentration、insufficient evidence
LF 来源交易聚合、触发规则、历史 case notes、counterparty risk source、analyst disposition
Quality metricstypology precision on adjudicated cases、coverage by product/channel、conflict by typology pair
SME review高风险低置信、多个 typology 冲突、新产品、新客户类型
Evidence交易窗口、规则 id、counterparty source version、case note spans
Release gatelabel 只进入 triage support,不直接触发正式报告、客户退出或冻结动作

产品机会:

机会价值
Analyst evidence pack把命中的 LF 和证据片段组织给 analyst
Typology coverage dashboard展示哪些 typology 覆盖不足或过度冲突
Investigation feedback loop把 analyst disposition 和 rationale 回流 label system

9.3 Complaints classification

目标是提升路由、SLA、根因分析和整改闭环,而不是用 AI 替代客户权益判断。

能力设计
Label ontologyproduct、issue、root cause、severity、regulatory sensitivity、customer impact
LF 来源客户原文、客服摘要、产品事件、交易异常、渠道、历史处理结果
Quality metricsrouting precision、severity recall、root cause agreement、language/channel coverage
SME review高严重度、客户损害、监管敏感、跨产品争议
Evidence文本 span、产品事件 id、SLA 状态、处理记录
Release gate高 severity recall 不得低于批准阈值;低置信分类必须人工复核

9.4 Fraud typology tagging

目标是把欺诈事件从“是否欺诈”拆成攻击模式、控制缺口、客户影响和补救路径。

能力设计
Label ontologyaccount takeover、card-not-present、synthetic identity、merchant fraud、scam/social engineering、first-party misuse
LF 来源device、login、transaction velocity、chargeback、customer claim、merchant category、identity history
Quality metricstypology precision、attack recall proxy、segment coverage、loss-weighted label error
SME review新攻击模式、模型高损失错误、客户申诉推翻、跨 typology 冲突
Evidencedevice event、transaction window、claim text、chargeback outcome、recovery action
Release gate新 typology 必须有政策定义、样本证据、review protocol 和 rollback plan

10. 治理和 Release Gate

10.1 NIST AI RMF 映射

AI RMF 功能LabelOps 控制
Govern标签责任人、政策审批、角色权限、变更记录、审计证据、风险接受
Map明确标签用途、客户影响、数据来源、受影响群体、下游动作
Measurecoverage、conflict、precision、recall、segment quality、drift、review overturn
Managerelease gate、human review、rollback、监控、incident remediation、policy update

10.2 Label policy

每个高价值标签必须有 label policy。

字段要求
Label name唯一名称和业务解释
Business purpose训练、评估、分流、监控或报告用途
Allowed use可以支持哪些动作
Prohibited use不得直接用于哪些动作
Positive criteria满足标签的证据要求
Negative criteria明确不应标为该标签的情况
Boundary cases常见混淆和裁决原则
Evidence requirement必须保留的字段、文本 span、系统事件
SME owner政策 owner 和审批人
Review cadence周期性复核和触发式复核条件

10.3 Fairness and segment coverage

弱监督标签也会产生 fairness 风险。即使最终模型尚未训练,标签阶段已经可能引入偏差。

检查问题
Segment coverage某些语言、地区、渠道、年龄代理变量、收入段、商户类型是否 coverage 明显低
Segment precisionLF 在不同 segment 上是否质量不同
Label availability某些群体是否更容易留下可被 LF 捕获的系统证据
Historical bias历史调查或客服标签是否反映旧资源分配
Proxy risk渠道、设备、地区、文档类型是否被不当用作风险 proxy
Review allocationSME review 是否只集中在高价值客户或高损失场景

公平性治理动作:

发现 segment gap
-> 判断是数据缺失、政策差异、LF 缺陷还是真实业务差异
-> 扩充 gold set 或 LF
-> 必要时限制自动化用途
-> 在 release report 中记录残余限制和风险接受

10.4 Audit evidence binder

一个标签版本进入下游模型训练或生产分流前,至少应形成 evidence binder:

Evidence内容
Label ontology标签树、定义、互斥关系、废弃映射
Label policies各标签政策、证据要求、禁止用途
Dataset card数据来源、时间窗口、采样、权限、限制
LF inventoryLF 列表、版本、owner、说明、依赖、测试结果
Quality reportcoverage、conflict、precision、recall、segment metrics
Gold set report抽样方法、SME 裁决、一致性、争议处理
Impact analysis新旧版本标签分布差异、高影响样本变化
Approval recordBusiness、SME、Data Governance、Model Risk、Compliance 按需审批
Monitoring plan线上抽样、漂移、override、投诉、申诉和 incident 触发条件
Rollback plan如何恢复前一标签版本或降级到人工流程

10.5 Release gate

Release Gate Decision =
用途是否清楚
+ 标签政策是否批准
+ 数据权限是否满足
+ LF 是否有 owner 和测试
+ gold set 是否覆盖关键 segment
+ coverage / precision / recall 是否达标
+ conflicts 是否有处置
+ 高影响用途是否有人审
+ audit evidence 是否完整
+ monitoring and rollback 是否可执行

Gate 结果:

结果含义
Approve可进入指定用途和范围
Approve with restriction只允许低风险用途、限定 segment 或必须人工复核
Defer补充 gold set、policy clarification、LF 修复或证据
Reject标签定义、数据权限、质量或客户影响风险不可接受

11. 模板

11.1 Label policy template

# Label Policy: Complaint - Unauthorized Transaction

## Business Purpose
用于投诉路由、SLA 优先级、根因分析和模型训练标签候选。

## Allowed Use
- 客服工单初始分类建议
- 质检抽样和根因分析
- 投诉分类模型训练和评估

## Prohibited Use
- 不直接作为客户赔付、拒赔、账户限制或正式监管结论
- 不绕过人工复核处理高严重度投诉

## Positive Criteria
- 客户明确表示交易、扣款、转账或账户访问未经授权
- 文本或客服摘要包含与未授权、身份盗用、欺诈交易相关的证据

## Negative Criteria
- 仅对费用金额不满但承认交易发生
- 仅询问交易状态或处理延迟
- 商户服务争议但无未授权主张

## Evidence Requirement
- 原始客户文本 span
- 关联交易 id 或账户事件 id
- 渠道、时间、产品线
- reviewer rationale

## SME Review Rule
- 高严重度、客户损害、重复投诉、低置信或与 fee dispute 冲突的样本进入二审。

11.2 Labeling function card

# Labeling Function Card: lf_unauthorized_transaction_terms

## Intent
捕获客户投诉文本中明确表达未授权交易、身份盗用或欺诈扣款的样本。

## Input
- complaint.normalized_text
- complaint.product
- complaint.channel
- linked_transaction.exists

## Output
- UNAUTHORIZED_TRANSACTION
- ABSTAIN

## Evidence
- matched_terms
- text_spans
- linked_transaction_id

## Expected Strength
高 recall 初筛;precision 依赖否定语义和上下文过滤。

## Known Failure Modes
- 客户引用银行回复中的“unauthorized”但本人并未主张未授权
- 商户争议被误判为未授权交易
- 非英语或混合语言文本覆盖不足

## Metrics Required
- coverage overall
- precision on gold
- recall on gold
- conflict with FEE_DISPUTE and SERVICE_DELAY
- coverage by language and channel

## Review Owner
Complaint operations SME lead

11.3 Dataset / label version card

# Label Dataset Card: AML Triage Labels v2026.06

## Purpose
为 AML case triage model 提供 typology training labels 和 analyst evidence pack,不用于自动生成正式合规结论。

## Data Sources
- AML case management cases closed between 2025-10-01 and 2026-03-31
- Transaction aggregates generated by approved feature pipeline
- Analyst notes with restricted access controls
- Counterparty risk source version 2026.05

## Label Ontology
- STRUCTURING_SIGNAL
- RAPID_MOVEMENT_SIGNAL
- HIGH_RISK_COUNTERPARTY_SIGNAL
- INSUFFICIENT_EVIDENCE

## Label Policy Version
AML-TYPOLOGY-POLICY-2026.05

## LF Bundle Version
AML-LF-BUNDLE-2026.06.2

## Gold Set
- 1,200 adjudicated cases
- stratified by product, channel, customer type and alert source
- all high-conflict samples reviewed by two SMEs

## Quality Summary
- label coverage: 78%
- conflict rate: 14%
- top-label precision on gold: 86%
- lowest segment precision: 79% for new digital channel cases
- release restriction: new digital channel cases require analyst confirmation

## Limitations
- Historical analyst labels may reflect prior queue strategy
- Typology labels are triage support and do not replace investigation conclusions

11.4 SME review protocol template

# SME Review Protocol: Fraud Typology

## Review Scope
Review high-conflict, high-loss, customer-disputed and low-coverage samples from the latest fraud typology label run.

## Reviewer Instructions
1. Read the policy definition before viewing LF outputs.
2. Inspect transaction, device, login and customer claim evidence.
3. Assign one primary typology and optional secondary typology.
4. Record rationale using concrete evidence.
5. Mark policy ambiguity when evidence supports multiple labels.

## Escalation
- New attack pattern goes to fraud taxonomy owner.
- Customer harm or adverse action issue goes to operations risk owner.
- Potential policy conflict goes to governance review.

## Output
- adjudicated_label
- evidence_refs
- reviewer_confidence
- rationale
- policy_issue_flag

11.5 Release gate checklist

# Label Release Gate: KYC Document Classification v2026.06

## Scope
Mobile and web upload document classification for onboarding pre-check and operations routing.

## Required Evidence
- Approved label ontology and policy
- LF inventory with owner and tests
- Gold set report with segment coverage
- Quality dashboard export
- New vs previous version impact analysis
- Security and privacy approval for OCR text handling
- SME approval
- Monitoring and rollback plan

## Minimum Criteria
- top-label precision on gold >= 90%
- unsupported document recall >= 85%
- no critical segment below approved precision threshold
- all high-conflict document templates reviewed
- no LF with expired policy or external source dependency

## Decision
Approve with restriction: unsupported or low OCR quality samples route to manual review.

12. 30 天训练计划

Day主题产出
1Data-centric AI vs model-centric AI写一页“为什么标签是产品资产”
2Snorkel / data programming paper 精读摘要 labeling functions、label model、weak supervision trade-off
3选定金融零售 use case定义 KYC、AML、投诉或欺诈中的一个 label problem
4Label ontology 设计输出标签树、互斥关系、允许多标签规则
5Label policy 设计写 3 个标签的 positive / negative / boundary cases
6Dataset documentation用 datasheet 思路写数据来源、限制、推荐用途
7Evidence trail 设计画 evidence schema 和样本生命周期
8编写第一组 LF完成 5 条 deterministic LF pseudo-code
9Coverage / conflict 分析做 LF matrix 表和 conflict heatmap 草图
10Gold set 抽样策略设计 random、stratified、conflict、edge-case gold
11SME workflow设计 review queue、adjudication 和二审机制
12Label model 原理解释 generative label model 如何融合 noisy LF
13Quality metrics定义 coverage、precision、recall、entropy、segment gap
14KYC 场景深化输出 KYC document classification release gate
15AML 场景深化输出 AML triage evidence pack 和禁止用途
16Complaints 场景深化输出 complaint taxonomy 和 routing policy
17Fraud 场景深化输出 fraud typology tagging framework
18Fairness / segment coverage设计按渠道、语言、地区、客户类型的质量监控
19Versioning设计 label release version scheme
20Audit evidence binder输出 binder 目录和审批角色
21Release gate写 approve / restrict / defer / reject 决策逻辑
22Monitoring设计 drift、override、review overturn、complaint feedback
23Incident response写标签缺陷修复和模型影响分析流程
24Product PRD写 LabelOps 平台 MVP PRD
25Architecture画 LabelOps reference architecture 文本图
26KPI定义平台成功指标和运营指标
27Interview answers准备 6 个高级问答
28Portfolio case写一个端到端案例故事
29Executive memo写给 CRO / COO / CDO 的一页说明
30Capstone review整合 playbook、模板、架构图和案例页

13. 面试答案

Q1: Programmatic labeling 和普通规则标注有什么区别?

30 秒版本

普通规则标注通常是批量 if-else。Programmatic labeling 是一个标签生产系统:用多个 LF 表达专家知识和弱监督信号,显式保留 abstain、conflict、coverage 和 evidence,再用 label model、gold set 和 SME review 估计标签质量,最终形成可版本化、可审计的训练数据。

2 分钟版本

我会从四层解释。第一层是 label policy,先定义标签含义、证据和禁止用途。第二层是 LF,把规则、知识库、历史信号和模型建议转成可测试的弱监督来源。第三层是 label model 和质量分析,处理 LF 之间的冲突、相关性和噪声,输出 probabilistic labels。第四层是治理,包括 gold set、SME adjudication、segment coverage、release gate 和 monitoring。在金融场景里,弱标签不能直接触发客户不利动作,它更多用于训练、分流、证据组织和人工复核优先级。

Q2: Generative label model 解决什么问题?

30 秒版本

它解决多个 noisy、conflicting、abstaining LF 如何融合的问题。它估计 LF 的准确性和依赖关系,把 label matrix 转成概率标签。

2 分钟版本

在 weak supervision 中,每个 LF 都可能覆盖有限、精度不一,还可能相互冲突。Generative label model 不是训练最终业务模型,而是建模标签生成过程:哪些 LF 更可信,哪些 LF 经常一起错,哪些冲突代表真正不确定。输出的 probabilistic labels 再用于训练下游 discriminative model。它的边界是必须通过 gold set 和 SME review 验证,不能因为模型给出概率就把标签当真值。

Q3: 如何衡量标签质量?

30 秒版本

我会同时看 coverage、overlap、conflict、precision、recall、label entropy、segment coverage、review overturn rate 和 downstream sensitivity。

2 分钟版本

coverage 告诉我们标签系统覆盖多少样本;conflict 告诉我们政策或规则哪里有争议;precision / recall 要在 gold set 上看,尤其是高影响标签;segment coverage 和 segment precision 用来识别不同渠道、语言、地区和客户类型的质量差异;review overturn rate 反映 SME 是否经常推翻系统标签;downstream sensitivity 判断某类 LF 改动是否会显著影响模型。金融场景不能只看总体准确率,因为低覆盖 segment 可能正是风险最高或客户影响最大的地方。

Q4: SME 在 programmatic labeling 中应该做什么?

30 秒版本

SME 不应该只是逐条打标签,而应该设计标签政策、审查 LF、裁决冲突、建立 gold set、审查 release report,并用生产反馈持续修正标签系统。

2 分钟版本

Programmatic labeling 的价值是放大 SME 判断。高级 SME 先定义 label ontology 和 policy,包括 positive、negative、boundary cases 和证据要求。数据团队把这些知识编码成 LF 后,SME 审查 LF 是否符合业务现实。系统运行后,SME 优先处理高冲突、高不确定、高影响和低覆盖 segment 样本。裁决结果不仅形成 gold set,还反向推动政策澄清和 LF 改进。这样 SME 时间从低价值重复标注转向高价值治理。

Q5: 如何防止弱标签固化历史偏差?

30 秒版本

不能直接把历史处理结果当真值。要记录标签来源,区分 outcome、action 和 proxy,按 segment 检查 coverage 和 precision,用 gold set、SME review 和生产反馈校验。

2 分钟版本

历史标签可能反映旧政策、旧资源分配和旧队列优先级。例如 AML case 被调查并不等于真实风险更高,投诉被某团队处理也不等于分类正确。我会在 label policy 中明确 allowed source,给 historical decision LF 标记 proxy risk,并在质量报告里单独看 segment bias、review overturn 和 downstream sensitivity。高风险历史 proxy 只能作为弱信号,不能作为唯一真值。上线前 release gate 必须说明这种残余风险如何被限制。

Q6: LabelOps 平台 MVP 应该包括什么?

30 秒版本

MVP 至少包括 label ontology/policy registry、LF registry、LF execution、label matrix、quality dashboard、SME review、dataset versioning 和 release gate。

2 分钟版本

我会先建端到端闭环,而不是追求复杂 UI。第一是定义和版本化标签政策。第二是让数据科学家和 SME 能提交 LF,并记录 owner、evidence、测试和依赖。第三是运行 LF 生成 label matrix,展示 coverage、conflict、precision、recall 和 segment gaps。第四是 SME review console,处理高价值样本并形成 gold set。第五是 dataset registry 和 release gate,把标签版本进入训练或生产前的证据、审批和 rollback 固化下来。

Q7: LLM 可以作为 labeling function 吗?

30 秒版本

可以作为弱监督来源,但必须有 prompt version、evidence requirement、gold validation、segment analysis 和 SME review,不能把 LLM 输出直接当真值。

2 分钟版本

LLM 适合处理文本分类、摘要辅助、候选 evidence extraction 和 hard sample suggestion。但它的输出受 prompt、上下文、模型版本和数据分布影响,可能流畅但错误。因此我会把 LLM LF 设计成可审计组件:记录 prompt、model version、input context、输出、引用证据和置信信息;在 gold set 上评估 precision / recall;按语言和渠道切片;高影响样本必须人工复核。LLM LF 的定位是扩展覆盖和发现候选,不是替代标签政策。

Q8: 如何向管理层解释 Data-centric AI 的投资价值?

30 秒版本

它降低的不是单次标注成本,而是模型迭代、审计、运营一致性和风险控制成本。高质量标签平台让 AI 项目从一次性实验变成可复用的数据资产。

2 分钟版本

我会用金融零售语言表达:第一,减少开户、投诉、欺诈和 AML 队列中的误分流,提高运营效率;第二,形成可审计证据,支持模型风险和合规审查;第三,提升模型上线后的稳定性,因为标签政策、数据覆盖和 segment quality 可监控;第四,缩短新产品、新渠道、新攻击模式下的迭代周期。与其不断换模型,不如把最稀缺的 SME 知识变成可版本化、可复用、可治理的标签资产。


14. 作品集表达

14.1 Portfolio case structure

# Case Study: Data-Centric AI LabelOps for Financial Retail

## Business Problem
KYC / AML / complaints / fraud 场景中标签质量不稳定,导致模型效果、运营分流和审计证据不足。

## Product Goal
建立 programmatic labeling 平台,把 SME 知识、规则、历史证据和弱监督信号转成可版本化标签资产。

## Architecture
Source systems -> canonical sample -> evidence extractor -> LF runtime -> label matrix -> label model -> SME review -> dataset registry -> release gate -> monitoring.

## Key Product Decisions
- 弱标签不直接触发高影响客户动作
- 每个标签必须有 policy、evidence 和 owner
- conflict 和 low coverage 被视为产品信号
- release gate 以质量指标和审计证据为核心

## Metrics
- label coverage
- precision and recall on gold set
- conflict rate
- segment coverage
- SME review overturn rate
- downstream model lift
- operational routing improvement

## Governance
用 NIST AI RMF 的 Govern / Map / Measure / Manage 映射 label policy、SME review、fairness coverage、audit evidence 和 release gate。

## Outcome Narrative
把 AI 项目从模型调参转向标签资产治理,使金融零售团队能够更快构建训练集、更清楚解释数据来源,并在高影响场景中保留人工和治理控制。

14.2 简历 bullet

Designed a data-centric AI LabelOps architecture for financial retail use cases, covering programmatic labeling, weak supervision, SME adjudication, label quality metrics, dataset versioning, audit evidence and release gates for KYC, AML, complaints and fraud typology workflows.

14.3 面试故事线

Situation:
模型效果不稳定,根因不是算法,而是标签定义、历史 proxy、低覆盖 segment 和 SME 裁决缺失。

Task:
建立一个可复用的标签生产和治理体系,支持多个金融零售 AI 场景。

Action:
设计 label ontology、label policy、LF registry、label matrix、generative label model、SME review queue、gold set、dataset card、quality dashboard 和 release gate。

Result:
让团队能解释每个标签的来源、证据、版本、质量和限制,并把数据中心型迭代纳入 AI 风险治理。

14.4 架构师表达

架构师不要只说“我们使用 Snorkel”。更高级的表达是:

我把 weak supervision 放在 LabelOps 控制平面里:
标签定义由 policy 管理,
专家知识由 LF 表达,
冲突由 label matrix 暴露,
质量由 gold set 和 segment metrics 度量,
上线由 release gate 控制,
审计由 evidence binder 支撑。

15. 关键结论

  1. Programmatic labeling 是标签生产体系,不是批量规则脚本。
  2. Weak supervision 的价值来自多个弱信号的组合、冲突暴露、质量估计和 SME 闭环。
  3. Generative label model 能融合 noisy LF,但不能替代 gold set、SME review 和治理审批。
  4. 金融零售标签必须有 evidence trail、版本、禁止用途和 release gate。
  5. Label quality 要同时看 coverage、precision、recall、conflict、segment gaps 和 review overturn。
  6. Data-centric AI 的高级 PM 能力,是把 SME 知识、政策、数据、模型和运营反馈组织成可复用的标签资产。
  7. 作品集表达要从“我会标注数据”升级为“我能设计可审计、可治理、可迭代的 LabelOps 平台”。