AI 扩展计划 / Playbooks

AI Programmatic Labeling / Data-Centric AI Playbook

以下来源是本文的技术和治理锚点。本文把它们转成产品能力、架构组件、质量指标、SME 工作流、审计证据和上线门禁，不把任何论文或框架直接等同于监管合规结论。

1,232 行AI_PROGRAMMATIC_LABELING_DATA_CENTRIC_AI_PLAYBOOK.md

AI Programmatic Labeling & Data-Centric AI Playbook

定位：面向高级 AI PM / AI BA / AI Architect / Model Risk / Data Governance / 金融零售运营团队，把 programmatic labeling、weak supervision、Snorkel/data programming、SME review、label quality、dataset documentation 和 release gate 组合成可上线、可审计、可迭代的数据中心型 AI 生产体系。

适用边界：本文面向 KYC 文件分类、AML case triage、客户投诉分类、欺诈 typology tagging、运营工单分流、合规文本归类、RAG 训练/评估集构建和内部 copilot 反馈标签。它不把“弱监督”当成免人工标注，而是把专家知识、规则、历史案例、系统证据和模型辅助判断组织成可版本化、可度量、可治理的标签资产。

重要说明：本文是学习、作品集和内部方案训练材料，不构成法律意见、合规结论、模型验证报告、监管解释或正式模型风险批准。正式项目必须由 Legal、Compliance、Model Risk、Fair Lending、Privacy、Security、Data Governance、Business Owner、Operations、SME 和管理层结合机构类型、司法辖区、客户影响、内部政策和使用场景确认。

Source Anchors

Anchor	Link	本文使用方式
Ratner et al., Snorkel: Rapid Training Data Creation with Weak Supervision	https://arxiv.org/abs/1711.10160 和 https://www.vldb.org/pvldb/vol11/p269-ratner.pdf	建立 data programming 主线：用 labeling functions 表达启发式、规则、外部知识库和 SME 逻辑，再用 generative label model 融合 noisy / conflicting / abstaining labels。
NIST AI RMF 1.0	https://www.nist.gov/itl/ai-risk-management-framework 和 https://doi.org/10.6028/NIST.AI.100-1	用 Govern / Map / Measure / Manage 组织标签风险治理，把 label policy、coverage、segment fairness、audit evidence、release gate 和 monitoring 纳入 AI 风险管理。
Gebru et al., Datasheets for Datasets	https://arxiv.org/abs/1803.09010 和 https://cacm.acm.org/research/datasheets-for-datasets/	作为数据文档锚点：要求记录数据动机、组成、采集、处理、推荐用途、限制、伦理/偏差风险和维护责任。
Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI	https://arxiv.org/abs/2204.01075	作为面向产品团队的数据说明锚点：把 dataset documentation 从静态附件扩展为便于多角色理解和复用的透明沟通资产。
Snorkel AI Documentation	https://docs.snorkel.ai/	作为工程概念锚点：将 labeling functions、label model、analysis、slicing、data-centric iteration 等概念转成平台能力和工作流设计。

1. 一句话定位

Programmatic labeling 的核心不是“用规则批量打标签”，而是：

Label-to-Model Control System =
把 SME 知识、政策定义、历史案例、业务规则、外部知识库、模型建议和抽样人工判断
编码为可测试、可版本化、可解释来源的 labeling functions，
再用 label model 和 gold set 估计标签质量，
把 noisy labels 转成可治理的训练数据、评估数据、路由策略和审计证据。

在金融零售里，label 是产品和风控的事实层，不是数据科学的中间产物：

场景	标签错误的业务后果	正确目标
KYC document classification	身份证明、地址证明、公司文件被误分，导致开户延迟、重复提交或错误通过	文件类型、字段证据、有效期、签发地、OCR 置信度和人工复核理由可追踪
AML case triage	高风险 case 被低优先级处理，或低价值 case 挤占调查资源	typology、risk driver、evidence strength、analyst routing 和最终决策隔离
Complaints classification	投诉根因、产品线或客户影响分类错误，导致 SLA、升级和整改偏离	complaint taxonomy、regulatory sensitivity、root cause、channel 和 remediation 标签一致
Fraud typology tagging	account takeover、synthetic identity、card-not-present、merchant fraud 混淆	fraud pattern、attack vector、customer impact、recovery status 和控制缺口可分析
RAG / Copilot evaluation	训练集或评估集本身错误，导致模型看似进步但实际学到错误偏好	answerability、citation support、policy class、severity 和 reviewer rationale 可复核

高级 AI PM / 架构师要能回答四个问题：

标签政策是什么，哪些标签能自动生成，哪些必须 SME 裁决？
每个标签的证据、版本、冲突、覆盖率和质量指标在哪里？
标签缺陷如何影响模型、流程、客户体验和审计风险？
数据中心型迭代如何进入 release gate，而不是停留在 notebook 实验？

2. 为什么重要

2.1 从模型中心到数据中心

许多 AI 项目失败不是因为模型架构不够新，而是因为训练标签没有稳定定义。

典型失败链路：

业务团队说“识别高风险 AML case”
-> 数据团队从历史字段里取一个 proxy label
-> 历史标签混合了不同团队、时期和政策口径
-> 模型学到旧流程偏差
-> 线上效果不稳定
-> 团队继续调参、换模型、加特征
-> 根因仍然是 label policy 和 evidence trail 缺失

数据中心型 AI 的反向做法：

定义标签政策和业务动作
-> 设计 label ontology 和 evidence requirements
-> 建立 gold set 与 SME adjudication
-> 编写 labeling functions 捕获专家知识和系统证据
-> 分析 coverage / conflicts / precision / recall / segment gaps
-> 修正标签、数据和流程
-> 再训练模型和评估上线风险

2.2 Programmatic labeling 解决的不是成本，而是迭代速度和可治理性

人工标注可以产生高质量样本，但在金融零售的复杂场景里会遇到四个瓶颈：

瓶颈	传统人工标注问题	Programmatic labeling 的价值
规则变化快	政策口径、产品条款、欺诈模式、投诉分类会变	labeling functions 可版本化更新，并生成 impact analysis
标签稀缺	AML true positive、复杂欺诈、特殊投诉低频	用启发式、知识库和历史调查信号提升覆盖，保留不确定性
专家时间贵	SME 不适合逐条低价值标注	SME 设计政策、审查冲突、裁决高价值样本，放大专家影响
审计要求高	难证明标签为什么这样来	每个 LF、证据字段、review action、dataset version 形成 evidence trail

Programmatic labeling 不等于自动化所有标注。它把“专家逐条判断”升级为“专家设计、测试、监控和治理标签系统”。

2.3 金融零售的标签风险具有客户影响

标签缺陷会进入模型训练、运营分流、客户沟通和管理报告。高级团队必须把 label quality 当成生产控制。

Label 风险	表现	生产影响
Ambiguous label policy	SME 对同一 case 的分类口径不同	模型上限低，运营争议高
Proxy label leakage	使用历史动作当真实结果	学到旧流程偏差和资源分配偏差
Low coverage	只覆盖主流渠道、英语文本或成熟产品	新渠道、新地区、新客群效果差
Hidden conflict	多条规则同时命中不同标签但未暴露	弱标签噪声被当成确定事实
Segment imbalance	某客户群、商户类型、文档语言样本不足	公平性、服务质量和模型稳定性风险
Version drift	标签规则变化未重新生成数据集	训练、评估、线上行为不可复现

3. 核心概念地图

3.1 Programmatic labeling

Programmatic labeling 是用程序化规则、启发式、模式匹配、外部知识、历史系统信号、模型建议和 SME 逻辑批量产生标签候选。

它适合以下条件：

条件	说明
专家能说清判断线索	例如“地址证明必须包含姓名、地址、日期且在可接受时间窗口内”
标签可由多个弱信号组合	例如投诉类别由关键词、产品、渠道、情绪、历史 root cause 共同判断
数据量大且标签变化快	例如欺诈 typology、AML typology、运营工单分类
需要证据链	每个标签要知道来自哪条 LF、哪个字段、哪个版本和哪个 reviewer
可以保留 abstain	没有足够证据时不强行打标签

不适合以下条件：

条件	原因
标签本身没有业务定义	规则会固化混乱，而不是解决混乱
结果决定高影响客户动作且无人工控制	弱标签不能直接替代正式决策
无法获得 gold set 或 SME 反馈	label model 无法可靠验证实际质量
数据权限、隐私或保留期限不允许	标签平台必须服从数据治理和安全控制

3.2 Weak supervision

Weak supervision 把不完美但有用的监督信号组合起来：

来源	示例	风险
Heuristic rules	关键词、regex、字段阈值、时间窗口	规则过窄或过时
Distant supervision	外部名单、知识库、产品目录、文档模板库	来源质量和更新频率不稳定
Historical labels	历史调查结果、客服分类、人工队列	带有旧流程偏差
Model-assisted labels	OCR 分类器、embedding 相似度、LLM 建议	模型偏差被再训练放大
SME-authored functions	专家定义的组合逻辑	可能覆盖有限或口径不一致
Crowd or operations signals	一线处理动作、二审记录、申诉结果	标注者能力和激励不同

Weak supervision 的目标不是让每个弱信号都正确，而是通过组合、估计、冲突分析和 gold validation 产生更稳健的 probabilistic labels。

3.3 Labeling function

Labeling function, LF，是一个输入样本到标签或 abstain 的函数：

LF(sample) -> one of {label_a, label_b, label_c, ABSTAIN}

优秀 LF 有五个特征：

特征	说明
Explicit intent	清楚说明它捕获哪条业务判断
Evidence-based	指向具体字段、文本 span、系统事件或外部来源
Measurable	能计算 coverage、conflict、precision、recall、segment coverage
Versioned	代码、参数、标签政策、数据窗口和依赖源可复现
Reviewable	SME 能理解命中原因并决定保留、修改或废弃

3.4 Generative label model

在 Snorkel / data programming 思路中，多个 LF 会形成一个 label matrix：

Rows    = samples
Columns = labeling functions
Values  = label id or abstain

Generative label model 估计 LF 的准确率、相关性和冲突模式，输出 probabilistic labels。它解决的问题是：

LFs noisy and conflicting
-> estimate source accuracies and dependencies
-> produce confidence-weighted training labels
-> train downstream discriminative model

关键边界：

边界	高级判断
不是免验证	必须用 gold set、SME review 和 production outcome 做质量闭环
不是越多 LF 越好	高相关、重复、低精度 LF 会制造虚假信心
不是直接业务决策器	标签模型生成的是训练/评估/分流输入，不应绕过高影响动作的正式控制
不是一次性工程	标签政策、数据分布、欺诈模式和产品流程变化后必须重新评估

3.5 Data-centric AI

Data-centric AI 的 PM / 架构含义：

模型迭代 = 标签定义、数据覆盖、证据质量、冲突裁决、分段公平、数据文档和监控的共同迭代。

对 AI PM 来说，数据中心型工作不是“让数据科学家清洗数据”，而是建立 label product：

产品对象	需要被管理的内容
Label ontology	标签层级、定义、排他性、动作映射、废弃策略
Label policy	标注口径、证据要求、冲突处理、SME 权限
Label platform	LF registry、execution、analysis、review、export、audit
Label quality	gold precision、recall、coverage、conflict、fairness、drift
Label release	版本、change log、impact analysis、approval、rollback

4. LabelOps 平台能力

4.1 能力全景

Source systems
  - documents, cases, transactions, complaints, CRM, core banking, fraud tools
  - policy docs, product catalog, external lists, investigation notes
-> Data ingestion and permission boundary
-> Label ontology and label policy registry
-> Labeling function development
  - rule LF
  - dictionary / taxonomy LF
  - metadata LF
  - knowledge-base LF
  - model-assisted LF
  - LLM-assisted LF with review controls
-> LF execution engine
-> Label matrix store
-> Label model and quality analysis
-> SME review and adjudication console
-> Dataset and label version registry
-> Training / evaluation / monitoring exports
-> Audit evidence binder and release gate

4.2 关键组件

组件	主要职责	设计要点
Label ontology service	管理标签层级、定义、适用范围和业务动作	支持 parent-child、mutually exclusive、多标签、废弃标签映射
Label policy registry	管理标注政策和证据要求	每个 policy 有 owner、effective date、approval、change reason
LF registry	存储 LF 代码、参数、依赖、作者、review 状态	不允许无 owner、无测试、无解释的 LF 进入生产生成
LF execution engine	对样本批量运行 LF	记录输入数据版本、运行时间、依赖版本和错误率
Label matrix store	保存每个样本被每个 LF 命中的结果	支持 conflict、overlap、abstain、evidence payload 查询
Label model service	训练/运行 generative label model	输出 probabilistic label、uncertainty、source contribution
Quality dashboard	展示 coverage、conflict、precision、recall、segment gaps	支持按渠道、产品、语言、地区、客户 tenure、商户类型切片
SME review console	让专家审查冲突、低置信、高影响样本	保留裁决、理由、证据、二审、时间戳和 reviewer
Dataset registry	管理 train / validation / test / gold / monitoring slices	记录 dataset card、label policy version、sampling logic
Release gate	控制标签版本进入训练、评估或上线	强制质量阈值、审批、风险接受和 rollback plan

4.3 角色模型

角色	权限	不应拥有的权限
Business owner	定义业务目标、风险容忍度、动作映射	不能单独批准绕过模型风险或合规控制
SME / Analyst lead	定义标签政策、审查 LF、裁决冲突	不能无审计记录地改写生产标签版本
Data scientist	编写 LF、训练 label model、评估下游模型	不能修改 label policy approval 状态
Data engineer	建立数据管道、版本、权限、质量监控	不能裁决业务标签真值
Model Risk / Validation	审查方法、假设、结果、限制和监控	不能替代 business owner 接受业务风险
Compliance / Legal	审查政策约束、客户影响、保留和披露	不能直接用模型指标替代法律判断
Operations manager	使用标签改进队列、SLA、质检和培训	不能把弱标签直接当正式客户结论

5. 架构设计

5.1 Reference Architecture

Operational and document sources
  -> data contract and access control
  -> canonical sample builder
     - document sample
     - case sample
     - complaint sample
     - transaction pattern sample
  -> evidence extractor
     - OCR spans
     - metadata
     - transaction aggregates
     - policy references
     - historical decisions
  -> LF runtime
     - deterministic rules
     - taxonomy matchers
     - knowledge-base joins
     - model-assisted signals
  -> label matrix
  -> quality analyzer
     - LF coverage
     - overlap and conflict
     - gold precision and recall
     - segment coverage
     - drift and stale rule checks
  -> label model
  -> probabilistic labels
  -> SME review queue
  -> adjudicated labels and gold set
  -> dataset registry
  -> downstream model training and evaluation
  -> release gate and monitoring

5.2 Canonical sample design

Programmatic labeling 平台必须先统一“被标注对象”，否则 LF 会绑定各系统的偶然字段。

Sample 类型	最小字段	证据字段
KYC document sample	`document_id`, `customer_id`, `channel`, `received_at`, `ocr_text`, `metadata`	OCR span、文件模板、签发日期、有效期、国家/地区、上传历史
AML case sample	`case_id`, `customer_id`, `alerts`, `transactions`, `case_notes`	触发规则、交易网络、金额模式、历史调查、名单筛查结果
Complaint sample	`complaint_id`, `customer_id`, `product`, `channel`, `text`, `created_at`	客户原文、客服摘要、产品事件、SLA、升级记录、处理结果
Fraud event sample	`event_id`, `customer_id`, `merchant`, `device`, `transactions`, `outcome`	device fingerprint、velocity、chargeback、login anomaly、recovery result

5.3 Evidence trail schema

标签系统的审计价值来自 evidence trail。

字段	说明
`sample_id`	被标注对象唯一标识
`sample_version`	输入样本版本，包含数据窗口和提取逻辑版本
`label_policy_version`	标签政策版本
`lf_id`	labeling function 标识
`lf_version`	LF 代码和参数版本
`lf_output`	标签或 abstain
`lf_confidence`	如果 LF 自身有置信分数，记录原始分数和校准方式
`evidence_refs`	命中的字段、文本 span、规则 id、外部知识库 id
`label_model_version`	生成概率标签的 label model 版本
`probabilistic_label`	标签分布或 top label
`quality_slice`	所属 segment，例如渠道、语言、产品、地区、客户类型
`review_status`	未审、已审、二审、争议、废弃
`reviewer_id`	SME 或 reviewer 标识
`review_rationale`	裁决理由，必须引用证据或政策
`release_id`	进入训练/评估/上线的标签版本

5.4 Versioning strategy

标签版本必须同时覆盖数据、政策、LF、label model 和人工裁决。

Label Release =
dataset snapshot
+ extraction code version
+ label ontology version
+ label policy version
+ LF bundle version
+ label model version
+ gold set version
+ SME adjudication version
+ quality report
+ approval record

版本策略：

变更	版本动作	必需分析
新增标签类	ontology minor 或 major，根据动作影响决定	historical backfill、confusion with existing labels、SME agreement
修改标签定义	policy major	affected samples、model retraining need、customer impact
新增 LF	LF bundle minor	coverage gain、conflict increase、precision on gold、segment impact
修改 LF 参数	LF bundle minor	before/after label diff、high-impact sample diff
更换 label model	label model major	probabilistic label shift、downstream model performance
增加 gold set	gold set minor	metric confidence interval、segment coverage improvement
删除低质量 LF	LF bundle minor	coverage loss、conflict reduction、downstream impact

6. Labeling Function 设计

6.1 LF 类型

LF 类型	金融零售示例	使用边界
Keyword / regex LF	投诉文本含“unauthorized transaction”“重复扣款”“身份盗用”	适合高召回初筛，必须处理否定、上下文和多语言
Metadata LF	KYC 文件上传渠道、文件扩展名、OCR 语言、case 来源	不能让渠道 proxy 取代真实标签
Threshold LF	交易频次、金额增幅、登录失败次数、退款率	阈值要按产品和 segment 校准
Taxonomy LF	产品目录、投诉分类树、欺诈 typology 字典	taxonomy owner 和废弃映射必须清楚
Knowledge-base LF	外部名单、商户类别、文档模板库、公司注册类型	记录来源、更新时间和匹配置信度
Historical decision LF	历史 analyst disposition、chargeback outcome、case closure reason	需要识别旧政策、旧流程和 resource bias
Model-assisted LF	OCR 分类器、embedding nearest neighbor、LLM suggestion	只能作为弱信号，不能无 gold validation 直接替代 SME
Cross-field consistency LF	文件姓名与客户资料一致、地址与 CRM 一致	要处理合法差异、拼写、地址标准化和隐私边界

6.2 LF 设计原则

原则	说明
Prefer abstain over guessing	LF 没有足够证据时返回 abstain，而不是填充最常见标签
Evidence first	每次命中都能解释“哪个字段、哪段文本、哪条政策、哪个版本”
Narrow and testable	一个 LF 捕获一类判断，避免把多个复杂条件揉成不可解释黑箱
Segment-aware	设计时考虑语言、渠道、地区、产品、客户类型和文档格式差异
Conflict is a signal	不隐藏冲突，冲突样本是 SME review 和 policy clarification 的高价值输入
Separate triage from final decision	弱标签可用于训练和分流，不直接产生高影响正式结论
Review negative space	关注没有被任何 LF 覆盖的样本，而不只看命中的样本

6.3 KYC document LF 示例

ABSTAIN = -1
PASSPORT = 1
UTILITY_BILL = 2
BANK_STATEMENT = 3

def lf_passport_keywords(sample):
    text = sample.ocr_text.lower()
    strong_terms = ["passport", "date of birth", "place of birth", "passport no"]
    if sum(term in text for term in strong_terms) >= 2:
        return PASSPORT
    return ABSTAIN

def lf_recent_utility_bill(sample):
    text = sample.ocr_text.lower()
    has_utility_terms = any(term in text for term in ["electricity", "water", "gas", "utility"])
    has_address = sample.extracted_address is not None
    is_recent = sample.document_date_within_days(120)
    if has_utility_terms and has_address and is_recent:
        return UTILITY_BILL
    return ABSTAIN

def lf_bank_statement_layout(sample):
    text = sample.ocr_text.lower()
    if "statement period" in text and "account number" in text and sample.has_transaction_table:
        return BANK_STATEMENT
    return ABSTAIN

产品/架构注意点：

点	要求
Evidence	保存命中的关键词、日期字段、OCR span、模板 id
Conflict	如果 `lf_recent_utility_bill` 和 `lf_bank_statement_layout` 同时命中，进入 document type conflict queue
Segment	按语言、签发国家/地区、移动端上传、扫描件质量切片
Governance	文档类型分类不等于 KYC 通过，KYC 通过仍需单独政策和控制

6.4 AML case triage LF 示例

ABSTAIN = -1
STRUCTURING_SIGNAL = 10
RAPID_MOVEMENT_SIGNAL = 11
HIGH_RISK_COUNTERPARTY_SIGNAL = 12

def lf_structuring_pattern(case):
    tx = case.transaction_summary
    if tx.cash_deposit_count_30d >= 5 and tx.amounts_cluster_below_reporting_threshold:
        return STRUCTURING_SIGNAL
    return ABSTAIN

def lf_rapid_in_out(case):
    tx = case.transaction_summary
    if tx.incoming_to_outgoing_ratio_7d > 0.85 and tx.median_hold_time_hours < 24:
        return RAPID_MOVEMENT_SIGNAL
    return ABSTAIN

def lf_high_risk_counterparty(case):
    if case.counterparty_risk_hits >= 1 and case.counterparty_match_quality in ["strong", "confirmed"]:
        return HIGH_RISK_COUNTERPARTY_SIGNAL
    return ABSTAIN

边界要求：

点	要求
用途	只能用于 case typology tagging、调查队列优先级建议、模型训练标签候选
隔离	不自动触发正式可疑活动报告、账户关闭或客户不利动作
Evidence	记录交易窗口、触发规则、金额聚合方式、counterparty source version
SME	高风险命中、冲突 typology 和低覆盖 segment 进入 analyst lead review

6.5 Complaints classification LF 示例

ABSTAIN = -1
UNAUTHORIZED_TRANSACTION = 20
SERVICE_DELAY = 21
FEE_DISPUTE = 22

def lf_unauthorized_transaction_terms(complaint):
    text = complaint.normalized_text
    terms = ["unauthorized", "did not authorize", "fraudulent charge", "identity theft"]
    if any(term in text for term in terms):
        return UNAUTHORIZED_TRANSACTION
    return ABSTAIN

def lf_service_delay_terms(complaint):
    text = complaint.normalized_text
    terms = ["still waiting", "not received", "delay", "no response", "pending for"]
    if any(term in text for term in terms) and complaint.days_open >= 3:
        return SERVICE_DELAY
    return ABSTAIN

def lf_fee_dispute_terms(complaint):
    text = complaint.normalized_text
    if "fee" in text and any(term in text for term in ["waive", "refund", "charged", "overdraft"]):
        return FEE_DISPUTE
    return ABSTAIN

投诉标签要连接：

标签	下游动作
Category	routing、SLA、质检抽样
Root cause	产品整改、流程修复、培训
Severity	升级、客户补救、管理报告
Evidence	原文 span、客服摘要、产品事件、处理记录

6.6 Fraud typology LF 示例

ABSTAIN = -1
ACCOUNT_TAKEOVER = 30
CARD_NOT_PRESENT = 31
SYNTHETIC_IDENTITY = 32

def lf_account_takeover(event):
    login = event.login_features
    tx = event.transaction_features
    if login.new_device and login.geo_velocity_high and tx.first_time_payee and tx.value_zscore > 3:
        return ACCOUNT_TAKEOVER
    return ABSTAIN

def lf_card_not_present(event):
    if event.card_present is False and event.ecommerce_mcc and event.avs_mismatch:
        return CARD_NOT_PRESENT
    return ABSTAIN

def lf_synthetic_identity(event):
    identity = event.identity_features
    if identity.thin_file and identity.recently_created_contact_points and identity.high_credit_velocity:
        return SYNTHETIC_IDENTITY
    return ABSTAIN

欺诈标签要避免两个误区：

误区	正确做法
把 chargeback 当所有欺诈真值	区分客户申诉、商户争议、操作错误和确认欺诈
只按损失金额优化	同时看客户影响、误拦截、恢复成本、攻击演化和 segment coverage

7. Label Quality Metrics

7.1 基础指标

指标	定义	产品含义
LF coverage	LF 非 abstain 的样本比例	这条专家逻辑影响多大
Label coverage	至少一个 LF 命中的样本比例	当前标签系统覆盖多少业务空间
Overlap	多个 LF 同时命中的比例	是否有足够信息可供 label model 融合
Conflict	多个 LF 输出不同标签的比例	标签政策、规则或数据存在争议
Empirical precision	LF 命中样本中 gold label 一致比例	这条 LF 是否可信
Empirical recall	gold label 属于某类时 LF 能捕获多少	这条 LF 是否漏掉大量真实样本
Label model accuracy	probabilistic label top class 与 gold 的一致性	融合后的标签质量
Abstain rate	LF 或标签系统不做判断的比例	保守性和覆盖不足的平衡
Segment coverage	各 segment 的覆盖率	是否只服务主流样本
Segment precision gap	各 segment precision 差异	是否存在标签质量不均

7.2 高级指标

指标	为什么重要	使用方式
Conflict heatmap	找出哪些 LF 对之间经常冲突	触发 SME policy clarification
Label entropy	衡量 label model 输出不确定性	高 entropy 样本进入 review 或 active learning
Evidence completeness	命中标签是否带足证据引用	release gate 的审计检查
Stale LF rate	LF 依赖的政策、名单、模板是否过期	防止旧规则污染新数据
Label drift	新批次标签分布与历史版本差异	识别产品、渠道、攻击和政策变化
Downstream sensitivity	删除或修改某类 LF 对模型指标影响	判断哪些 LF 是关键控制点
Review overturn rate	SME 推翻自动标签的比例	衡量自动标签和政策口径的偏差
Inter-reviewer agreement	多位 SME 对 gold set 的一致性	识别标签定义模糊和培训缺口

7.3 Label precision / recall 的业务解释

标签 precision 和 recall 不是单纯模型指标，而是运营风险语言。

指标	高时代表	低时风险
KYC document precision	被标为 passport 的文档大多真是 passport	客户被要求补错材料或错误通过预校验
KYC document recall	真 passport 大多能被捕获	文件被落到人工泛队列，开户延迟
AML typology precision	typology 命中对调查有帮助	analyst 被噪声拖累，调查资源浪费
AML typology recall	关键 typology 不被漏掉	高风险模式被低估
Complaint class precision	路由准确，SLA 和补救路径匹配	客户重复解释、投诉升级
Fraud typology recall	攻击模式可及时聚合分析	控制缺口发现滞后

7.4 Gold set 设计

Gold set 是标签系统的校准锚点，不是随手抽一批样本。

Gold set 类型	用途	设计要求
Random gold	估计整体质量	按时间、渠道、产品抽样，避免只抽容易样本
Stratified gold	估计 segment 质量	覆盖语言、地区、客户类型、文档类型、商户类型
Conflict gold	解决 LF 冲突	优先审查高冲突、高影响、高 entropy 样本
Edge-case gold	覆盖少数但重要情形	新产品、罕见文档、复杂欺诈、新投诉主题
Monitoring gold	线上持续抽样	固定节奏复核，连接投诉、申诉、调查结果

Gold set 审查要求：

每条 gold label =
label
+ evidence references
+ policy version
+ reviewer
+ rationale
+ adjudication status
+ timestamp

8. SME Workflow

8.1 从逐条标注到标签系统治理

SME 的高价值工作不是无休止点击标签，而是：

SME 工作	产出
定义 label ontology	标签树、互斥关系、动作映射
编写 label policy	定义、证据要求、边界案例、禁止用途
审查 LF proposal	判断 LF 是否符合政策和业务现实
裁决 conflict samples	发现政策模糊和数据缺陷
建立 gold set	为质量指标提供可信锚点
审查 release report	判断标签版本是否可进入训练或上线
复盘生产反馈	用申诉、投诉、调查结果修正标签系统

8.2 SME Review Queue

Review queue 不应随机堆积样本，而要按信息价值排序。

队列	进入条件	目标
High conflict	多个高权重 LF 输出不同标签	澄清政策或拆分标签
High entropy	label model 对多个标签不确定	增强 gold set 和 LF
High impact	可能影响客户不利动作、合规升级或重大损失	加强人工控制
Low coverage segment	某 segment 几乎没有 LF 命中	扩展规则和样本
Drift sample	新批次分布显著变化	判断是否产品、渠道或攻击变化
Override sample	运营或客户反馈推翻标签	发现系统性缺陷

8.3 Adjudication protocol

Step 1: Reviewer 只看原始样本、证据和 label policy，不看模型最终建议
Step 2: Reviewer 给出 label、evidence、rationale、confidence
Step 3: 第二 reviewer 审查高影响或争议样本
Step 4: Disagreement 进入 adjudication panel
Step 5: Panel 决定是样本误判、政策模糊、标签体系缺失还是 LF 缺陷
Step 6: 结果进入 gold set、policy change 或 LF backlog

8.4 SME 工作量设计

工作量对象	推荐控制
初始政策设计	让 senior SME 参与，避免低质量标签大规模扩散
LF 审查	每个 LF 必须有业务 owner 和 reviewer
Gold set	优先覆盖高影响、高冲突、低覆盖 segment
日常复核	固定抽样加风险触发抽样
Release 审批	以质量报告为输入，而不是逐条看完整数据集

9. 金融零售场景落地

9.1 KYC document classification

目标不是“识别图片是什么”，而是减少客户反复提交、提升预校验准确性，并把证据交给后续 KYC 流程。

能力	设计
Label ontology	identity document、proof of address、bank statement、corporate registry、tax document、unsupported
LF 来源	OCR keyword、layout、metadata、template matching、issuer dictionary、date extraction
Quality metrics	document type precision、unsupported recall、OCR quality slice、language coverage
SME review	新文档模板、低清晰度、跨语言、conflict samples
Evidence	OCR span、模板 id、日期字段、地址字段、文件元数据
Release gate	新版本不得降低 unsupported recall 和低质量图片 segment precision

关键边界：

Document type label != KYC pass decision
Proof of address label != address verified
Passport label != identity verified

9.2 AML case triage

目标是帮助调查队列排序、typology 初筛和证据组织，而不是自动做正式合规结论。

能力	设计
Label ontology	structuring signal、rapid movement、high-risk counterparty、unusual cash activity、network concentration、insufficient evidence
LF 来源	交易聚合、触发规则、历史 case notes、counterparty risk source、analyst disposition
Quality metrics	typology precision on adjudicated cases、coverage by product/channel、conflict by typology pair
SME review	高风险低置信、多个 typology 冲突、新产品、新客户类型
Evidence	交易窗口、规则 id、counterparty source version、case note spans
Release gate	label 只进入 triage support，不直接触发正式报告、客户退出或冻结动作

产品机会：

机会	价值
Analyst evidence pack	把命中的 LF 和证据片段组织给 analyst
Typology coverage dashboard	展示哪些 typology 覆盖不足或过度冲突
Investigation feedback loop	把 analyst disposition 和 rationale 回流 label system

9.3 Complaints classification

目标是提升路由、SLA、根因分析和整改闭环，而不是用 AI 替代客户权益判断。

能力	设计
Label ontology	product、issue、root cause、severity、regulatory sensitivity、customer impact
LF 来源	客户原文、客服摘要、产品事件、交易异常、渠道、历史处理结果
Quality metrics	routing precision、severity recall、root cause agreement、language/channel coverage
SME review	高严重度、客户损害、监管敏感、跨产品争议
Evidence	文本 span、产品事件 id、SLA 状态、处理记录
Release gate	高 severity recall 不得低于批准阈值；低置信分类必须人工复核

9.4 Fraud typology tagging

目标是把欺诈事件从“是否欺诈”拆成攻击模式、控制缺口、客户影响和补救路径。

能力	设计
Label ontology	account takeover、card-not-present、synthetic identity、merchant fraud、scam/social engineering、first-party misuse
LF 来源	device、login、transaction velocity、chargeback、customer claim、merchant category、identity history
Quality metrics	typology precision、attack recall proxy、segment coverage、loss-weighted label error
SME review	新攻击模式、模型高损失错误、客户申诉推翻、跨 typology 冲突
Evidence	device event、transaction window、claim text、chargeback outcome、recovery action
Release gate	新 typology 必须有政策定义、样本证据、review protocol 和 rollback plan

10. 治理和 Release Gate

10.1 NIST AI RMF 映射

AI RMF 功能	LabelOps 控制
Govern	标签责任人、政策审批、角色权限、变更记录、审计证据、风险接受
Map	明确标签用途、客户影响、数据来源、受影响群体、下游动作
Measure	coverage、conflict、precision、recall、segment quality、drift、review overturn
Manage	release gate、human review、rollback、监控、incident remediation、policy update

10.2 Label policy

每个高价值标签必须有 label policy。

字段	要求
Label name	唯一名称和业务解释
Business purpose	训练、评估、分流、监控或报告用途
Allowed use	可以支持哪些动作
Prohibited use	不得直接用于哪些动作
Positive criteria	满足标签的证据要求
Negative criteria	明确不应标为该标签的情况
Boundary cases	常见混淆和裁决原则
Evidence requirement	必须保留的字段、文本 span、系统事件
SME owner	政策 owner 和审批人
Review cadence	周期性复核和触发式复核条件

10.3 Fairness and segment coverage

弱监督标签也会产生 fairness 风险。即使最终模型尚未训练，标签阶段已经可能引入偏差。

检查	问题
Segment coverage	某些语言、地区、渠道、年龄代理变量、收入段、商户类型是否 coverage 明显低
Segment precision	LF 在不同 segment 上是否质量不同
Label availability	某些群体是否更容易留下可被 LF 捕获的系统证据
Historical bias	历史调查或客服标签是否反映旧资源分配
Proxy risk	渠道、设备、地区、文档类型是否被不当用作风险 proxy
Review allocation	SME review 是否只集中在高价值客户或高损失场景

公平性治理动作：

发现 segment gap
-> 判断是数据缺失、政策差异、LF 缺陷还是真实业务差异
-> 扩充 gold set 或 LF
-> 必要时限制自动化用途
-> 在 release report 中记录残余限制和风险接受

10.4 Audit evidence binder

一个标签版本进入下游模型训练或生产分流前，至少应形成 evidence binder：

Evidence	内容
Label ontology	标签树、定义、互斥关系、废弃映射
Label policies	各标签政策、证据要求、禁止用途
Dataset card	数据来源、时间窗口、采样、权限、限制
LF inventory	LF 列表、版本、owner、说明、依赖、测试结果
Quality report	coverage、conflict、precision、recall、segment metrics
Gold set report	抽样方法、SME 裁决、一致性、争议处理
Impact analysis	新旧版本标签分布差异、高影响样本变化
Approval record	Business、SME、Data Governance、Model Risk、Compliance 按需审批
Monitoring plan	线上抽样、漂移、override、投诉、申诉和 incident 触发条件
Rollback plan	如何恢复前一标签版本或降级到人工流程

10.5 Release gate

Release Gate Decision =
用途是否清楚
+ 标签政策是否批准
+ 数据权限是否满足
+ LF 是否有 owner 和测试
+ gold set 是否覆盖关键 segment
+ coverage / precision / recall 是否达标
+ conflicts 是否有处置
+ 高影响用途是否有人审
+ audit evidence 是否完整
+ monitoring and rollback 是否可执行

Gate 结果：

结果	含义
Approve	可进入指定用途和范围
Approve with restriction	只允许低风险用途、限定 segment 或必须人工复核
Defer	补充 gold set、policy clarification、LF 修复或证据
Reject	标签定义、数据权限、质量或客户影响风险不可接受

11. 模板

11.1 Label policy template

# Label Policy: Complaint - Unauthorized Transaction

## Business Purpose
用于投诉路由、SLA 优先级、根因分析和模型训练标签候选。

## Allowed Use
- 客服工单初始分类建议
- 质检抽样和根因分析
- 投诉分类模型训练和评估

## Prohibited Use
- 不直接作为客户赔付、拒赔、账户限制或正式监管结论
- 不绕过人工复核处理高严重度投诉

## Positive Criteria
- 客户明确表示交易、扣款、转账或账户访问未经授权
- 文本或客服摘要包含与未授权、身份盗用、欺诈交易相关的证据

## Negative Criteria
- 仅对费用金额不满但承认交易发生
- 仅询问交易状态或处理延迟
- 商户服务争议但无未授权主张

## Evidence Requirement
- 原始客户文本 span
- 关联交易 id 或账户事件 id
- 渠道、时间、产品线
- reviewer rationale

## SME Review Rule
- 高严重度、客户损害、重复投诉、低置信或与 fee dispute 冲突的样本进入二审。

11.2 Labeling function card

# Labeling Function Card: lf_unauthorized_transaction_terms

## Intent
捕获客户投诉文本中明确表达未授权交易、身份盗用或欺诈扣款的样本。

## Input
- complaint.normalized_text
- complaint.product
- complaint.channel
- linked_transaction.exists

## Output
- UNAUTHORIZED_TRANSACTION
- ABSTAIN

## Evidence
- matched_terms
- text_spans
- linked_transaction_id

## Expected Strength
高 recall 初筛；precision 依赖否定语义和上下文过滤。

## Known Failure Modes
- 客户引用银行回复中的“unauthorized”但本人并未主张未授权
- 商户争议被误判为未授权交易
- 非英语或混合语言文本覆盖不足

## Metrics Required
- coverage overall
- precision on gold
- recall on gold
- conflict with FEE_DISPUTE and SERVICE_DELAY
- coverage by language and channel

## Review Owner
Complaint operations SME lead

11.3 Dataset / label version card

# Label Dataset Card: AML Triage Labels v2026.06

## Purpose
为 AML case triage model 提供 typology training labels 和 analyst evidence pack，不用于自动生成正式合规结论。

## Data Sources
- AML case management cases closed between 2025-10-01 and 2026-03-31
- Transaction aggregates generated by approved feature pipeline
- Analyst notes with restricted access controls
- Counterparty risk source version 2026.05

## Label Ontology
- STRUCTURING_SIGNAL
- RAPID_MOVEMENT_SIGNAL
- HIGH_RISK_COUNTERPARTY_SIGNAL
- INSUFFICIENT_EVIDENCE

## Label Policy Version
AML-TYPOLOGY-POLICY-2026.05

## LF Bundle Version
AML-LF-BUNDLE-2026.06.2

## Gold Set
- 1,200 adjudicated cases
- stratified by product, channel, customer type and alert source
- all high-conflict samples reviewed by two SMEs

## Quality Summary
- label coverage: 78%
- conflict rate: 14%
- top-label precision on gold: 86%
- lowest segment precision: 79% for new digital channel cases
- release restriction: new digital channel cases require analyst confirmation

## Limitations
- Historical analyst labels may reflect prior queue strategy
- Typology labels are triage support and do not replace investigation conclusions

11.4 SME review protocol template

# SME Review Protocol: Fraud Typology

## Review Scope
Review high-conflict, high-loss, customer-disputed and low-coverage samples from the latest fraud typology label run.

## Reviewer Instructions
1. Read the policy definition before viewing LF outputs.
2. Inspect transaction, device, login and customer claim evidence.
3. Assign one primary typology and optional secondary typology.
4. Record rationale using concrete evidence.
5. Mark policy ambiguity when evidence supports multiple labels.

## Escalation
- New attack pattern goes to fraud taxonomy owner.
- Customer harm or adverse action issue goes to operations risk owner.
- Potential policy conflict goes to governance review.

## Output
- adjudicated_label
- evidence_refs
- reviewer_confidence
- rationale
- policy_issue_flag

11.5 Release gate checklist

# Label Release Gate: KYC Document Classification v2026.06

## Scope
Mobile and web upload document classification for onboarding pre-check and operations routing.

## Required Evidence
- Approved label ontology and policy
- LF inventory with owner and tests
- Gold set report with segment coverage
- Quality dashboard export
- New vs previous version impact analysis
- Security and privacy approval for OCR text handling
- SME approval
- Monitoring and rollback plan

## Minimum Criteria
- top-label precision on gold >= 90%
- unsupported document recall >= 85%
- no critical segment below approved precision threshold
- all high-conflict document templates reviewed
- no LF with expired policy or external source dependency

## Decision
Approve with restriction: unsupported or low OCR quality samples route to manual review.

12. 30 天训练计划

Day	主题	产出
1	Data-centric AI vs model-centric AI	写一页“为什么标签是产品资产”
2	Snorkel / data programming paper 精读	摘要 labeling functions、label model、weak supervision trade-off
3	选定金融零售 use case	定义 KYC、AML、投诉或欺诈中的一个 label problem
4	Label ontology 设计	输出标签树、互斥关系、允许多标签规则
5	Label policy 设计	写 3 个标签的 positive / negative / boundary cases
6	Dataset documentation	用 datasheet 思路写数据来源、限制、推荐用途
7	Evidence trail 设计	画 evidence schema 和样本生命周期
8	编写第一组 LF	完成 5 条 deterministic LF pseudo-code
9	Coverage / conflict 分析	做 LF matrix 表和 conflict heatmap 草图
10	Gold set 抽样策略	设计 random、stratified、conflict、edge-case gold
11	SME workflow	设计 review queue、adjudication 和二审机制
12	Label model 原理	解释 generative label model 如何融合 noisy LF
13	Quality metrics	定义 coverage、precision、recall、entropy、segment gap
14	KYC 场景深化	输出 KYC document classification release gate
15	AML 场景深化	输出 AML triage evidence pack 和禁止用途
16	Complaints 场景深化	输出 complaint taxonomy 和 routing policy
17	Fraud 场景深化	输出 fraud typology tagging framework
18	Fairness / segment coverage	设计按渠道、语言、地区、客户类型的质量监控
19	Versioning	设计 label release version scheme
20	Audit evidence binder	输出 binder 目录和审批角色
21	Release gate	写 approve / restrict / defer / reject 决策逻辑
22	Monitoring	设计 drift、override、review overturn、complaint feedback
23	Incident response	写标签缺陷修复和模型影响分析流程
24	Product PRD	写 LabelOps 平台 MVP PRD
25	Architecture	画 LabelOps reference architecture 文本图
26	KPI	定义平台成功指标和运营指标
27	Interview answers	准备 6 个高级问答
28	Portfolio case	写一个端到端案例故事
29	Executive memo	写给 CRO / COO / CDO 的一页说明
30	Capstone review	整合 playbook、模板、架构图和案例页

13. 面试答案

Q1: Programmatic labeling 和普通规则标注有什么区别？

30 秒版本

普通规则标注通常是批量 if-else。Programmatic labeling 是一个标签生产系统：用多个 LF 表达专家知识和弱监督信号，显式保留 abstain、conflict、coverage 和 evidence，再用 label model、gold set 和 SME review 估计标签质量，最终形成可版本化、可审计的训练数据。

2 分钟版本

我会从四层解释。第一层是 label policy，先定义标签含义、证据和禁止用途。第二层是 LF，把规则、知识库、历史信号和模型建议转成可测试的弱监督来源。第三层是 label model 和质量分析，处理 LF 之间的冲突、相关性和噪声，输出 probabilistic labels。第四层是治理，包括 gold set、SME adjudication、segment coverage、release gate 和 monitoring。在金融场景里，弱标签不能直接触发客户不利动作，它更多用于训练、分流、证据组织和人工复核优先级。

Q2: Generative label model 解决什么问题？

30 秒版本

它解决多个 noisy、conflicting、abstaining LF 如何融合的问题。它估计 LF 的准确性和依赖关系，把 label matrix 转成概率标签。

2 分钟版本

在 weak supervision 中，每个 LF 都可能覆盖有限、精度不一，还可能相互冲突。Generative label model 不是训练最终业务模型，而是建模标签生成过程：哪些 LF 更可信，哪些 LF 经常一起错，哪些冲突代表真正不确定。输出的 probabilistic labels 再用于训练下游 discriminative model。它的边界是必须通过 gold set 和 SME review 验证，不能因为模型给出概率就把标签当真值。

Q3: 如何衡量标签质量？

30 秒版本

我会同时看 coverage、overlap、conflict、precision、recall、label entropy、segment coverage、review overturn rate 和 downstream sensitivity。

2 分钟版本

coverage 告诉我们标签系统覆盖多少样本；conflict 告诉我们政策或规则哪里有争议；precision / recall 要在 gold set 上看，尤其是高影响标签；segment coverage 和 segment precision 用来识别不同渠道、语言、地区和客户类型的质量差异；review overturn rate 反映 SME 是否经常推翻系统标签；downstream sensitivity 判断某类 LF 改动是否会显著影响模型。金融场景不能只看总体准确率，因为低覆盖 segment 可能正是风险最高或客户影响最大的地方。

Q4: SME 在 programmatic labeling 中应该做什么？

30 秒版本

SME 不应该只是逐条打标签，而应该设计标签政策、审查 LF、裁决冲突、建立 gold set、审查 release report，并用生产反馈持续修正标签系统。

2 分钟版本

Programmatic labeling 的价值是放大 SME 判断。高级 SME 先定义 label ontology 和 policy，包括 positive、negative、boundary cases 和证据要求。数据团队把这些知识编码成 LF 后，SME 审查 LF 是否符合业务现实。系统运行后，SME 优先处理高冲突、高不确定、高影响和低覆盖 segment 样本。裁决结果不仅形成 gold set，还反向推动政策澄清和 LF 改进。这样 SME 时间从低价值重复标注转向高价值治理。

Q5: 如何防止弱标签固化历史偏差？

30 秒版本

不能直接把历史处理结果当真值。要记录标签来源，区分 outcome、action 和 proxy，按 segment 检查 coverage 和 precision，用 gold set、SME review 和生产反馈校验。

2 分钟版本

历史标签可能反映旧政策、旧资源分配和旧队列优先级。例如 AML case 被调查并不等于真实风险更高，投诉被某团队处理也不等于分类正确。我会在 label policy 中明确 allowed source，给 historical decision LF 标记 proxy risk，并在质量报告里单独看 segment bias、review overturn 和 downstream sensitivity。高风险历史 proxy 只能作为弱信号，不能作为唯一真值。上线前 release gate 必须说明这种残余风险如何被限制。

Q6: LabelOps 平台 MVP 应该包括什么？

30 秒版本

MVP 至少包括 label ontology/policy registry、LF registry、LF execution、label matrix、quality dashboard、SME review、dataset versioning 和 release gate。

2 分钟版本

我会先建端到端闭环，而不是追求复杂 UI。第一是定义和版本化标签政策。第二是让数据科学家和 SME 能提交 LF，并记录 owner、evidence、测试和依赖。第三是运行 LF 生成 label matrix，展示 coverage、conflict、precision、recall 和 segment gaps。第四是 SME review console，处理高价值样本并形成 gold set。第五是 dataset registry 和 release gate，把标签版本进入训练或生产前的证据、审批和 rollback 固化下来。

Q7: LLM 可以作为 labeling function 吗？

30 秒版本

可以作为弱监督来源，但必须有 prompt version、evidence requirement、gold validation、segment analysis 和 SME review，不能把 LLM 输出直接当真值。

2 分钟版本

LLM 适合处理文本分类、摘要辅助、候选 evidence extraction 和 hard sample suggestion。但它的输出受 prompt、上下文、模型版本和数据分布影响，可能流畅但错误。因此我会把 LLM LF 设计成可审计组件：记录 prompt、model version、input context、输出、引用证据和置信信息；在 gold set 上评估 precision / recall；按语言和渠道切片；高影响样本必须人工复核。LLM LF 的定位是扩展覆盖和发现候选，不是替代标签政策。

Q8: 如何向管理层解释 Data-centric AI 的投资价值？

30 秒版本

它降低的不是单次标注成本，而是模型迭代、审计、运营一致性和风险控制成本。高质量标签平台让 AI 项目从一次性实验变成可复用的数据资产。

2 分钟版本

我会用金融零售语言表达：第一，减少开户、投诉、欺诈和 AML 队列中的误分流，提高运营效率；第二，形成可审计证据，支持模型风险和合规审查；第三，提升模型上线后的稳定性，因为标签政策、数据覆盖和 segment quality 可监控；第四，缩短新产品、新渠道、新攻击模式下的迭代周期。与其不断换模型，不如把最稀缺的 SME 知识变成可版本化、可复用、可治理的标签资产。

14. 作品集表达

14.1 Portfolio case structure

# Case Study: Data-Centric AI LabelOps for Financial Retail

## Business Problem
KYC / AML / complaints / fraud 场景中标签质量不稳定，导致模型效果、运营分流和审计证据不足。

## Product Goal
建立 programmatic labeling 平台，把 SME 知识、规则、历史证据和弱监督信号转成可版本化标签资产。

## Architecture
Source systems -> canonical sample -> evidence extractor -> LF runtime -> label matrix -> label model -> SME review -> dataset registry -> release gate -> monitoring.

## Key Product Decisions
- 弱标签不直接触发高影响客户动作
- 每个标签必须有 policy、evidence 和 owner
- conflict 和 low coverage 被视为产品信号
- release gate 以质量指标和审计证据为核心

## Metrics
- label coverage
- precision and recall on gold set
- conflict rate
- segment coverage
- SME review overturn rate
- downstream model lift
- operational routing improvement

## Governance
用 NIST AI RMF 的 Govern / Map / Measure / Manage 映射 label policy、SME review、fairness coverage、audit evidence 和 release gate。

## Outcome Narrative
把 AI 项目从模型调参转向标签资产治理，使金融零售团队能够更快构建训练集、更清楚解释数据来源，并在高影响场景中保留人工和治理控制。

14.2 简历 bullet

Designed a data-centric AI LabelOps architecture for financial retail use cases, covering programmatic labeling, weak supervision, SME adjudication, label quality metrics, dataset versioning, audit evidence and release gates for KYC, AML, complaints and fraud typology workflows.

14.3 面试故事线

Situation:
模型效果不稳定，根因不是算法，而是标签定义、历史 proxy、低覆盖 segment 和 SME 裁决缺失。

Task:
建立一个可复用的标签生产和治理体系，支持多个金融零售 AI 场景。

Action:
设计 label ontology、label policy、LF registry、label matrix、generative label model、SME review queue、gold set、dataset card、quality dashboard 和 release gate。

Result:
让团队能解释每个标签的来源、证据、版本、质量和限制，并把数据中心型迭代纳入 AI 风险治理。

14.4 架构师表达

架构师不要只说“我们使用 Snorkel”。更高级的表达是：

我把 weak supervision 放在 LabelOps 控制平面里：
标签定义由 policy 管理，
专家知识由 LF 表达，
冲突由 label matrix 暴露，
质量由 gold set 和 segment metrics 度量，
上线由 release gate 控制，
审计由 evidence binder 支撑。

15. 关键结论

Programmatic labeling 是标签生产体系，不是批量规则脚本。
Weak supervision 的价值来自多个弱信号的组合、冲突暴露、质量估计和 SME 闭环。
Generative label model 能融合 noisy LF，但不能替代 gold set、SME review 和治理审批。
金融零售标签必须有 evidence trail、版本、禁止用途和 release gate。
Label quality 要同时看 coverage、precision、recall、conflict、segment gaps 和 review overturn。
Data-centric AI 的高级 PM 能力，是把 SME 知识、政策、数据、模型和运营反馈组织成可复用的标签资产。
作品集表达要从“我会标注数据”升级为“我能设计可审计、可治理、可迭代的 LabelOps 平台”。