AI 扩展计划 / Playbooks

AI Privacy Clean Room / Data Collaboration / Measurement Playbook

核心判断:

782 行AI_PRIVACY_CLEAN_ROOM_DATA_COLLABORATION_MEASUREMENT_PLAYBOOK.md

AI Privacy Clean Room / Data Collaboration / Measurement Architecture Playbook

定位: 面向 CBAP+、高级 AI PM、Data Product Architect、Privacy Architect、Enterprise Architect、Fraud Risk、Marketing Measurement Lead、Data Governance、Model Risk、Partner Ecosystem Owner 和 Internal Audit, 把 privacy clean room、data collaboration、privacy-enhancing technologies、partner measurement、AI evaluation 和 evidence governance 设计成可落地、可审计、可运营的金融零售数据协作能力。适用范围: retail media measurement、card-linked offer attribution、merchant and portfolio insight、fraud consortium analytics、audience overlap、customer journey measurement、AI recommendation evaluation、AI fraud model evaluation、synthetic data sandbox、secure partner reporting、privacy-preserving data collaboration。核心产出: executive framing、source anchors、taxonomy、decision gates、required artifacts、RACI / operating model、implementation roadmap、evidence pack、release checklists、metrics / KRIs、anti-patterns、tabletop scenarios 和 portfolio deliverables。

核心判断:

A clean room is only useful when the institution can prove the collaboration question, data inputs, computation, outputs, AI usage and partner behavior are all purpose-bound and evidence-backed.

0. Disclaimer

本文是学习、作品集、架构训练和内部治理讨论材料, 不构成法律意见、监管意见、隐私影响评估结论、数据 de-identified/anonymized 认定、合规充分性判断、模型验证报告、消费者通知建议、合同建议或供应商推荐。

正式项目必须由 Legal、Compliance、Privacy、Data Governance、Information Security、Model Risk、Marketing Compliance、Fraud Risk、Financial Crime、Customer Experience、Vendor Management、Procurement、Architecture、Data Engineering、Analytics、Product Owner、Internal Audit 和管理层结合机构类型、产品、数据字段、链接风险、合作方、合同、司法辖区、客户授权、目的、保留、AI 使用方式和内部政策确认。

边界原则:

Clean room 是受控数据协作架构, 不是自动合规证明。
Hashing、tokenization、aggregation、synthetic data、secure enclave、SMPC concepts 或 differential privacy 都不自动构成 legal de-identification/anonymization 结论。
Partner measurement 不等于 partner 可以获得 customer-level insight。
AI evaluation 不等于允许 model training、fine-tuning、feature enrichment 或 unrelated profiling。
Fraud collaboration 不等于可无解释地共享或传播黑名单。
数据分类和允许用途取决于 data、linkage risk、contract、jurisdiction、purpose 和 Privacy/Legal interpretation。

1. Executive Framing

高管通常会听到这样的项目叙事:

Use a privacy clean room to collaborate with partners without sharing data.
Measure campaign ROI without moving customer data.
Let AI learn from partner outcomes while preserving privacy.

这些说法容易掩盖关键风险:

数据虽然不被下载, 但 query and output 仍可能泄露小群体。
Hash match keys 仍可能被链接或字典攻击。
Campaign measurement 可能滑向 individual targeting。
Fraud consortium signal 可能变成不可解释的拒绝或降额依据。
Partner outcome labels 可能被模型团队复用于训练。
AI agent 可能自动探索未批准的 cohort。
Clean-room vendor 日志、metadata、intermediate results 和 AI summaries 可能成为新的泄露面。
投诉或审计发生时, 团队无法重放谁基于什么目的运行了什么 query, 输出给了谁, 被用于哪个决策。

Executive one-liner:

Privacy clean room is a governed measurement and collaboration product, not a safer file transfer tool.

1.1 Steering Committee Questions

我们要回答的 collaboration question 是什么, 对应哪个业务决策?
哪些数据字段是必需的, 哪些只是方便分析?
数据进入 clean room 的 consent、purpose、contract 和 retention 是否被确认?
Join keys、intermediate results、raw rows 和 aggregate outputs 分别对谁可见?
输出是否有 threshold、suppression、DP budget、human review 或 export gate?
AI 是否只做 evaluation/summarization, 还是会进入 training、feature engineering、targeting?
Partner 是否被技术和合同双重限制不得复用、转售、反推或训练?
是否可以向 Privacy、Model Risk、Audit 和业务 owner 复盘每一次 insight 的证据链?

2. Source Anchors

Anchor	Official link	本 playbook 使用方式
NIST Privacy Framework	https://www.nist.gov/privacy-framework	用 privacy risk management lifecycle 组织 data processing、purpose、governance、control、communication 和 protection evidence
NIST Privacy-Enhancing Cryptography project	https://csrc.nist.gov/projects/pec	用 PEC 作为 secure computation、privacy-preserving collaboration、cryptographic safeguards 的技术参考锚点
NIST SP 800-188 De-Identifying Government Datasets	https://csrc.nist.gov/pubs/sp/800/188/final	用 de-identification risk、context、release model、re-identification thinking 设计输出控制和审查, 不作法律分类结论
FTC commercial surveillance and data security rulemaking	https://www.ftc.gov/legal-library/browse/federal-register-notices/commercial-surveillance-data-security-rulemaking	用 commercial surveillance and data security 的政策讨论提醒 tracking、profiling、secondary use 和 security 风险
FTC business guidance on privacy and security	https://www.ftc.gov/business-guidance/privacy-security	用 privacy/security business guidance 作为数据最小化、声明一致性、安全实践和消费者信任的治理锚点
NIST AI RMF	https://www.nist.gov/itl/ai-risk-management-framework	用 Govern / Map / Measure / Manage 组织 AI evaluation、model-use restriction、monitoring、incident response 和 evidence
ISO/IEC 42001 overview	https://www.iso.org/standard/42001	用 AI management system、roles、operations、performance evaluation、internal audit 和 continual improvement 设计 operating model

Source-to-control pattern:

source anchor
  -> control objective
  -> product decision
  -> technical enforcement
  -> evidence artifact
  -> owner
  -> monitoring metric

3. Taxonomy

3.1 Clean-Room Operating Patterns

Pattern	Good fit	Main risk	Required control
Cloud data clean room	Partner measurement, overlap, aggregate analytics	query/output leakage, vendor dependency	role controls, templates, output thresholds, evidence
Secure enclave / confidential computing	高敏感数据协作, 需要运行时保护和 attestation	purpose and output misuse remain	enclave attestation plus query/output governance
Private set intersection / SMPC concepts	多方计算交集、匹配率、简单统计	output can still reveal membership	minimum cell, output review, partner purpose limits
Differentially private analytics	重复统计查询和 dashboard	utility loss, wrong epsilon story	privacy budget governance and utility review
Synthetic data sandbox	Development, query prototyping, training analysts	memorization or false production confidence	leakage tests, usage labels, no production decisions
Federated analytics	数据留在 partner side, aggregate results centralize	gradient/output leakage, inconsistent policy	secure aggregation, partner attestations
Model-to-data scoring	一方模型在另一方数据上评分	model extraction, feature misuse, individual action risk	scoring contract, output caps, human review

3.2 Use-Case Families

Family	Example	Output should usually be
Marketing measurement	Card-linked offer lift, retail media attribution	aggregate lift, reach, frequency, conversion
Audience analytics	overlap, segment sizing, suppression planning	thresholded counts and cohort-level insights
Fraud collaboration	mule account pattern, ATO signal, merchant risk	risk bands, aggregate rates, reviewed alerts
Portfolio insight	merchant category trend, wallet share, spend shift	aggregate trends with uncertainty notes
AI evaluation	recommendation, fraud score, collections strategy eval	model metrics, fairness/performance slices
Partner reporting	merchant performance, loyalty program health	approved dashboards with export limits
Synthetic sandbox	pipeline development, analyst enablement	labeled synthetic artifacts with leakage review

3.3 Information Classes

Class	Examples	Allowed by default
Direct identifiers	email, phone, PAN, account number, loyalty ID	no analyst visibility; only controlled tokenization if approved
Join tokens	salted hash, clean-room ID, scope-limited token	matching only within approved scope
Event data	purchase, click, login, application, chargeback	approved purpose and field-level access
Derived attributes	risk band, income band, segment, propensity score	restricted by source, sensitivity and permitted use
Aggregate outputs	reach, overlap, conversion, fraud rate, spend trend	export after output controls
AI artifacts	embeddings, prompts, summaries, model scores, eval labels	governed by AI use boundary
Synthetic records	generated transaction-like rows	development and testing after leakage review

3.4 AI Use Classes

AI use class	Default stance
Aggregate report summarization	allowed only on approved outputs, with source grounding
Offline model evaluation	allowed when eval-only controls and evidence exist
Model scoring inside clean room	high risk; requires decision-use and output controls
Feature engineering	prohibited unless separately approved
Model training / fine-tuning	prohibited by default; requires separate governance
Lookalike expansion / activation	prohibited unless activation use case is explicitly approved
Agent-generated query	restricted to approved templates and parameters

4. Reference Architecture

portfolio / fraud / marketing / AI use case intake
  -> privacy, legal, compliance, model risk and data governance triage
  -> data inventory and field minimization
  -> partner onboarding, contract and risk review
  -> identifier strategy and key custody
  -> secure ingestion, validation and policy tagging
  -> clean-room workspace with purpose-bound roles
  -> query templates / secure functions / approved notebooks
  -> computation layer: clean room, enclave, aggregation, DP, PEC pattern
  -> output disclosure control and human review
  -> AI boundary: eval-only, summarization-only, no-training enforcement
  -> downstream use attestation
  -> evidence ledger, monitoring, incident response, recertification

Architecture capabilities:

Capability	Must do
Use case registry	Store purpose, decision, data contributors, outputs, owners, risk tier and approvals
Field minimization	Map each field to a measurement/eval need and remove convenience data
Policy tag propagation	Carry purpose, sensitivity, consent/notice reference, retention and AI usage limits
Identifier governance	Tokenize/match without exposing raw identifiers; manage salts, keys, scope and rotation
Query governance	Restrict columns, parameters, cohort sizes, repeated queries and unapproved joins
Output disclosure control	Enforce threshold, suppression, rounding, DP, review and export rules
AI boundary enforcement	Block training/fine-tuning/feature store use unless separately approved
Partner access management	Least privilege, MFA, session logging, export approval and recertification
Evidence ledger	Link use case, data version, query, output, review, AI run and downstream use
Incident and CAPA	Handle unauthorized query, output leakage, partner misuse and model training misuse

Architecture rule:

Do not rely on "raw data is hidden" as the primary privacy control.
The primary control is purpose-bound computation plus governed output and downstream use.

5. Decision Gates

Gate 0: Collaboration Eligibility

Question	Pass condition	Evidence
What business decision will this support?	Decision and owner documented	Use Case Boundary Card
Is clean room necessary, or can internal aggregate reporting answer it?	Need for partner data justified	Alternatives note
Is the purpose compatible with data collection, contract and policy?	Privacy/Legal/Data Governance review completed	Purpose review record
Is AI involved?	AI use class assigned	AI Use Boundary Card
Could output drive customer-level action?	Decision-use boundary documented	Downstream Use Record

Gate 1: Data and Partner Intake

Question	Pass condition	Evidence
Which parties contribute data?	Contributor roles and risk tier assigned	Partner roster
Which fields are required?	Field minimization matrix approved	Data minimization record
Which identifiers are used for matching?	Tokenization/key custody design approved	Identifier design
Are sensitive attributes or proxies involved?	Heightened review completed	Sensitivity review
Are partner obligations technically enforceable?	Contract and platform controls mapped	Partner control matrix

Gate 2: Computation Design

Question	Pass condition	Evidence
What computation pattern is used?	clean room / enclave / DP / synthetic / SMPC concept selected by threat model	Architecture decision record
Are queries templated and parameterized?	Approved query templates exist	Query catalog
Can analysts see raw rows or join tables?	Row-level access prohibited or separately justified	Access review
How are repeated queries controlled?	differencing and budget rules defined	Query risk policy
Are intermediate results exportable?	export blocked unless explicitly approved	Export policy

Gate 3: Measurement Design

Question	Pass condition	Evidence
What metric is being measured?	Metric dictionary and outcome definition approved	Measurement spec
Is causality claimed?	holdout/control or quasi-experimental design documented	Causal design note
What population is measurable?	match rate, coverage and bias notes documented	Coverage report
What is the minimum cell threshold?	suppression and rounding rules configured	Output control config
How will uncertainty be shown?	confidence interval or uncertainty note included	Report template

Gate 4: AI Boundary

Question	Pass condition	Evidence
Is clean-room data used for eval only?	eval-only flag enforced in catalog and pipelines	Data policy tag
Can outputs enter a feature store?	blocked unless approved use case exists	Feature store control
Can LLM summarize reports?	only approved aggregate output, no hidden small cells	Prompt/tool policy
Can agent generate queries?	template-only with parameter constraints	Agent tool policy
Are model cards/eval records updated?	model evidence linked	Model governance record

Gate 5: Output and Downstream Use

Question	Pass condition	Evidence
Does output pass disclosure controls?	threshold/suppression/DP/review complete	Output Review Record
Who can export or view output?	recipient and purpose approved	Export approval
Can partner reuse the output?	downstream use restrictions accepted	Attestation
Does output support customer-level decisions?	if yes, separate review and controls	Decision-use review
Can the case be replayed?	evidence bundle complete	Evidence pack

Gate 6: Launch, Monitor and Recertify

Question	Pass condition	Evidence
Are monitoring rules live?	query anomaly, export, DP budget and AI misuse monitors configured	Monitoring dashboard
Are incident runbooks ready?	unauthorized query, partner misuse, output leak, training misuse covered	Incident runbook
Are partners and access recertified?	schedule and owner defined	Recertification calendar
Are metrics reported to governance forums?	cadence and dashboard owner set	Governance pack
Is there a stop condition?	thresholds for pause/restrict/retire defined	Go/No-Go rule

6. Required Artifacts

Artifact	What it proves
Executive One-Pager	高管理解 value, boundary, risk and decision request
Use Case Boundary Card	collaboration question, business decision, owner, purpose, prohibited uses
Data Field Minimization Matrix	每个字段都有业务必要性和低风险替代方案
Consent / Purpose / Contract Mapping	数据进入 clean room 的使用边界被确认
Partner Risk Assessment	partner、operator、identity vendor、AI vendor 的风险和 controls
Identifier Strategy	join token、hash/salt/key custody、scope and rotation 被设计
Query Template Catalog	允许的 computation 被产品化, 不是自由探索
Measurement Design Spec	metrics、cohort、holdout、bias、uncertainty and decision-use
PET Architecture Decision Record	为什么选择 enclave、DP、synthetic、SMPC concepts or aggregation
Output Disclosure Control Policy	thresholds、suppression、rounding、DP、human review and export gates
AI Use Boundary Card	eval-only、summarization、training prohibition、feature-store controls
Evidence Bundle Schema	每次 run 可被重放
RACI and Governance Cadence	owner、review forum、escalation and recertification
Incident Runbook	unauthorized query、leakage、partner misuse、AI training misuse
Release and Recertification Checklists	上线前和周期复审标准

6.1 Use Case Boundary Card

Use case:
Business decision supported:
Business owner:
Risk owner:
Data contributors:
Clean room operator:
Customer / data subject population:
Approved purpose:
Prohibited purposes:
AI use class:
Customer-level action possible: yes/no
Required fields:
Identifiers and join method:
Computation pattern:
Allowed outputs:
Downstream recipients:
Retention:
Monitoring owner:
Review cadence:

6.2 Data Field Minimization Matrix

Field	Source	Needed for	Lower-risk alternative	Approved output	AI use
tokenized customer key	bank and merchant	match exposure to outcome	scope-limited campaign token	no direct output	eval join only
transaction amount	card issuer	lift and spend band	binned amount	aggregate spend band	eval metric only
merchant category	merchant/issuer	portfolio insight	category group	aggregate trend	summary allowed
fraud outcome	issuer/network	fraud model eval	binary fraud label in window	aggregate performance	training prohibited
location	transaction source	regional trend	coarse region	suppressed if small cell	no individual inference

6.3 PET Decision Record

Use case:
Threat model:
Raw data visibility requirement:
Join requirement:
Output type:
Expected query frequency:
Selected pattern:
Rejected alternatives:
Privacy residual risk:
Utility impact:
Operational complexity:
Evidence required:
Reviewers:
Decision date:

7. RACI / Operating Model

Activity	Accountable	Responsible	Consulted	Informed
Use case approval	Business Risk Owner	Product Owner / AI PM	Privacy, Legal, Compliance, Model Risk	Steering Committee
Data minimization	Data Governance	Senior BA / Data Product	Privacy, Analytics, Architecture	Business Owner
Purpose and consent review	Privacy / Legal	Product / Data Governance	Compliance, Marketing Compliance	Audit
Partner risk review	Vendor Management	Procurement / Security	Legal, Privacy, Architecture	Business Owner
Identifier strategy	Architecture	Data Engineering / IAM	Security, Privacy, Partner Tech	Product
Clean-room platform controls	Architecture	Platform Engineering	Security, Data Governance	Operations
Query template design	Analytics Lead	Data Science / BI	Privacy, Product, Fraud/Marketing	Governance Forum
Measurement design	Measurement Lead	Analytics / Experimentation	Product, Finance, Partner	Steering Committee
PET selection	Privacy Architecture	Security / Data Architecture	Legal, Model Risk, Vendor	Product
AI use boundary	AI Governance / Model Risk	AI PM / ML Platform	Privacy, Legal, Data Governance	Audit
Output review	Privacy / Data Governance	Analytics / Product	Business Owner, Legal	Partner
Partner access recertification	Vendor Management	Platform / Security	Business Owner, Privacy	Internal Audit
Evidence ledger	Architecture	Data Engineering / Platform	Audit, Privacy, Model Risk	Operations
Incident response	Security / Privacy	SOC / Platform / Product	Legal, Partner, Model Risk	Executive Risk
Independent assurance	Internal Audit	Audit Team	Risk, Legal, Technology	Board Committee

Governance cadence:

Cadence	Forum	Outputs
Weekly during pilot	Clean-room run review	blocked queries, output approvals, data quality issues
Monthly	Data collaboration governance	new use cases, partner access, metric outcomes
Monthly	AI eval governance	eval-only compliance, training blocks, model evidence
Quarterly	Partner and vendor risk review	recertification, incidents, subprocessors, access changes
Quarterly	Privacy and measurement review	suppression rate, DP budget, complaints, purpose drift
Semiannual	Tabletop exercise	output leak, unauthorized training, partner misuse, enclave outage
Annual	Audit and management system review	control maturity, evidence completeness, improvement plan

Operating rule:

No use case launches unless Product, Privacy, Data Governance, Security,
Model Risk when AI is involved, and the accountable business risk owner
can all point to the same evidence bundle.

8. Implementation Roadmap

Days 1-30: Strategy and Control Baseline

Day range	Work	Artifact
1-3	Select one high-value pilot such as card-linked offer measurement or fraud model eval	Executive One-Pager
4-6	Define business decision, approved purpose and prohibited uses	Use Case Boundary Card
7-10	Inventory data fields, identifiers, sensitivity and retention	Data Field Minimization Matrix
11-13	Review consent/purpose/contract boundaries with Privacy/Legal	Purpose Mapping
14-16	Assess partners, operator, identity resolution and AI vendors	Partner Risk Assessment
17-19	Design tokenization, key custody and match quality controls	Identifier Strategy
20-22	Draft measurement design including holdout, cohort, outcome and bias notes	Measurement Design Spec
23-25	Select clean-room/PET architecture pattern by threat model	PET Decision Record
26-28	Define output controls and evidence schema	Output Policy and Evidence Schema
29-30	Set governance cadence, RACI and launch decision criteria	Governance Pack

Days 31-60: Controlled Pilot

Day range	Work	Artifact
31-34	Configure clean-room workspace, roles and partner access	Access Review
35-38	Build secure ingestion, policy tags and data quality checks	Ingestion Validation Report
39-42	Implement query templates and parameter controls	Query Template Catalog
43-46	Implement threshold, suppression, rounding and optional DP budget tracking	Output Control Test
47-50	Configure AI eval-only / no-training / no-feature-store controls	AI Boundary Test
51-54	Run pilot measurement with manual output review	Pilot Run Evidence
55-57	Validate match rate, bias, metric stability and confidence intervals	Measurement QA
58-60	Review pilot outcomes and decide continue/restrict/redesign	Pilot Go/No-Go Record

Days 61-90: Scale and Assurance

Day range	Work	Artifact
61-64	Automate evidence capture from data, query, output, AI and access logs	Evidence Ledger v1
65-68	Add monitoring for anomalous query narrowing, export spikes and DP budget	Monitoring Dashboard
69-72	Train analytics, product and partner teams on allowed/prohibited use	Training Record
73-76	Integrate complaint, incident and CAPA linkage	RCA and CAPA Workflow
77-80	Run tabletop for unauthorized training, output leak and partner misuse	Tabletop Log
81-84	Complete partner recertification and access review	Recertification Record
85-88	Prepare audit-ready evidence and executive scorecard	Assurance Pack
89-90	Decide scaled rollout, additional use cases, or retirement	Scale Decision Record

9. Evidence Pack

Minimum evidence fields:

Field	Purpose
`use_case_id`	connects run to approved collaboration question
`business_decision`	what decision the insight supports
`approved_purpose`	purpose limitation
`prohibited_uses`	downstream guardrail
`data_contributors`	parties and roles
`partner_contract_ref`	contractual boundary
`privacy_review_id`	purpose/consent/legal interpretation evidence
`data_inventory_version`	fields and classification
`policy_tags_snapshot`	allowed computation/output/AI usage
`identifier_strategy_id`	tokenization and key governance
`clean_room_workspace_id`	environment
`query_template_id`	approved computation
`query_run_id`	actual execution
`parameters_used`	cohort, windows, filters
`input_data_versions`	lineage
`match_rate_summary`	coverage and bias
`measurement_design_id`	metric, holdout, outcome definition
`output_control_result`	threshold, suppression, rounding, DP
`output_review_id`	human disclosure review
`ai_use_class`	none, eval-only, summary-only, other approved
`ai_run_id`	model/prompt/tool evidence if used
`training_allowed_flag`	default false unless separately approved
`export_destination`	who received output
`downstream_use_attestation`	recipient accepted purpose boundary
`retention_rule`	input/output/evidence retention
`access_log_ref`	partner and internal access
`incident_or_exception_id`	linked defect or misuse
`capa_id`	corrective action

Evidence rules:

Store raw identifiers, join tokens, aggregate outputs and reports in separate access zones.
Capture the policy tag snapshot used at run time, not only current catalog state.
Record blocked queries and exports as control evidence.
Preserve AI prompt/tool/model version when AI summarizes or evaluates.
Mark clean-room outputs as measurement/eval artifacts, not general customer attributes.
Link customer complaints or partner disputes to the exact use case and output.
Treat missing evidence as a launch blocker for scaled use cases.

10. Release Checklists

10.1 Use Case Release Checklist

Check	Passing evidence
Business decision defined	Use Case Boundary Card
Approved purpose documented	Privacy/Legal/Data Governance review
Prohibited uses listed	Use case policy
Data fields minimized	Field Minimization Matrix
Partner roles assessed	Partner Risk Assessment
Identifier strategy approved	Tokenization/key custody design
Measurement design approved	Metric and holdout spec
PET pattern justified	Architecture decision record
Output controls configured	Output control test
AI use boundary enforced	AI Boundary Card and pipeline test
Evidence schema configured	sample evidence bundle
Incident runbook ready	runbook and escalation contacts
Governance forum sign-off	launch approval record

10.2 Query and Output Checklist

Check	Passing evidence
Query uses approved template	query template id
Parameters match approved purpose	parameter review
Cohort meets minimum size	query validation
Repeated query risk checked	differencing check
Sensitive dimensions controlled	dimension cap review
Threshold/suppression applied	output control log
DP budget recorded if used	budget ledger
Human review completed	output review record
Export recipient approved	export approval
Downstream use attested	recipient attestation

10.3 AI Boundary Checklist

Check	Passing evidence
Dataset marked eval-only unless training approved	catalog tag
Training/fine-tuning blocked	training pipeline control
Feature store ingestion blocked	feature platform policy
LLM summary uses approved aggregate output only	prompt/tool log
Agent query restricted to templates	tool permission config
Model card updated for eval result	model governance record
AI output avoids individual inference	review sample
AI run linked to evidence pack	`ai_run_id`

10.4 Partner Access Checklist

Check	Passing evidence
Partner users named and role-scoped	access roster
MFA and least privilege enabled	access control report
Subprocessors reviewed	vendor record
Export permissions limited	export role config
Partner accepts prohibited uses	contract/attestation
Access logs retained	log retention evidence
Recertification scheduled	calendar and owner
Offboarding process tested	termination evidence

11. Metrics and KRIs

Metric	Why it matters
Approved use cases by value tier	portfolio governance and prioritization
Average fields per use case	data minimization pressure
Direct identifier exposure count	privacy and security risk
Match rate and match bias	measurement validity
Holdout integrity score	causal evidence quality
Suppressed output rate	small-cell risk and report design
Blocked query count	control effectiveness and analyst behavior
Differencing alerts	re-identification pressure
DP budget consumption	privacy budget governance
Export approval exceptions	output governance
Partner access anomalies	third-party risk
Eval-only compliance rate	AI governance health
Blocked training attempts	technical enforcement of purpose
LLM individual-inference defects	AI summary risk
Fraud signal overturn rate	false-positive and harm monitoring
Attribution dispute rate	measurement credibility
Complaint-to-evidence linkage	audit readiness
Incident notification SLA	partner and security response
CAPA aging	governance follow-through

Balanced scorecard:

Value: clean-room insights influence real business decisions.
Privacy: data and outputs are minimized and controlled.
Measurement: metrics are credible, bounded and uncertainty-aware.
AI safety: eval data is not silently converted into training data.
Partner trust: access, exports and reuse are monitored.
Evidence: every run can be replayed end to end.
Resilience: incidents and misuse have rehearsed response paths.

12. Anti-Patterns

Anti-pattern	Why it fails	Better pattern
“Clean room means no data sharing”	data, metadata, outputs and insights still move	define exact sharing and output model
“Hashed email is anonymous”	hashes can be linked or attacked	scope-limited tokens, key custody, classification review
Free SQL for partner analysts	small-cell and purpose drift risk	approved query templates
Output threshold only at dashboard layer	intermediate or exported data may leak	enforce controls in computation and export path
Attribution without holdout	correlation becomes ROI claim	experimental or quasi-experimental design
Measurement labels reused for training	evaluation becomes unauthorized model development	eval-only tags and training blocks
LLM summarizes raw query results	prompt and output may reveal suppressed details	summarize approved aggregate outputs only
Synthetic data treated as risk-free	possible memorization and misleading utility	leakage and utility review
Fraud signal used as final decision	opaque false positives and partner propagation	reason codes, review and outcome monitoring
Partner contract controls not implemented technically	policy depends on manual trust	access, query, export and training enforcement
No downstream use attestation	reports drift into new decisions	recipient attestation and audit
Evidence lives only in vendor UI	audit and exit risk	internal evidence ledger

13. Tabletop Scenarios

Scenario 1: Unauthorized Training

A model team downloads approved aggregate campaign measurement outputs
and uses partner conversion labels to tune a propensity model.
The original use case was approved for measurement only.

Expected decisions: identify policy breach, block training pipeline, preserve evidence, notify governance forum, assess partner contract impact, define remediation and retraining rollback if needed。

Scenario 2: Differencing Attack by Repeated Queries

An analyst repeatedly changes one filter in a high-income small geography segment.
Each output passes the threshold individually, but the sequence can reveal a small group.

Expected decisions: query history review, differencing controls, temporary access restriction, template redesign, analyst retraining, monitoring rule update。

Scenario 3: Fraud Consortium False Positive

A partner fraud signal flags a cohort that includes legitimate customers.
Operations starts suppressing offers and escalating reviews based on the signal.

Expected decisions: verify allowed use, require provenance and reason codes, review false-positive rate, prevent marketing reuse if not approved, link outcomes to CAPA。

Scenario 4: Clean-Room Vendor Metadata Exposure

The platform does not expose raw customer data, but workspace metadata reveals
partner names, cohort sizes and query topics to unauthorized internal users.

Expected decisions: treat metadata as sensitive, tighten roles, review logs, assess disclosure impact, update data classification and vendor controls。

Scenario 5: AI Summary Overstates Causality

An LLM-generated executive summary says a campaign caused a 22% lift,
but the measurement design only supports correlated conversion difference.

Expected decisions: correct report, constrain summary prompt, require causal language rules, update measurement template and human review checklist。

Scenario 6: Partner Requests Customer-Level Exceptions

A merchant asks for a list of customers who converted after a campaign
to reconcile billing and optimize follow-up offers.

Expected decisions: reject unless separately approved and lawful under policy interpretation, offer aggregate reconciliation, review contract, document downstream use boundary。

14. Practical Templates

14.1 Measurement Design Spec

Use case:
Business decision:
Campaign / product / model:
Cohort definition:
Exposure definition:
Outcome definition:
Measurement window:
Control / holdout design:
Join method:
Minimum cell size:
Bias and coverage notes:
Metrics:
Confidence / uncertainty display:
Allowed report recipients:
Decision-use limitations:

14.2 Query Template Record

Template id:
Approved use cases:
Allowed fields:
Required filters:
Prohibited filters:
Minimum cohort size:
Time window rules:
Dimension caps:
Output types:
Suppression rules:
DP budget impact:
Reviewer required: yes/no
Owner:
Review cadence:

14.3 Output Disclosure Review

Output id:
Use case id:
Query run id:
Recipient:
Metric/table/chart:
Cell threshold result:
Sensitive segment review:
Differencing review:
Suppression/rounding/noise applied:
Causality language checked:
AI summary checked:
Approved downstream use:
Export location:
Retention:
Reviewer:

14.4 Partner Attestation

Partner:
Use case:
Output received:
Allowed use:
Prohibited uses:
No reverse engineering:
No customer-level targeting unless separately approved:
No model training/fine-tuning unless separately approved:
Retention:
Subprocessor restriction:
Incident notification contact:
Authorized signer:
Evidence reference:

14.5 AI Clean-Room Control Card

AI system:
Model owner:
Use class:
Input artifacts:
Output artifacts:
Training allowed: yes/no
Feature creation allowed: yes/no
Prompt/tool restrictions:
Source grounding:
Small-cell protection:
Human review trigger:
Model card update:
Monitoring metric:
Evidence link:

14.6 Incident RCA Template

Incident id:
Detection source:
Use case id:
Partner / internal actor:
Data or output involved:
Policy boundary breached:
AI involved: yes/no
Customer-level impact assessment:
Containment action:
Partner notification:
Root cause:
Control gap:
Remediation:
CAPA owner:
Verification evidence:
Closure date:

15. Portfolio Deliverables

Deliverable	What it demonstrates
Executive one-pager	你能把 clean room 从 vendor tool 讲成受治理的数据协作产品
Use case boundary card	你能定义 purpose、prohibited use、decision impact and owner
Field minimization matrix	你能把隐私最小化落到字段级
PET decision record	你能按 threat model 选择 enclave、DP、synthetic、SMPC concepts or aggregation
Measurement design spec	你理解 incrementality、holdout、bias and uncertainty
AI boundary card	你能阻止 eval data 变成 training data
Partner risk matrix	你能覆盖 operator、identity graph、measurement、AI vendor and data contributor
Output review checklist	你能控制 small-cell、differencing、causality language and export
Evidence pack schema	你能让每次 collaboration 可重放
RACI and roadmap	你能推动 Product、Privacy、Legal、Data、AI、Fraud、Vendor、Audit 协同落地
Tabletop scripts	你能演练 misuse, leakage, unauthorized training and partner disputes

Portfolio storyline:

I designed a privacy clean room operating model for AI-enabled financial retail collaboration.
The system limits partner data use to approved measurement and evaluation questions,
uses field minimization, tokenized matching, governed query templates, output disclosure controls,
AI eval-only enforcement, partner access governance and an evidence ledger,
so business teams can measure value without turning clean-room outputs into uncontrolled profiling or training assets.

16. Interview Answers

Q1: 如何向高管解释 clean room 的价值和边界?

30 秒:

Clean room 的价值是让多方在不直接交换 raw customer data 的情况下回答特定 measurement、fraud、portfolio 或 AI eval 问题。边界是它不是匿名化或合规豁免, 仍需控制 purpose、fields、join keys、queries、outputs、AI training、partner reuse 和 evidence。

Q2: Hashing / tokenization 是否足够保护隐私?

30 秒:

不足够。Hash 或 token 可以支持匹配和降低直接暴露, 但仍可能被链接、字典攻击或在小群体输出中泄露。需要 scope-limited tokens、salt/key custody、field minimization、query controls、output suppression 和 Privacy/Legal classification review。

Q3: Clean room 如何支持 AI evaluation 而不变成训练数据通道?

30 秒:

把 use case 明确定义为 eval-only, 在数据目录、clean-room workspace、feature store、training pipeline 和 LLM tools 中执行 no-training controls。保存 model id、eval question、metrics、query、output、review 和 decision-use limitation。任何 training/fine-tuning 都必须走独立审批。

Q4: Differential privacy 什么时候值得用?

30 秒:

当需要重复统计查询、dashboard 或多方 measurement 且存在 differencing / small-cell 风险时, DP 可以用 privacy budget 管理泄露风险。但它会影响 utility, 需要定义 metric、epsilon/budget owner、输出解释和业务决策阈值。DP 不能替代目的限制和 partner governance。

Q5: Senior PM 如何设计 clean-room measurement?

30 秒:

先定义业务决策和 causal claim, 再定义 cohort、exposure、outcome、holdout/control、join window、minimum cell、bias notes 和 uncertainty display。最后把输出用途限定在 budget allocation、partner reporting、model eval or risk tuning 等明确场景, 不允许自动滑向 individual targeting。

17. Final Operating Principle

这套 playbook 的成熟度可以用一个问题检验:

For every AI-enabled partner data collaboration,
can the institution prove the business question was approved,
the data was minimized and purpose-bound,
the computation was constrained,
the output was protected against re-identification,
AI evaluation did not become unauthorized training,
partners were prevented from misuse,
and the full evidence chain can be replayed by Privacy, Model Risk, Audit and the business owner?

如果答案不清楚, 不是缺一个 clean-room SKU。问题是 measurement science、privacy-enhancing technology、data governance、partner risk、AI management system 和 evidence operations 没有被设计成同一套产品能力。