AI 底层逻辑 / 经典论文

Diffusion / Latent Diffusion：生成式媒体架构

一句话:

282 行ai-foundations/papers/33-diffusion-latent-diffusion-generative-media.md

Diffusion / Latent Diffusion 解读

面向对象: AI PM / AI Architect / Multimodal Product PM / Trust & Safety / Creative AI PM。核心问题: Diffusion 为什么成为图像生成的主流范式？Latent Diffusion 如何降低成本？生成式媒体产品为什么需要安全、版权、品牌、工作流和审核架构？学习目标: 理解 DDPM、classifier-free guidance、latent diffusion、text-to-image 生成链路，并把它们转成产品能力、平台边界和治理门禁。

Source Anchors

Source	Link	用途
DDPM	https://arxiv.org/abs/2006.11239	理解 denoising diffusion probabilistic models
Improved DDPM	https://arxiv.org/abs/2102.09672	理解采样质量和 likelihood 改进
Classifier-Free Guidance	https://arxiv.org/abs/2207.12598	理解 guidance scale 和文本条件控制
Latent Diffusion Models	https://arxiv.org/abs/2112.10752	理解在 latent space 中生成以降低成本
Stable Diffusion / LDM Code	https://github.com/CompVis/latent-diffusion	理解 LDM 工程生态
DALL-E 2	https://arxiv.org/abs/2204.06125	理解文本条件图像生成和 CLIP latent

一句话:

Diffusion 从噪声逐步去噪生成样本；Latent Diffusion 把生成过程搬到压缩 latent space，显著降低图像生成成本并推动生成式媒体产品化。

1. Diffusion 的基本直觉

训练时:

clean image
  -> gradually add noise
  -> noisy image at step t
  -> model learns to predict/remove noise

生成时:

random noise
  -> denoise step by step
  -> image

产品直觉:

模型不是一次画完图，而是逐步从噪声中恢复结构。
prompt、guidance、seed、negative prompt、conditioning 会影响结果。
生成成本来自多步采样、分辨率、模型大小和后处理。

2. 为什么 Diffusion 重要

相比早期 GAN，diffusion 在质量、多样性和训练稳定性上表现突出。

对产品的影响:

能力	产品例子
text-to-image	生成广告图、商品场景图、培训插图
image-to-image	风格迁移、背景替换、草图变成图
inpainting	修复、替换局部区域
outpainting	扩展画面
control conditioning	按姿态、边缘、深度、布局生成
personalization	品牌风格、产品图、角色一致性

3. Latent Diffusion 的架构意义

在像素空间生成很贵。Latent Diffusion 的思路:

image -> encoder -> latent
diffusion in latent space
latent -> decoder -> image

好处:

在压缩空间里采样，计算更便宜。
可以生成更高分辨率图像。
更适合产品级部署和迭代。

代价:

autoencoder 压缩可能丢细节。
文本与图像对齐仍受训练数据影响。
输出安全和版权仍需系统控制。

4. Classifier-Free Guidance

Classifier-free guidance 用一个参数控制“更听 prompt”还是“更多样”。

直觉:

Guidance 低	Guidance 高
多样、开放	更贴 prompt
可能不够准确	可能过度饱和、失真
探索好	交付可控好

产品设计含义:

创意探索可以给更宽参数。
品牌合规素材需要更严格 prompt、negative prompt 和模板。
高风险场景不应让用户直接控制所有生成参数。

5. 生成式媒体产品架构

User intent / brief
  -> prompt template / policy
  -> model + conditioning
  -> generation
  -> safety classifier
  -> brand / copyright / PII review
  -> human approval
  -> asset registry
  -> publishing / workflow
  -> feedback and eval

关键组件

Component	责任
prompt policy	禁止内容、品牌语言、产品 claims
asset source registry	产品图、logo、授权素材、风格参考
generation service	text-to-image / edit / variation
safety filter	暴力、成人、仇恨、隐私、欺骗性内容
brand checker	logo、色彩、风格、免责声明
rights management	版权、授权、来源、训练/输入使用边界
human approval	上线前复核
audit trail	prompt、model、seed、input asset、输出版本

6. 金融零售案例

6.1 Retail Marketing Creative Studio

用途:

商品场景图。
节日海报。
社媒素材。
店内培训插图。

控制:

价格、促销、库存、金融条款必须来自系统。
AI 只生成视觉素材，不编造 offer。
品牌和版权审核必须在发布前。

6.2 Financial Education Content

用途:

风险教育插图。
反欺诈宣传。
App onboarding 图。

控制:

不生成误导性收益暗示。
不使用真实客户肖像或敏感场景。
法务/合规审查话术和图文搭配。

6.3 Claims / Evidence Handling

在理赔、争议、欺诈或 KYC 中，生成式图像要格外谨慎:

不应生成或修改证据图片。
图像增强必须保留原始证据和处理日志。
任何合成图片必须明确标记。

7. 风险与治理

风险	例子	控制
虚假宣传	生成不存在的产品功能	offer API + brand/legal review
版权/授权	使用无权参考图	asset registry + license metadata
PII / 肖像	生成或暴露真实客户	redaction + no customer likeness
欺骗性内容	合成证据或误导图	watermark / provenance / policy
偏见和刻板印象	特定群体呈现不当	slice review + prompt policy
品牌不一致	色彩、logo、语气错误	brand checker + human approval
安全绕过	prompt 规避过滤	adversarial prompts + moderation

8. Eval 设计

生成图像 eval 不能只看“好不好看”。

Eval type	问题
prompt adherence	是否符合 brief
factual/product correctness	是否编造产品、价格、条款
brand compliance	是否符合品牌标准
safety	是否包含禁止内容
rights	输入和输出是否有授权证据
diversity/fairness	人群和场景是否存在偏差
workflow value	是否减少创意迭代时间
human approval	审核通过率和修改原因

指标

Metric	Definition
approved asset rate	人审通过的生成素材比例
revision rounds	到可发布资产的迭代次数
unsafe output rate	安全分类 fail
product claim violation	虚构产品/价格/承诺
brand deviation rate	品牌审核 fail
rights exception rate	授权或来源缺失
time-to-asset	从 brief 到可用素材时间

9. Product Strategy

产品形态	适合	风险
internal creative assistant	内部营销/培训素材	品牌和版权可控
customer-facing generator	用户生成头像、卡面、海报	安全和滥用风险高
evidence image tool	理赔/争议/合规证据处理	极高风险，禁止生成证据
product visualization	零售商品场景和搭配	商品真实性和库存风险
education content studio	金融安全教育	合规话术和误导性风险

建议:

金融零售先做内部受控创意和教育场景，再考虑客户可见生成；高风险证据场景只做查看、增强和标注，不做生成或替换。

10. 作品集输出

Artifact	内容
Generative Media Product Policy	允许/禁止内容、品牌、版权、客户数据边界
Architecture ADR	text-to-image / edit / control / review workflow
Asset Governance Register	输入素材、授权、来源、输出版本
Safety Eval Pack	prompt adherence、brand、rights、safety、bias
Human Review Workflow	审批、修改、发布、撤回
Retail Marketing Case Study	内部 creative studio 的 ROI 和风险控制

11. 面试表达

30 秒版本

Diffusion 从噪声逐步去噪生成图片，Latent Diffusion 在压缩 latent space 中生成以降低成本。产品上它适合创意、营销、教育和图像编辑，但金融零售必须控制品牌、版权、虚假宣传、PII 和人工审批。

2 分钟版本

DDPM 的思想是训练模型预测噪声，生成时从随机噪声逐步去噪。Latent Diffusion 把这个过程放到图像 latent space，使高分辨率生成更经济。对 AI PM/架构师来说，关键不是会写 prompt，而是设计生成式媒体工作流: brief、prompt template、素材授权、模型生成、安全过滤、品牌审核、人审、资产登记和发布审计。金融零售里 AI 可以帮助生成教育插图和营销素材，但不能编造金融 offer，也不能生成或修改证据图片。

CTO 深挖

我会把生成式媒体能力放进受控 asset pipeline。每个输出记录 prompt、model、seed、input asset、license、reviewer、approval 和发布位置；上线前跑 safety、brand、rights 和 product-claim eval。高风险场景默认 human approval，不允许自动发布。

12. 复习问题

Diffusion 的前向加噪和反向去噪如何理解？
Latent Diffusion 为什么能降低成本？
Guidance scale 对产品体验有什么影响？
生成式图像产品为什么需要 asset registry？
金融营销素材中最重要的合规风险是什么？
为什么证据图片场景不应使用生成式替换？
如何设计生成式媒体的安全和品牌 eval？