返回 Papers
AI 底层逻辑 / 经典论文

Diffusion / Latent Diffusion:生成式媒体架构

一句话:

282ai-foundations/papers/33-diffusion-latent-diffusion-generative-media.md

Diffusion / Latent Diffusion 解读

面向对象: AI PM / AI Architect / Multimodal Product PM / Trust & Safety / Creative AI PM。 核心问题: Diffusion 为什么成为图像生成的主流范式?Latent Diffusion 如何降低成本?生成式媒体产品为什么需要安全、版权、品牌、工作流和审核架构? 学习目标: 理解 DDPM、classifier-free guidance、latent diffusion、text-to-image 生成链路,并把它们转成产品能力、平台边界和治理门禁。


Source Anchors

SourceLink用途
DDPMhttps://arxiv.org/abs/2006.11239理解 denoising diffusion probabilistic models
Improved DDPMhttps://arxiv.org/abs/2102.09672理解采样质量和 likelihood 改进
Classifier-Free Guidancehttps://arxiv.org/abs/2207.12598理解 guidance scale 和文本条件控制
Latent Diffusion Modelshttps://arxiv.org/abs/2112.10752理解在 latent space 中生成以降低成本
Stable Diffusion / LDM Codehttps://github.com/CompVis/latent-diffusion理解 LDM 工程生态
DALL-E 2https://arxiv.org/abs/2204.06125理解文本条件图像生成和 CLIP latent

一句话:

Diffusion 从噪声逐步去噪生成样本;Latent Diffusion 把生成过程搬到压缩 latent space,显著降低图像生成成本并推动生成式媒体产品化。


1. Diffusion 的基本直觉

训练时:

clean image
  -> gradually add noise
  -> noisy image at step t
  -> model learns to predict/remove noise

生成时:

random noise
  -> denoise step by step
  -> image

产品直觉:

  • 模型不是一次画完图,而是逐步从噪声中恢复结构。
  • prompt、guidance、seed、negative prompt、conditioning 会影响结果。
  • 生成成本来自多步采样、分辨率、模型大小和后处理。

2. 为什么 Diffusion 重要

相比早期 GAN,diffusion 在质量、多样性和训练稳定性上表现突出。

对产品的影响:

能力产品例子
text-to-image生成广告图、商品场景图、培训插图
image-to-image风格迁移、背景替换、草图变成图
inpainting修复、替换局部区域
outpainting扩展画面
control conditioning按姿态、边缘、深度、布局生成
personalization品牌风格、产品图、角色一致性

3. Latent Diffusion 的架构意义

在像素空间生成很贵。Latent Diffusion 的思路:

image -> encoder -> latent
diffusion in latent space
latent -> decoder -> image

好处:

  • 在压缩空间里采样,计算更便宜。
  • 可以生成更高分辨率图像。
  • 更适合产品级部署和迭代。

代价:

  • autoencoder 压缩可能丢细节。
  • 文本与图像对齐仍受训练数据影响。
  • 输出安全和版权仍需系统控制。

4. Classifier-Free Guidance

Classifier-free guidance 用一个参数控制“更听 prompt”还是“更多样”。

直觉:

Guidance 低Guidance 高
多样、开放更贴 prompt
可能不够准确可能过度饱和、失真
探索好交付可控好

产品设计含义:

  • 创意探索可以给更宽参数。
  • 品牌合规素材需要更严格 prompt、negative prompt 和模板。
  • 高风险场景不应让用户直接控制所有生成参数。

5. 生成式媒体产品架构

User intent / brief
  -> prompt template / policy
  -> model + conditioning
  -> generation
  -> safety classifier
  -> brand / copyright / PII review
  -> human approval
  -> asset registry
  -> publishing / workflow
  -> feedback and eval

关键组件

Component责任
prompt policy禁止内容、品牌语言、产品 claims
asset source registry产品图、logo、授权素材、风格参考
generation servicetext-to-image / edit / variation
safety filter暴力、成人、仇恨、隐私、欺骗性内容
brand checkerlogo、色彩、风格、免责声明
rights management版权、授权、来源、训练/输入使用边界
human approval上线前复核
audit trailprompt、model、seed、input asset、输出版本

6. 金融零售案例

6.1 Retail Marketing Creative Studio

用途:

  • 商品场景图。
  • 节日海报。
  • 社媒素材。
  • 店内培训插图。

控制:

  • 价格、促销、库存、金融条款必须来自系统。
  • AI 只生成视觉素材,不编造 offer。
  • 品牌和版权审核必须在发布前。

6.2 Financial Education Content

用途:

  • 风险教育插图。
  • 反欺诈宣传。
  • App onboarding 图。

控制:

  • 不生成误导性收益暗示。
  • 不使用真实客户肖像或敏感场景。
  • 法务/合规审查话术和图文搭配。

6.3 Claims / Evidence Handling

在理赔、争议、欺诈或 KYC 中,生成式图像要格外谨慎:

  • 不应生成或修改证据图片。
  • 图像增强必须保留原始证据和处理日志。
  • 任何合成图片必须明确标记。

7. 风险与治理

风险例子控制
虚假宣传生成不存在的产品功能offer API + brand/legal review
版权/授权使用无权参考图asset registry + license metadata
PII / 肖像生成或暴露真实客户redaction + no customer likeness
欺骗性内容合成证据或误导图watermark / provenance / policy
偏见和刻板印象特定群体呈现不当slice review + prompt policy
品牌不一致色彩、logo、语气错误brand checker + human approval
安全绕过prompt 规避过滤adversarial prompts + moderation

8. Eval 设计

生成图像 eval 不能只看“好不好看”。

Eval type问题
prompt adherence是否符合 brief
factual/product correctness是否编造产品、价格、条款
brand compliance是否符合品牌标准
safety是否包含禁止内容
rights输入和输出是否有授权证据
diversity/fairness人群和场景是否存在偏差
workflow value是否减少创意迭代时间
human approval审核通过率和修改原因

指标

MetricDefinition
approved asset rate人审通过的生成素材比例
revision rounds到可发布资产的迭代次数
unsafe output rate安全分类 fail
product claim violation虚构产品/价格/承诺
brand deviation rate品牌审核 fail
rights exception rate授权或来源缺失
time-to-asset从 brief 到可用素材时间

9. Product Strategy

产品形态适合风险
internal creative assistant内部营销/培训素材品牌和版权可控
customer-facing generator用户生成头像、卡面、海报安全和滥用风险高
evidence image tool理赔/争议/合规证据处理极高风险,禁止生成证据
product visualization零售商品场景和搭配商品真实性和库存风险
education content studio金融安全教育合规话术和误导性风险

建议:

金融零售先做内部受控创意和教育场景,再考虑客户可见生成;高风险证据场景只做查看、增强和标注,不做生成或替换。


10. 作品集输出

Artifact内容
Generative Media Product Policy允许/禁止内容、品牌、版权、客户数据边界
Architecture ADRtext-to-image / edit / control / review workflow
Asset Governance Register输入素材、授权、来源、输出版本
Safety Eval Packprompt adherence、brand、rights、safety、bias
Human Review Workflow审批、修改、发布、撤回
Retail Marketing Case Study内部 creative studio 的 ROI 和风险控制

11. 面试表达

30 秒版本

Diffusion 从噪声逐步去噪生成图片,Latent Diffusion 在压缩 latent space 中生成以降低成本。产品上它适合创意、营销、教育和图像编辑,但金融零售必须控制品牌、版权、虚假宣传、PII 和人工审批。

2 分钟版本

DDPM 的思想是训练模型预测噪声,生成时从随机噪声逐步去噪。Latent Diffusion 把这个过程放到图像 latent space,使高分辨率生成更经济。对 AI PM/架构师来说,关键不是会写 prompt,而是设计生成式媒体工作流: brief、prompt template、素材授权、模型生成、安全过滤、品牌审核、人审、资产登记和发布审计。金融零售里 AI 可以帮助生成教育插图和营销素材,但不能编造金融 offer,也不能生成或修改证据图片。

CTO 深挖

我会把生成式媒体能力放进受控 asset pipeline。每个输出记录 prompt、model、seed、input asset、license、reviewer、approval 和发布位置;上线前跑 safety、brand、rights 和 product-claim eval。高风险场景默认 human approval,不允许自动发布。


12. 复习问题

  1. Diffusion 的前向加噪和反向去噪如何理解?
  2. Latent Diffusion 为什么能降低成本?
  3. Guidance scale 对产品体验有什么影响?
  4. 生成式图像产品为什么需要 asset registry?
  5. 金融营销素材中最重要的合规风险是什么?
  6. 为什么证据图片场景不应使用生成式替换?
  7. 如何设计生成式媒体的安全和品牌 eval?