Diffusion / Latent Diffusion:生成式媒体架构
一句话:
Diffusion / Latent Diffusion 解读
面向对象: AI PM / AI Architect / Multimodal Product PM / Trust & Safety / Creative AI PM。 核心问题: Diffusion 为什么成为图像生成的主流范式?Latent Diffusion 如何降低成本?生成式媒体产品为什么需要安全、版权、品牌、工作流和审核架构? 学习目标: 理解 DDPM、classifier-free guidance、latent diffusion、text-to-image 生成链路,并把它们转成产品能力、平台边界和治理门禁。
Source Anchors
| Source | Link | 用途 |
|---|---|---|
| DDPM | https://arxiv.org/abs/2006.11239 | 理解 denoising diffusion probabilistic models |
| Improved DDPM | https://arxiv.org/abs/2102.09672 | 理解采样质量和 likelihood 改进 |
| Classifier-Free Guidance | https://arxiv.org/abs/2207.12598 | 理解 guidance scale 和文本条件控制 |
| Latent Diffusion Models | https://arxiv.org/abs/2112.10752 | 理解在 latent space 中生成以降低成本 |
| Stable Diffusion / LDM Code | https://github.com/CompVis/latent-diffusion | 理解 LDM 工程生态 |
| DALL-E 2 | https://arxiv.org/abs/2204.06125 | 理解文本条件图像生成和 CLIP latent |
一句话:
Diffusion 从噪声逐步去噪生成样本;Latent Diffusion 把生成过程搬到压缩 latent space,显著降低图像生成成本并推动生成式媒体产品化。
1. Diffusion 的基本直觉
训练时:
clean image
-> gradually add noise
-> noisy image at step t
-> model learns to predict/remove noise
生成时:
random noise
-> denoise step by step
-> image
产品直觉:
- 模型不是一次画完图,而是逐步从噪声中恢复结构。
- prompt、guidance、seed、negative prompt、conditioning 会影响结果。
- 生成成本来自多步采样、分辨率、模型大小和后处理。
2. 为什么 Diffusion 重要
相比早期 GAN,diffusion 在质量、多样性和训练稳定性上表现突出。
对产品的影响:
| 能力 | 产品例子 |
|---|---|
| text-to-image | 生成广告图、商品场景图、培训插图 |
| image-to-image | 风格迁移、背景替换、草图变成图 |
| inpainting | 修复、替换局部区域 |
| outpainting | 扩展画面 |
| control conditioning | 按姿态、边缘、深度、布局生成 |
| personalization | 品牌风格、产品图、角色一致性 |
3. Latent Diffusion 的架构意义
在像素空间生成很贵。Latent Diffusion 的思路:
image -> encoder -> latent
diffusion in latent space
latent -> decoder -> image
好处:
- 在压缩空间里采样,计算更便宜。
- 可以生成更高分辨率图像。
- 更适合产品级部署和迭代。
代价:
- autoencoder 压缩可能丢细节。
- 文本与图像对齐仍受训练数据影响。
- 输出安全和版权仍需系统控制。
4. Classifier-Free Guidance
Classifier-free guidance 用一个参数控制“更听 prompt”还是“更多样”。
直觉:
| Guidance 低 | Guidance 高 |
|---|---|
| 多样、开放 | 更贴 prompt |
| 可能不够准确 | 可能过度饱和、失真 |
| 探索好 | 交付可控好 |
产品设计含义:
- 创意探索可以给更宽参数。
- 品牌合规素材需要更严格 prompt、negative prompt 和模板。
- 高风险场景不应让用户直接控制所有生成参数。
5. 生成式媒体产品架构
User intent / brief
-> prompt template / policy
-> model + conditioning
-> generation
-> safety classifier
-> brand / copyright / PII review
-> human approval
-> asset registry
-> publishing / workflow
-> feedback and eval
关键组件
| Component | 责任 |
|---|---|
| prompt policy | 禁止内容、品牌语言、产品 claims |
| asset source registry | 产品图、logo、授权素材、风格参考 |
| generation service | text-to-image / edit / variation |
| safety filter | 暴力、成人、仇恨、隐私、欺骗性内容 |
| brand checker | logo、色彩、风格、免责声明 |
| rights management | 版权、授权、来源、训练/输入使用边界 |
| human approval | 上线前复核 |
| audit trail | prompt、model、seed、input asset、输出版本 |
6. 金融零售案例
6.1 Retail Marketing Creative Studio
用途:
- 商品场景图。
- 节日海报。
- 社媒素材。
- 店内培训插图。
控制:
- 价格、促销、库存、金融条款必须来自系统。
- AI 只生成视觉素材,不编造 offer。
- 品牌和版权审核必须在发布前。
6.2 Financial Education Content
用途:
- 风险教育插图。
- 反欺诈宣传。
- App onboarding 图。
控制:
- 不生成误导性收益暗示。
- 不使用真实客户肖像或敏感场景。
- 法务/合规审查话术和图文搭配。
6.3 Claims / Evidence Handling
在理赔、争议、欺诈或 KYC 中,生成式图像要格外谨慎:
- 不应生成或修改证据图片。
- 图像增强必须保留原始证据和处理日志。
- 任何合成图片必须明确标记。
7. 风险与治理
| 风险 | 例子 | 控制 |
|---|---|---|
| 虚假宣传 | 生成不存在的产品功能 | offer API + brand/legal review |
| 版权/授权 | 使用无权参考图 | asset registry + license metadata |
| PII / 肖像 | 生成或暴露真实客户 | redaction + no customer likeness |
| 欺骗性内容 | 合成证据或误导图 | watermark / provenance / policy |
| 偏见和刻板印象 | 特定群体呈现不当 | slice review + prompt policy |
| 品牌不一致 | 色彩、logo、语气错误 | brand checker + human approval |
| 安全绕过 | prompt 规避过滤 | adversarial prompts + moderation |
8. Eval 设计
生成图像 eval 不能只看“好不好看”。
| Eval type | 问题 |
|---|---|
| prompt adherence | 是否符合 brief |
| factual/product correctness | 是否编造产品、价格、条款 |
| brand compliance | 是否符合品牌标准 |
| safety | 是否包含禁止内容 |
| rights | 输入和输出是否有授权证据 |
| diversity/fairness | 人群和场景是否存在偏差 |
| workflow value | 是否减少创意迭代时间 |
| human approval | 审核通过率和修改原因 |
指标
| Metric | Definition |
|---|---|
| approved asset rate | 人审通过的生成素材比例 |
| revision rounds | 到可发布资产的迭代次数 |
| unsafe output rate | 安全分类 fail |
| product claim violation | 虚构产品/价格/承诺 |
| brand deviation rate | 品牌审核 fail |
| rights exception rate | 授权或来源缺失 |
| time-to-asset | 从 brief 到可用素材时间 |
9. Product Strategy
| 产品形态 | 适合 | 风险 |
|---|---|---|
| internal creative assistant | 内部营销/培训素材 | 品牌和版权可控 |
| customer-facing generator | 用户生成头像、卡面、海报 | 安全和滥用风险高 |
| evidence image tool | 理赔/争议/合规证据处理 | 极高风险,禁止生成证据 |
| product visualization | 零售商品场景和搭配 | 商品真实性和库存风险 |
| education content studio | 金融安全教育 | 合规话术和误导性风险 |
建议:
金融零售先做内部受控创意和教育场景,再考虑客户可见生成;高风险证据场景只做查看、增强和标注,不做生成或替换。
10. 作品集输出
| Artifact | 内容 |
|---|---|
| Generative Media Product Policy | 允许/禁止内容、品牌、版权、客户数据边界 |
| Architecture ADR | text-to-image / edit / control / review workflow |
| Asset Governance Register | 输入素材、授权、来源、输出版本 |
| Safety Eval Pack | prompt adherence、brand、rights、safety、bias |
| Human Review Workflow | 审批、修改、发布、撤回 |
| Retail Marketing Case Study | 内部 creative studio 的 ROI 和风险控制 |
11. 面试表达
30 秒版本
Diffusion 从噪声逐步去噪生成图片,Latent Diffusion 在压缩 latent space 中生成以降低成本。产品上它适合创意、营销、教育和图像编辑,但金融零售必须控制品牌、版权、虚假宣传、PII 和人工审批。
2 分钟版本
DDPM 的思想是训练模型预测噪声,生成时从随机噪声逐步去噪。Latent Diffusion 把这个过程放到图像 latent space,使高分辨率生成更经济。对 AI PM/架构师来说,关键不是会写 prompt,而是设计生成式媒体工作流: brief、prompt template、素材授权、模型生成、安全过滤、品牌审核、人审、资产登记和发布审计。金融零售里 AI 可以帮助生成教育插图和营销素材,但不能编造金融 offer,也不能生成或修改证据图片。
CTO 深挖
我会把生成式媒体能力放进受控 asset pipeline。每个输出记录 prompt、model、seed、input asset、license、reviewer、approval 和发布位置;上线前跑 safety、brand、rights 和 product-claim eval。高风险场景默认 human approval,不允许自动发布。
12. 复习问题
- Diffusion 的前向加噪和反向去噪如何理解?
- Latent Diffusion 为什么能降低成本?
- Guidance scale 对产品体验有什么影响?
- 生成式图像产品为什么需要 asset registry?
- 金融营销素材中最重要的合规风险是什么?
- 为什么证据图片场景不应使用生成式替换?
- 如何设计生成式媒体的安全和品牌 eval?