“一个宇航员在月球上骑马。”
当我们在AI工具中输入这样一句话,模型如何一步步“理解”这些词语,并最终“创作”出符合我们期待的视频画面?
今天这篇文章,我将结合我最近观看的一支极为精彩的视频(原视频链接),系统梳理扩散模型(Diffusion Models)背后的原理,并解析它如何将自然语言、物理学思想与深度学习模型巧妙融合,构建出令人惊艳的生成式AI系统。
一、扩散模型的本质:逆向建构的创世工程
1.1 高维空间中的“图像粒子”
我们熟悉的一张图像,其实可以被看作是高维空间中的一个点。比如,一张 128x128 的 RGB 图像,本质上就是一个 49,152 维的向量。所有真实图像的集合构成了一个极小、但结构复杂的“数据流形(Data Manifold)”。
1.2 正向过程:从有序走向混沌
扩散模型的第一步,叫 前向过程(Forward Process) ,它会将图像逐步加噪,直到变成纯高斯噪声。
类比:好比把墨水滴入清水中,墨水粒子慢慢扩散,图像信息逐渐“消失”。
数学上,这一过程是 完全可建模 的。我们可以精准计算任意加噪步骤 t 时的分布 x_t | x_0 。
1.3 逆向过程:从噪声中“雕刻”真实
真正让人惊艳的是 逆向过程(Reverse Process) :模型从一个随机噪声出发,逐步“去噪”,最终还原出一张或一段与提示相符的图像/视频。
每一步的关键是预测出“这一步添加了多少噪声”,并将其从当前图像中减去。
整个过程类似于在高维空间中,从混沌的一点“逆向漫步”,最终落回那个有意义的图像子空间。
二、关键技术组件:将语言转化为引导力量
2.1 CLIP:让AI听得懂人话
CLIP 是连接文本与图像世界的“桥梁”,由 OpenAI 提出,通过对比学习训练而成。
- 训练目标:使配对的图文距离更近,不相关的距离更远。
- 嵌入空间:训练完成后,无论是图像还是文本,都可以被编码为高维向量,且 语义相近 → 向量相近 。
- 意义:它让我们能用一句话,引导模型从无尽的图像空间中选出我们想要的那一类。
2.2 DDPM 与 DDIM:速度与质量的权衡
🌀 DDPM(Denoising Diffusion Probabilistic Models)
- 每一步生成都遵循一个 随机分布 ,会再添加一部分噪声,生成过程接近“漫步”。
- 优点:图像质量极高。
- 缺点:太慢,往往要迭代 1000 步。
⚡ DDIM(Denoising Diffusion Implicit Models)
- 引入了 确定性的生成路径 ,不再在每步添加新噪声。
- 优点:可以使用更大步长,只需几十步即可完成生成,速度提升巨大。
- 影响:这是实际部署生成模型(如图片/视频生成器)不可或缺的技术优化。
三、Classifier-Free Guidance:精准控制生成内容的“魔法引导”
这部分内容号称整支视频中最精彩的一段,它解释了一个重要的技巧—— Classifier-Free Guidance(CFG) ,是目前主流图像/视频生成工具如 Midjourney、Runway 等背后的关键策略。
3.1 为什么要“引导”?
即使有了 CLIP 提示,模型生成的内容有时依然会跑偏——“差不多对,但不完全是我想要的”。这就是引导强度不足的问题。
3.2 CFG 的机制:双重人格预测
每一步去噪时,模型会进行两次预测:
- 无条件预测:不看文本提示,凭经验生成。
- 有条件预测:加入提示语(如“一只戴墨镜的猫”)进行预测。
然后计算出两者之间的 引导向量差值 ,并按比例加入到最终的预测中,公式如下:
最终噪声 = 无条件噪声 + CFG系数 × (有条件噪声 - 无条件噪声)
CFG 系数:越大,引导越强;越小,模型越“自由发挥”。
3.3 Bonus:负面提示(Negative Prompting)
进一步优化效果的方式是加入负面提示,如“畸形、低画质、奇怪的手指”等。
- 模型将这些负向特征预测为一个向量。
- 在最终引导中 将其减去 ,从而避免生成这些“错误特征”。
四、全流程整合:从文本到视频的生成逻辑
最后我们把流程串起来,完整复现一次从 prompt 到生成视频的过程:
- 输入提示语 (正面 & 负面)。
- CLIP 编码 为高维语义向量。
- 初始化 为随机噪声视频帧。
- 迭代去噪循环(核心) :
- 每一步都进行无条件、有条件、负面预测。
- 利用 CFG 计算最终去噪向量。
- 更新当前帧。
- 输出结果 :符合语义提示的清晰、高质量视频帧逐步显现。
总结:AI“创世”的工程美学
扩散模型不是简单的黑盒,它是深度融合 概率建模、物理类比、对比学习、神经网络建模 的综合产物。它的美妙之处在于:
- 将复杂的图像数据看作高维空间中的“粒子”。
- 用物理学“扩散-反扩散”的思想驱动生成。
- 通过引导(CFG)机制,在混沌中雕刻出我们想要的秩序。
这就是现代 AI 视频生成背后的工程奇迹。
我们不再只是“调参玩家”,而是一步步拆解技术背后原理,重新建立对生成模型的认知结构。