扩散模型 (Diffusion Model) 之最全详解图解 | 您所在的位置:网站首页 › 什么叫仿真模型图片 › 扩散模型 (Diffusion Model) 之最全详解图解 |
目前最近在 AI 作画这个领域 Transformer 火的一塌糊涂,AI 画画效果从 18 年的 DeepDream噩梦中惊醒过来,开始从 2022 年 OpenAI 的 DALL·E 2[2] 引来插画效果和联想效果都达到惊人效果。 扩散模型(Diffusion Models)发表以来其实并没有收到太多的关注,因为他不像 GAN 那样简单粗暴好理解。不过最近这几年正在生成模型领域异军突起,当前最先进的两个文本生成图像——OpenAI 的 DALL·E 2 和 Google 的 Imagen,都是基于扩散模型来完成的。
看了下网上很多文章在介绍 DDPM 时,上来就引入概率转移分布,接着就是变分推断,然后极大值似然求解和引入证据下界(Evidence Lower Bound)。一堆数学记号下来,先吓跑了前几周的我(当然,从这种介绍我们可以再次看出,DDPM 实际上与 VAE 的理论关系是非常紧密),再加之人们对传统扩散模型的固有印象,所以就形成了 “需要很高深的数学知识” 的错觉。 2.生成模型对比还是先横向对一下最近比较火的几个生成模型 GAN、VAE、Flow-based Models、Diffusion Models。 GAN 由一个生成器(generator)和判别器(discriminator)组成,generator 负责生成逼真数据以 “骗” 过 discriminator,而 discriminator 负责判断一个样本是真实的还是 “造” 出来的。GAN 的训练其实就是两个模型在相互学习,能不能不叫“对抗”,和谐一点。 VAE 同样希望训练一个生成模型 ,这个模型能够将采样后的概率分布映射到训练集的概率分布。生成隐变量 z,并且 z是及含有数据信息又含有噪声,除了还原输入的样本数据以外,还可以用于生成新的数据。 总的来看,Diffusion Models 领域正处于一个百花齐放的状态,这个领域有一点像 GAN 刚提出来的时候,目前的训练技术让 Diffusion Models 直接跨越了 GAN 领域调模型的阶段,直接可以用来做下游任务。 3.直观理解Diffusion model生成式模型本质上是一组概率分布。如下图所示,左边是一个训练数据集,里面所有的数据都是从某个数据 中独立同分布取出的随机样本。右边就是其生成式模型(概率分布),在这种概率分布中,找出一个分布Pθ使得它离Pdata的距离最近。接着在 上采新的样本,可以获得源源不断的新数据。 Diffusion做的是什么事呢? 我们可以将任意分布,当然也包括我们感兴趣的Pdata,不断加噪声,使得他最终变成一个纯噪声分布N(0,I)。怎么理解呢? 从概率分布的角度来看,考虑下图瑞士卷形状的二维联合概率分布P(x,y),扩散过程q非常直观,本来集中有序的样本点,受到噪声的扰动,向外扩散,最终变成一个完全无序的噪声分布。 而从单个图像样本来看这个过程,扩散过程q就是不断往图像上加噪声直到图像变成一个纯噪声,逆扩散过程P就是从纯噪声生成一张图像的过程。 如图所示:单个图像样本的变化 Diffusion Models 既然叫生成模型,这意味着 Diffusion Models 用于生成与训练数据相似的数据。从根本上说,Diffusion Models 的工作原理,是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程,来学习恢复数据。 训练后,可以使用 Diffusion Models 将随机采样的噪声传入模型中,通过学习去噪过程来生成数据。也就是下面图中所对应的基本原理,不过这里面的图仍然有点粗。 ![]() 最终,从 x0输入的真实图像,经过 Diffusion Models 后被渐近变换为纯高斯噪声的图片 xT 。模型训练主要集中在逆扩散过程。训练扩散模型的目标是,学习正向的反过程:即训练概率分布 上面已经清晰表示了 Diffusion Models 由正向过程(或扩散过程)和反向过程(或逆扩散过程)组成,其中输入数据逐渐被噪声化,然后噪声被转换回源目标分布的样本。 接下来会是一点点数学,只能说我尽量讲得简单一点,就是个马尔可夫链 + 条件概率分布。核心在于如何使用神经网络模型,来求解马尔可夫过程的概率分布。 5.1 Diffusion 前向过程(扩散过程)ChatGPT的训练数据是基于互联网世界海量文本数据的,如果这些文本数据本身不准确或者带有某种偏见,目前的ChatGPT是无法进行分辨的,因此在回答问题的时候会不可避免的将这种不准确以及偏见传递出来。
用户在使用ChatGPT时会输入信息,由于ChatGPT强大的功能,一些员工使用ChatGPT辅助其工作,这引起了公司对于商业秘密泄露的担忧。因为输入的信息可能会被用作ChatGPT进一步迭代的训练数据。 https://zhuanlan.zhihu.com/p/549623622 https://zhuanlan.zhihu.com/p/449284962 https://zhuanlan.zhihu.com/p/532736667 https://zhuanlan.zhihu.com/p/525106459 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ Denoising Diffusion Probabilistic Models Diffusion Models Beat GANs on Image Synthesis Deep Unsupervised Learning using Nonequilibrium Thermodynamics Generative Modeling by Estimating Gradients of the Data Distribution Denoising Diffusion Probabilistic Models 7.欢迎大家加入专栏【人工智能算法前沿】 该专栏涵盖了计算机视觉,自然语言处理,机器学习等人工智能相关领域; 该专栏将会详细全面的讲解各个领域热点算法原理,并将手把手从零复现论文代码 |
CopyRight 2018-2019 实验室设备网 版权所有 |