机器学习基础:离散和连续数据 | 您所在的位置:网站首页 › 离散变量和连续变量的举例 › 机器学习基础:离散和连续数据 |
目录 1. 连续的属性 2. 连续变量中的贝叶斯公式 2.1 上述方法的局限 3. 高斯贝叶斯 4. KDE 核密度估计 5. 贝叶斯的种类 1. 连续的属性首先回顾一下朴素贝叶斯的公式: 连续变量中如何求算: 对于连续的属性,我们不能对单个属性值计算概率。比如上面我们得到的概率值全部为。但事实是这样吗?模型是如何感知训练数据的? 通过上图我们发现,数据的分布并不是均匀的,而是在附近出现的频次要明显高于其他频次。那么对于这样的连续数据我们应该用什么样的方法表示他们的概率呢? 通过将连续的变量分入不同的里面,然后用这个中的数据与总体样本数量的比值不就是这个中所有数据的概率值。 可以分不同的,分的很小的时候,就可以模拟连续数据的概率分布了。 2. 连续变量中的贝叶斯公式还是上面天气的例子: 我们现在已经知道如何把 通过分的方式求出来了,根据上图中两种分的方式,我们应该知道,两种分得到的结果完全不一样。具体来说,对于: 分别代表处于几个离散的区间。所以有五种情况,有和两种情况。 ,当给定的条件,温度全部都在内: ,当给定的条件,没有温度在内。 ,当给定的条件,没有温度在内。 ,当给定的条件,只有一条数据符合条件: ,当给定的条件,只有一条数据符合要求: 如果按照下图的方法划分: 则三种情况,有和两种情况。 2.1 上述方法的局限分的方式不同,导致得到的概率分布函数也不同,因此最终的结果也难免存在偏差。 当数据量不大的情况下,可能数据的分布并不能够与数据量大的时候保持一致,换句话说,通过少量数据得到的分布并不具有代表性。 那么常用的解决思路是什么呢? 3. 高斯贝叶斯引入高斯分布来代替连续数据的概率分布。之所以这样做,是因为在很多的自然条件下,随机变量的分布都会趋向于高斯分布。因此高斯分布经常被用在连续变量的分布中作为概率分布的假设。 由一个具有平均值(期望值)和标准差的变量得到观测值的概率。 是一个平均值,标准差,方差的高斯分布。 概率密度函数: 曲线下的面积为。 均值 和标准差如何计算: 一个属性的个样本的均值: 一个属性的个样本的标准差 这里的标准差计算时,分母之所以采用是为了进行无偏估计。 根据这列的数据,我们很容易算出当的条件下均值和标准差分别是: 同样的我们也可以算出的条件下的均值和标准差分别是: 然后我们分别把和的高斯分布画出来如下图所示: 这个图的纵轴代表的是什么呢?代表的是。 例如我们拿到一个我们直接带入和分别的概率分布函数,就能得到在给定和的条件下的。然后我们再乘以先验概率就可以得到预测概率了。那贝叶斯公式里的连乘操作呢?因为我们这个例子只用到了温度一个特征,所以没有和其他属性连乘的操作。 根据最终的结果,我们可以得出结论:22.8℃的时候,不下雨的概率大。 4. KDE 核密度估计并不是所有的概率分布都满足高斯分布: 这种情况下,我们采用 KDE 方法来进行贝叶斯概率计算: 其中,是一个均值为标准差为的标准正态分布。 的核心思想是通过数据学习其中的概率分布,而不是假定一个固定的概率分布进行计算。 假设现在有一个,那么计算过程如下: 将给出的与或者条件下的每一个进行差值计算,每做一次差值得到的值,就在横轴上对应位置放置一个。 这个是手动指定的值, 这样当与所有给定条件的进行计算完成后,得到的所有正态分布就如上图所示 最终按照公式进行叠加,可以得到下图中的红色线,就是真正的概率密度曲线: KDE:内核宽度 KDE有一个参数:高斯的标准偏差("内核带宽")。 参数必须由用户选择。 当指定一个具体的值,例如 这时候我们要求给定条件下的概率分布曲线,我们的。 优势 可以建立任意概率分布模型。没有关于分布形状的假设 (例如高斯分布)。劣势 需要选择一个内核带宽。需要许多参数来表示概率密度函数。 5. 贝叶斯的种类多变量(Multivariate):属性是象征性的,可以取固定数量的任何值。 二项式(或伯努利式)【Binomial (or Bernoulli)】:属性是二进制的。 多变量的特殊情况多项式(Multinomial):属性是对应于频率的自然数。 高斯(Gaussian):属性是数字的,我们可以假设它们来自高斯分布。 核心密度估计(Kernel density estimation):属性是数字,来自一个任意的分布。 |
CopyRight 2018-2019 实验室设备网 版权所有 |