机器学习中的独立同分布（I.I.D.）假设

2024-06-06 11:40| 来源: 网络整理| 查看: 265

随机过程简介

随机过程的本质有两个要点：

一是随机，随机说明任何时候结果都存在不确定性，即分布函数（或者概率密度函数）

二是过程，过程体现的是时间；在时间t时，随机变量服从某一分布，另一时刻随机变量服从某一分布；

如图所示：（随机过程中的所有随机变量服从高斯分布，就是高斯过程，泊松过程同理）

独立同分布的定义

独立同分布是指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布

如果随机变量 X1 和 X2 独立，是指 X1 的取值不影响 X2 的取值，X2 的取值也不影响 X1 的取值，且随机变量 X1 和 X2 服从同一分布，这意味着X1和X2具有相同的分布形状和相同的分布参数，对离随机变量具有相同的分布律，对连续随机变量具有相同的概率密度函数，有着相同的分布函数，相同的期望、方差

例如，实验条件保持不变，那么一系列的抛硬币的正反面结果是独立同分布

机器学习为什么往往需要有独立同分布假设

机器学习就是利用当前获取到的数据进行训练学习，用以对未来的数据进行预测、模拟。所以都是建立在历史数据之上，采用模型去拟合未来的数据。因此需要我们使用的历史数据具有总体的代表性

我们要从已有的数据（经验）中总结出规律来对未知数据做决策，如果获取训练数据是不具有总体代表性的，就是特例的情况，那规律就会总结得不好或是错误，因为这些规律是由个例推算的，不具有推广的效果

通过独立同分布的假设，就可以大大减小训练样本中个例的情形

机器学习并不总是要求数据同分布。在不少问题中要求样本（数据）采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集，使用同分布假设能够使得这个做法解释得通。由于现在的机器学习方向的内容已经变得比较广，存在不少机器学习问题并不要求样本同分布，比如一些发表在机器学习方向上的online算法就对数据分布没啥要求，关心的性质也非泛化性

【本文地址】

公司简介

联系我们