关于样本标准差（SD）与样本标准误差（SE）

2024-07-02 16:54| 来源: 网络整理| 查看: 265

许多paper里经常能看到Mean±SD（SE）这样的表达方式，或者在图表里用SD或者SE来表示error bar，用SD的居多，但是也有不少用SE的。初学者很容易混淆SD（standard deviation）和SE（standard error）。

SD我们都很清楚，是表达数据的离散程度，然后实际应用中很多数据具有近似正态分布的概率分布，有了SD，我们就可以大致估计数据的范围，譬如经典的"68-95-99.7法则"，即约 68% 数值分布在距离平均值有 1 个标准差之内的范围，约 95% 数值分布在距离平均值有 2 个标准差之内的范围，以及约 99.7% 数值分布在距离平均值有 3 个标准差之内的范围。如下图：

SE是什么呢，一般来说，自然界里很难获得总体数据，我们只能用样本（无论是各种实验还是社会调查抽样）去近似估计总体，这样问题就来了，估计的准不准（平均值）？我们可以理论上这样做，既然不能获得总体，我们可以尽可能多（无限）的从标准差为σ的总体数据里抽取大小为 n 的样本，每个样本各有一个平均值，所有样本平均值的标准差就可以用"68-95-99.7法则"评估准不准了（这就是所谓的置信区间），样本平均值的标准差可以被证明如下公式表达：

但由于通常σ为未知，此时可以用研究中取得样本的标准差 (S) 来估计：

这就是SE的来源，即样本平均值的SD，我们用MATLAB编程演示下。

MATLAB演示

以掷硬币为例，掷100次，统计正面（1）的次数，共统计1000次作为一个sample，然后我们这样采1000个sample（程序不怕累的）。先贴结果，代码放后面。结果如下，我们能看到样本平均值的SD基本等于样本的SE！

完整代码如下：

【本文地址】

公司简介

联系我们