要做ANOVA，样本量多大才够用？

2024-04-21 12:08| 来源: 网络整理| 查看: 265

我们之前在《》里面讲到了样本量主要由三个因素决定：统计功效，效应大小还有显著性水平。这不仅在t检验里面成立，在ANOVA里面也一样成立。

同样与t检验类似的是，如果给定统计功效（一般情况下设为0.8），如果所研究因素的效应越大，需要的最小样本量就越小。为了能够客观地描述效应大小，我们希望效应即能够反应组与组之间的差距大小，又能够考虑到数据本身“噪声”的大小，于是在《》里面引入来Cohen氏 d值来作为效应大小的度量，其定义为：

Cohen氏 d值是用测量的平均值与总体平均值的差值，与总体的标准差的比值。这样做的好处是如果把测量单位从cm变成m，或者从斤变成公斤，并不会改变效应的大小。

ANOVA要解决的是对比多组数据与其总体的平均值是否相等的问题，如果直接套用Cohen氏 d值，那我们便不知道取哪一组数据的平均值与总体平均值作比较，这时该怎么办呢？幸好，Cohen氏d值还有一个失散多年的兄弟，叫做Cohen氏 f 值，专门用来测量ANOVA的效应大小。

回到效应的最初定义，也就是测量组与组之间的差距相对数据本身“噪声”的大小，我们会发现组与组之间的差距似乎与ANOVA里面计算的组间平方和成正比，而所谓的噪声似乎与组内平方和成正比。ANOVA的效应大小可不可以就用组间平方和与组内平方和的比值表示呢？事实上，这一比值再开方便称为Cohen氏 f 值：

不难发现Cohen氏 f 值与他的兄弟d值一样，也不依赖于测量单位，或者说将所有的数据都放大或缩小一定的倍数并不会改变它的大小。Cohen氏 f值越大，效应也就越大，Cohen本人在提出f值的时候也将其大约分成了小中大三个区间，在单因素ANOVA检验中，小效应对应f值在0.1左右，中效应对应的f值在0.25左右，大效应在0.4左右。

另外一个常被用来代表ANOVA效应大小的统计量是。它等于组间平方和与总平方和的比值:

越大，效应也越大。细心的读者不难发现，与Cohen氏 f值其实是可以相互转化的，它们的关系如下：

可以看到用表示的效应在数值上会小于Cohen氏 f值，不同的统计学软件在输出ANOVA结果的时候会用不同的统计量来表示ANOVA效应大小，大家使用的时候要注意区分。

这一集主要是教会大家怎样估计ANOVA 检验需要的样本量，为什么要费这么多力气讲如何衡量ANOVA的效应大小呢？主要是因为样本量，统计功效，效应大小还有显著性水平这四个量知道其中三个就可以推导出第四个。

在计算实验需要的样本量的时候，我们必须要输入其它三个参数的值。现实是实验还没有做，效应大小如何知道呢？前面讲t检验的时候，我们就遇到了一样的问题，解决的方法一般是通过小规模的试点实验来估计效应大小，或是参考类似研究的效应大小。而统计功效和显著性水平按照惯例一般设为0.8和0.05，我们在《》解释过这两个看似随意取的数值背后也有一定的合理性。

有了统计功效，效应大小，显著性水平三个参数的值，我们便可以用之前推荐过的免费功效分析软件G*Power（或者其他具有功效分析功能或模块的统计学软件）来确定样本量。在G*Power中，ANOVA与t 检验的区别主要是test family要选择f tests，在最常见的单因素ANOVA情况下statistical tests要选择ANOVA：fixed effects, omnibus, one-way，多因素的情况大家如有需要可以参阅G*Power用户手册，或者在本文下方留言，我们会很乐意解答。

我们在计算ANOVA的效应的时候，还要考虑到实验设计的形式。之前在讲重复测量ANOVA时提到，如果在同样一组个体进行多次测量（不同时间或者不同实验条件），在计算误差项的时候会扣掉个体间的差异导致的数据波动，参考《听说，成对t检验还有进阶版？》《重复测量ANOVA：你知道的事儿都在这里啦》。

计算重复测量ANOVA的效应大小，我们同样也要考虑到个体间的差异。在计算数据本身的噪声的时候，要从组内平方和里面扣掉个体间平方和，这时，衡量效应大小的Cohen氏 f值表达式如下：

对比重复测量ANOVA和不考虑重复测量结构ANOVA，我们可以看到前者得到的效应会大一些，也就是说获得同样的统计功效，前者所需要的样本数量更小。

当我们设计实验的时候，为了有更高的统计功效，减少实验所需的样本量，要尽可能地利用重复测量的设计。比如我们在研究小鼠的体重是否随年龄变化，我们需要在三个月，四个月，五个月三个时间点测量小鼠的体重。实验方案一，从同样的10只小鼠身上在这三个时间点分别获得体重数据，共需要10只鼠；实验方案二，每个时间点采集10只小鼠的数据，但是不同时间点采集的并不是同一批小鼠的体重，共需要30只鼠。方案一不仅用到的鼠的数量更少，而且得到的统计功效反而更高，所以会更优。

当然，并不是所有的实验都适合重复测量的设计，选择实验方案最终还是要看能不能准确地验证假说。在确定了实验设计之后，提前做好功效分析确定样本量，就是为实验结果的可信度做好了保障，在得到数据之后不管结果是显著的还是不显著的，都是统计学上可信的结果，能够成为人类知识大厦的一块坚实砖瓦啦！

五年执医三年模拟

精选每日一题

更多精选题可回顾历史推送文末

26岁，经产妇。停经8周，下腹阵发性剧烈疼痛10小时伴多量阴道流血，超过月经量。检查宫口开大近2cm。

题目来源：临床执业医师资格考试往届真题

本期主播：冬日暖阳返回搜狐，查看更多

【本文地址】

公司简介

联系我们