要理解置信度,就要理解好置信区间。
要理解置信区间,就要从统计学最基本最核心的思想去思考,那就是
用样本估计总体。
在统计学中,非常容易把概念模糊化,很容易把95%置信区间理解成为在这个区间内有95%的概率包含真值。
但是这里有两个容易混淆的地方
1.真值只得是样本参数还是总体参数?
这个问题的答案是总体参数,我们取的数据是样本数据,点估计是样本参数的真实值,我们要估计总体参数。
2.95%的概率,变动的是谁?
在以后不常温习的情况下,这个问题容易造成困扰。这里95%的概率,变动的是置信区间。非常难以理解,用图来阐述一下:
;amp;lt;img data-rawheight=;3508; data-rawwidth=;2480; src=;https://i-blog.csdnimg.cn/blog_migrate/5837f54f03a03d6d57d8d8b3657bf7ea.jpeg; class=;origin_image zh-lightbox-thumb; width=;2480; data-original=;https://pic3.zhimg.com/ad6b8118232d8e702c28ed52b68f0776_r.jpg;;amp;gt;
错误理解:上图浅色的虚的竖直线代表样本参数真值,横的两端有端点的代表95%置信度的置信区间,100条竖直线里有95条左右落入这个区间内。 这是非常错误的理解,样本与总体的关系没有思考清楚。置信区间是估测总体参数的真值,这个值只有一个,且不会变动。 下图为正确理解:
;amp;lt;img data-rawheight=;3508; data-rawwidth=;2480; src=;https://i-blog.csdnimg.cn/blog_migrate/dff627a56baf1196f476d1fb6aed2cf7.jpeg; class=;origin_image zh-lightbox-thumb; width=;2480; data-original=;https://pic1.zhimg.com/eab7e81a9a00080c6658d0ff2ac2e7ac_r.jpg;;amp;gt;
样本数目不变的情况下,做一百次试验,有95个置信区间包含了总体真值。置信度为95% 其中大虚线表示总体参数真值,是我们所不知道的想要估计的值。正因为在100个置信区间里有95个置信区间包括了真实值,所以当我们只做了一次置信区间时,我们也认为这个区间是可信的,是包含了总体参数真实值的。 这样应该就能很好地理解了,遇到统计上的困惑时,多思考
用样本估计总体这个核心思想,很多就能迎刃而解。
|