非参数统计分析 | 您所在的位置:网站首页 › 非参数方法与参数方法对比 › 非参数统计分析 |
实验内容及要求 利用观测数据计算总体分位数、对称中心和位置差的点估计,区间估计;利用R软件自带程序或自编程序完成中位数的符号检验,两总体比较的Wilcoxon秩和检验和K-S检验,独立性与随机性的卡方检验和Fisher列联表检验,相关性秩检验与协同性检验以及多总体比较的秩和检验和卡方检验;制作数据经验分布函数、概率密度图像,使用分布拟合方法解决总体类型的检验问题;通过最小二乘与权函数结合使用的方法解决非线性回归问题;
本文中国运动员获世界冠军实验项目数据来源于国家数据网站: http://data.stats.gov.cn/easyquery.htm?cn=C01 实验项目一 项目一收集1999年至2017年中国运动员获世界冠军的项数(单位:项)和人数(单位:人)。
年份 获世界冠军项数 获世界冠军人数 男子世界冠军人数 女子世界冠军人数 1999年 91 129 57 72 2000年 92 109 49 60 2001年 79 138 61 77 2002年 99 123 42 81 2003年 17 94 31 63 2004年 27 175 77 98 2005年 22 159 70 89 2006年 24 169 82 87 2007年 22 217 94 123 2008年 24 151 68 83 2009年 30 223 89
2010年 22 180 99
2011年 24 198 96
2012年 24 140
2013年 22 164
2014年 22 206
2015年 25 214
2016年 23 154
2017年 24 248
(1)计算其中运动员获世界冠军人数(人)的总体分位数如下: $人数排序 94 109 123 129 138 140 151 154 159 164 169 175 180 198 206 214 217 223 248
$五数总括 94 139 164 202 248
$分位数 0% 25% 50% 75% 100% 94 139 164 202 248
(2) 计算其中运动员获世界冠军人数(人)的对称中心的点估计、区间估计: 点估计: $均值 [1] 37.52632
$截尾均值 [1] 167.9474
区间估计:求出置信度为0.9的置信区间 $数据位置 [1] "( 5 , 15 )"
$区间估计 [1] "[ 22 , 30 ]" (3)设运动员获世界冠军项数(项)和运动员获世界冠军人数(人)这两个简单样本分别取自总体Y和X,假定,试用样本均值差作的估计。
样本均值易受异常值影响,但是中位数不会,因此对于本样本同时采用中位数来作为位置差的点估计。
$样本均值之差 [1] 130.4211
$样本中位数之差 [1] 140
位置差的HL区间估计:
$中位数 [1] 131
$上下界位置 [1] "114" "248"
$`95%置信区间` [1] "[ 107 , 152 ] 实验项目二 (1) 中位数的符号检验 检验1999年至2017年期间,运动员获世界冠军人数(人)的中位数是否为155?()
中为负数的个数,则的拒绝域为
根据公式
由观测值得到Y的值,若则接受,否则拒绝。
运动员获世界冠军人数(人) P值 0.6476059
由于p值大于0.05,检验的结论是接受原假设,认为运动员获世界冠军人数(人)的中位数应该为155。
(2)两总体比较的Wilcoxon秩和检验
运动员获世界冠军男女人数是否存在显著差异?()
拒绝域为: 通过软件计算出: $r1 [1] 88
$r2 [1] 152
$是否落入拒绝域 [1] FALSE 则得到结论:运动员获世界冠军男女人数存在显著差异。 (3) 两总体比较的K-S检验 设男子世界冠军人数来自分布为F(x)的总体女子世界冠军人数来自分布为Gx)的总体,检验这两个分布是否相同,即原假设为:
计算结果如下: Two-sample Kolmogorov-Smirnov test
data: x and y D = 0.33846, p-value = 0.5366 alternative hypothesis: two-sided
由于p值=0.5366>0.05,故接受原假设,即认为F(x)和G(x)这两个分布函数相同。 (4)卡方独立性检验 本案例数据来源于百度文库。 在遇到车祸的情况下,乘客系安全带与没系安全带时受到的冲击力的数据如下:
受伤情况 无 轻微 较重 严重 合计 安全带系 12813 647 359 42 13861 安全带没系 65963 4000 2642 303 72908 合计 78776 4647 3001 345 86769
各因子之间是否是独立的?
计算结果如下: Pearson's Chi-squared test
data: rbind(yesbelt, nobelt) X-squared = 59.224, df = 3, p-value = 8.61e-13
其中p值=8.61e-13 0.05,故接受原假设,认为每组间的学生的学习无显著差异。
实验项目三 (1)制作数据经验分布函数,使用分布拟合方法解决总体类型的检验问题 本例给出15名学生的体重数据(单位:kg) 75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64.0 57.0 69.0 56.9 50.0 72.0 绘制出15名学生体重的经验分布图和相应的正态分布图: 绘制出的经验分布图和正态分布曲线:
将学生体重进行排序得: 47.4 50.0 56.9 57.0 58.7 62.2 62.2 63.5 64.0 64.0 66.6 66.9 69.0 72.0 75.0
求得经验分布函数为:
(2) 概率密度图像,使用分布拟合方法解决总体类型的检验问题 绘制出直方图和密度估计曲线和正态分布的概率密度曲线:
通过上图,可以明显看出密度估计曲线和正态分布的概率密度曲线还是有一定的差别的。
实验项目四 通过最小二乘与权函数结合使用的方法解决非线性回归问题 本案例数据来自课后习题 1.一只红铃虫的产卵数与温度有关。下表是产卵数Y与温度X的一组数据,试研究Y与X的回归关系。 编号 1 2 3 4 5 6 7 温度x 21 23 25 27 29 32 25 产卵数y 7 11 21 24 66 115 325
绘制出散点图:
X Y 线性拟合 残差 权函数估计 混合估计 21 7 50.91986 -43.919861 -43.919861 7 23 11 63.06620 -52.066202 -52.066202 11 25 21 75.21254 -54.212544 97.787456 173 27 24 87.35889 -63.358885 -63.358885 24 29 66 99.50523 -33.505226 -33.505226 66 32 115 117.72474 -2.724739 -2.724739 115 25 325 75.21254 249.787456 97.787456 173
解得回归直线方程为:
附录 #非参数统计 #1 data1 s1=ppois(i-1,n*p); s2=ppois(i,n*p); #s1+dpois(i,n*p) if(s1(1-alpha)/2) break } for(j in n:1){ s3=1-ppois(j,n*p); s4=1-ppois(j-1,n*p); #s3+dpois(j,n*p) if(s3(1-alpha)/2) break } dp nn a |
CopyRight 2018-2019 实验室设备网 版权所有 |