非参数统计分析

2024-06-17 13:25| 来源: 网络整理| 查看: 265

实验内容及要求

利用观测数据计算总体分位数、对称中心和位置差的点估计，区间估计；利用R软件自带程序或自编程序完成中位数的符号检验，两总体比较的Wilcoxon秩和检验和K-S检验，独立性与随机性的卡方检验和Fisher列联表检验，相关性秩检验与协同性检验以及多总体比较的秩和检验和卡方检验；制作数据经验分布函数、概率密度图像，使用分布拟合方法解决总体类型的检验问题；通过最小二乘与权函数结合使用的方法解决非线性回归问题；

本文中国运动员获世界冠军实验项目数据来源于国家数据网站：

http://data.stats.gov.cn/easyquery.htm?cn=C01

实验项目一

项目一收集1999年至2017年中国运动员获世界冠军的项数（单位：项）和人数（单位：人）。

年份

获世界冠军项数

获世界冠军人数

男子世界冠军人数

女子世界冠军人数

1999年

129

2000年

109

2001年

138

2002年

123

2003年

2004年

175

2005年

159

2006年

169

2007年

217

123

2008年

151

2009年

223

2010年

180

2011年

198

2012年

140

2013年

164

2014年

206

2015年

214

2016年

154

2017年

248

(1)计算其中运动员获世界冠军人数(人)的总体分位数如下：

$人数排序

94 109 123 129 138 140 151 154 159 164 169 175 180 198 206 214 217 223

248

$五数总括

94 139 164 202 248

$分位数

0% 25% 50% 75% 100%

94 139 164 202 248

(2) 计算其中运动员获世界冠军人数(人)的对称中心的点估计、区间估计：

点估计：

$均值

[1] 37.52632

$截尾均值

[1] 167.9474

区间估计：求出置信度为0.9的置信区间

$数据位置

[1] "( 5 , 15 )"

$区间估计

[1] "[ 22 , 30 ]"

(3)设运动员获世界冠军项数(项)和运动员获世界冠军人数(人)这两个简单样本分别取自总体Y和X，假定，试用样本均值差作的估计。

样本均值易受异常值影响，但是中位数不会，因此对于本样本同时采用中位数来作为位置差的点估计。

$样本均值之差

[1] 130.4211

$样本中位数之差

[1] 140

位置差的HL区间估计：

$中位数

[1] 131

$上下界位置

[1] "114" "248"

$`95%置信区间`

[1] "[ 107 , 152 ]

实验项目二

(1) 中位数的符号检验

检验1999年至2017年期间，运动员获世界冠军人数(人)的中位数是否为155？()

中为负数的个数，则的拒绝域为

根据公式

由观测值得到Y的值，若则接受，否则拒绝。

运动员获世界冠军人数(人)

P值

0.6476059

由于p值大于0.05，检验的结论是接受原假设，认为运动员获世界冠军人数(人)的中位数应该为155。

(2)两总体比较的Wilcoxon秩和检验

运动员获世界冠军男女人数是否存在显著差异？()

拒绝域为：

通过软件计算出：

$r1

[1] 88

$r2

[1] 152

$是否落入拒绝域

[1] FALSE

则得到结论：运动员获世界冠军男女人数存在显著差异。

(3) 两总体比较的K-S检验

设男子世界冠军人数来自分布为F(x)的总体女子世界冠军人数来自分布为Gx)的总体，检验这两个分布是否相同，即原假设为：

计算结果如下：

Two-sample Kolmogorov-Smirnov test

data: x and y

D = 0.33846, p-value = 0.5366

alternative hypothesis: two-sided

由于p值=0.5366>0.05，故接受原假设，即认为F(x)和G(x)这两个分布函数相同。

(4)卡方独立性检验

本案例数据来源于百度文库。

在遇到车祸的情况下，乘客系安全带与没系安全带时受到的冲击力的数据如下：

受伤情况

无

轻微

较重

严重

合计

安全带系

12813

647

359

13861

安全带没系

65963

4000

2642

303

72908

合计

78776

4647

3001

345

86769

各因子之间是否是独立的？

计算结果如下：

Pearson's Chi-squared test

data: rbind(yesbelt, nobelt)

X-squared = 59.224, df = 3, p-value = 8.61e-13

其中p值=8.61e-13 0.05，故接受原假设，认为每组间的学生的学习无显著差异。

实验项目三

(1)制作数据经验分布函数,使用分布拟合方法解决总体类型的检验问题

本例给出15名学生的体重数据（单位：kg）

75.0

64.0

47.4

66.9

62.2

58.7

63.5

66.6

64.0

57.0

69.0

56.9

50.0

72.0

绘制出15名学生体重的经验分布图和相应的正态分布图：

绘制出的经验分布图和正态分布曲线：

将学生体重进行排序得：

47.4 50.0 56.9 57.0 58.7 62.2 62.2 63.5 64.0 64.0 66.6 66.9 69.0 72.0 75.0

求得经验分布函数为：

(2) 概率密度图像，使用分布拟合方法解决总体类型的检验问题

绘制出直方图和密度估计曲线和正态分布的概率密度曲线：

通过上图，可以明显看出密度估计曲线和正态分布的概率密度曲线还是有一定的差别的。

实验项目四

通过最小二乘与权函数结合使用的方法解决非线性回归问题

本案例数据来自课后习题

1.一只红铃虫的产卵数与温度有关。下表是产卵数Y与温度X的一组数据，试研究Y与X的回归关系。

编号

温度x

产卵数y

115

325

绘制出散点图：

线性拟合

残差

权函数估计

混合估计

50.91986

-43.919861

63.06620

-52.066202

75.21254

-54.212544

97.787456

173

87.35889

-63.358885

99.50523

-33.505226

115

117.72474

-2.724739

115

325

75.21254

249.787456

97.787456

173

解得回归直线方程为：

附录

#非参数统计

data1

s1=ppois(i-1,n*p);

s2=ppois(i,n*p); #s1+dpois(i,n*p)

if(s1(1-alpha)/2) break

}

for(j in n:1){

s3=1-ppois(j,n*p);

s4=1-ppois(j-1,n*p); #s3+dpois(j,n*p)

if(s3(1-alpha)/2) break

}

【本文地址】

公司简介

联系我们