非参数统计分析 您所在的位置:网站首页 非参数方法与参数方法对比 非参数统计分析

非参数统计分析

2024-06-17 13:25| 来源: 网络整理| 查看: 265

实验内容及要求

利用观测数据计算总体分位数、对称中心和位置差的点估计,区间估计;利用R软件自带程序或自编程序完成中位数的符号检验,两总体比较的Wilcoxon秩和检验和K-S检验,独立性与随机性的卡方检验和Fisher列联表检验,相关性秩检验与协同性检验以及多总体比较的秩和检验和卡方检验;制作数据经验分布函数、概率密度图像,使用分布拟合方法解决总体类型的检验问题;通过最小二乘与权函数结合使用的方法解决非线性回归问题;

 

 

本文中国运动员获世界冠军实验项目数据来源于国家数据网站:

http://data.stats.gov.cn/easyquery.htm?cn=C01

实验项目一

项目一收集1999年至2017年中国运动员获世界冠军的项数(单位:项)和人数(单位:人)。

 

 

 

 

 

 

 

 

 

 

年份

获世界冠军项数

获世界冠军人数

男子世界冠军人数

女子世界冠军人数

1999年

91

129

57

72

2000年

92

109

49

60

2001年

79

138

61

77

2002年

99

123

42

81

2003年

17

94

31

63

2004年

27

175

77

98

2005年

22

159

70

89

2006年

24

169

82

87

2007年

22

217

94

123

2008年

24

151

68

83

2009年

30

223

89

 

2010年

22

180

99

 

2011年

24

198

96

 

2012年

24

140

 

 

2013年

22

164

 

 

2014年

22

206

 

 

2015年

25

214

 

 

2016年

23

154

 

 

2017年

24

248

 

 

 

 

 

 

 

 

(1)计算其中运动员获世界冠军人数(人)的总体分位数如下:

$人数排序

94 109 123 129 138 140 151 154 159 164 169 175 180 198 206 214   217 223

248

 

$五数总括

94 139 164 202 248

 

$分位数

  0%  25%  50%  75% 100%

  94  139  164  202  248

 

(2) 计算其中运动员获世界冠军人数(人)的对称中心的点估计、区间估计:

点估计:

$均值

[1] 37.52632

 

$截尾均值

[1] 167.9474

 

区间估计:求出置信度为0.9的置信区间

$数据位置

[1] "( 5 , 15 )"

 

$区间估计

[1] "[ 22 , 30 ]"

(3)设运动员获世界冠军项数(项)和运动员获世界冠军人数(人)这两个简单样本分别取自总体Y和X,假定,试用样本均值差作的估计。

 

样本均值易受异常值影响,但是中位数不会,因此对于本样本同时采用中位数来作为位置差的点估计。

 

$样本均值之差

[1] 130.4211

 

$样本中位数之差

[1] 140

 

位置差的HL区间估计: 

 

$中位数

[1] 131

 

$上下界位置

[1] "114" "248"

 

$`95%置信区间`

[1] "[ 107 , 152 ]

实验项目二

(1) 中位数的符号检验

检验1999年至2017年期间,运动员获世界冠军人数(人)的中位数是否为155?()

 

 

中为负数的个数,则的拒绝域为

 

根据公式

 

由观测值得到Y的值,若则接受,否则拒绝。

 

运动员获世界冠军人数(人)

P值

0.6476059

 

由于p值大于0.05,检验的结论是接受原假设,认为运动员获世界冠军人数(人)的中位数应该为155。

 

 

(2)两总体比较的Wilcoxon秩和检验

 

运动员获世界冠军男女人数是否存在显著差异?()

 

 

 

拒绝域为:

通过软件计算出:

$r1

[1] 88

 

$r2

[1] 152

 

$是否落入拒绝域

[1] FALSE

则得到结论:运动员获世界冠军男女人数存在显著差异。

(3) 两总体比较的K-S检验

设男子世界冠军人数来自分布为F(x)的总体女子世界冠军人数来自分布为Gx)的总体,检验这两个分布是否相同,即原假设为:

 

计算结果如下:

Two-sample Kolmogorov-Smirnov test

 

data:  x and y

D = 0.33846, p-value = 0.5366

alternative hypothesis: two-sided

 

由于p值=0.5366>0.05,故接受原假设,即认为F(x)和G(x)这两个分布函数相同。

(4)卡方独立性检验

本案例数据来源于百度文库。

在遇到车祸的情况下,乘客系安全带与没系安全带时受到的冲击力的数据如下:

 

受伤情况

轻微

较重

严重

合计

安全带系

12813

647

359

42

13861

安全带没系

65963

4000

2642

303

72908

合计

78776

4647

3001

345

86769

 

 

 

各因子之间是否是独立的?

 

计算结果如下:

Pearson's Chi-squared test

 

data:  rbind(yesbelt, nobelt)

X-squared = 59.224, df = 3, p-value = 8.61e-13

 

其中p值=8.61e-13 0.05,故接受原假设,认为每组间的学生的学习无显著差异。

 

实验项目三

 (1)制作数据经验分布函数,使用分布拟合方法解决总体类型的检验问题

本例给出15名学生的体重数据(单位:kg)

75.0

64.0

47.4

66.9

62.2

62.2

58.7

63.5

66.6

64.0

57.0

69.0

56.9

50.0

72.0

绘制出15名学生体重的经验分布图和相应的正态分布图:

绘制出的经验分布图和正态分布曲线:

 

将学生体重进行排序得:

47.4 50.0 56.9 57.0 58.7 62.2 62.2 63.5 64.0 64.0 66.6 66.9 69.0 72.0 75.0

 

求得经验分布函数为:

 

 

(2) 概率密度图像,使用分布拟合方法解决总体类型的检验问题

绘制出直方图和密度估计曲线和正态分布的概率密度曲线:

 

通过上图,可以明显看出密度估计曲线和正态分布的概率密度曲线还是有一定的差别的。

 

实验项目四

通过最小二乘与权函数结合使用的方法解决非线性回归问题

本案例数据来自课后习题

1.一只红铃虫的产卵数与温度有关。下表是产卵数Y与温度X的一组数据,试研究Y与X的回归关系。

编号

1

2

3

4

5

6

7

温度x

21

23

25

27

29

32

25

产卵数y

7

11

21

24

66

115

325

 

绘制出散点图:

 

  

X

Y

线性拟合

残差

权函数估计

混合估计

21

7

50.91986

-43.919861

-43.919861

7

23

11

63.06620

-52.066202

-52.066202

11

25

21

75.21254

-54.212544

97.787456

173

27

24

87.35889

-63.358885

-63.358885

24

29

66

99.50523

-33.505226

-33.505226

66

32

115

117.72474

-2.724739

-2.724739

115

25

325

75.21254

249.787456

97.787456

173

 

解得回归直线方程为:

 

附录

#非参数统计

#1

data1

     s1=ppois(i-1,n*p);

     s2=ppois(i,n*p); #s1+dpois(i,n*p)

     if(s1(1-alpha)/2) break

     }

   for(j in n:1){

     s3=1-ppois(j,n*p);

     s4=1-ppois(j-1,n*p); #s3+dpois(j,n*p)

     if(s3(1-alpha)/2) break

     }

   dp

     nn

   a



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有