核密度估计的实现与简单应用 您所在的位置:网站首页 gausslegendre公式 核密度估计的实现与简单应用

核密度估计的实现与简单应用

2023-04-21 21:12| 来源: 网络整理| 查看: 265

《核密度估计的实现与简单应用》由会员分享,可在线阅读,更多相关《核密度估计的实现与简单应用(12页珍藏版)》请在人人文库网上搜索。

1、福州大学数学与计算机科学学院2008级数学与应用数学专业应用统计分析方向-应用数学实习 1实习日记 2实习作业 3实习总结4. 成绩评定班 级: 应数(2)班 姓 名: 唐昌宏 学 号: 030801218 指导老师: 吕书龙 实习地点: 福州大学 实习日期: 2011.6.272011.7.8实习日记2011.6.27 星期一 确定实习内容 这个学期,我学习了许多关于统计计算与非参数统计的知识,以及假设检验、回归、正态性检验在R软件上的实现,还有R软件的一些其他的基本操作,如:作图、矩阵运算、数据导入、编程等。通过对自己弱点的分析,决定将实习目的定为:课堂上讲过的部分内容(非参数密度估计及其

2、简单应用)在R软件中的实现,做到“理解理论知识、实现理论知识”。2011.6.28 星期二 复习巩固要用到的理论知识针对要做的内容(核密度估计),对其理论知识做比较系统的复习,重点复习该方法的适用范围、计算方法、公式推导、实现过程,为之后的写算法、编程序打下理论基础。2011.6.29 星期三 复习巩固要用到的R软件命令既然是自己编写程序,就避免不了对程序好坏的评价,因此就需要将自己编程计算的结果与R软件的计算结果进行比较;其次,在编程序时可以直接使用R软件中已有的函数,以简化程序的篇幅。因此,复习巩固R软件命令是必要的。2011.6.30 星期四 学习相关的数值计算方法由于我想要用估计出的核

3、密度函数来计算概率值,这就免不了要计算积分值,因此,我重点学习了数值计算中的快速、高精度算法。如:GaussLegendre求积公式。2011.7.1 星期五 搜索非参数密度估计的图书 为了解决非参数密度估计的程序设计,我专门查找了图书馆的相关书籍,有许多介绍非参数统计的书籍,但每本书的侧重点有所不同。我就根据自己的需要,找到了一本对核回归有比较详细介绍的非参数估计作为我的参考书籍。2011.7.4 星期一 学习非参数密度估计的相关理论今天主要任务是学习非参数密度估计的相关理论,包括:基本方法、应用方向以及具体的公式推导。在此基础上,写出相应的R程序,并在R软件中进行模拟,分析模拟的结果。20

4、11.7.5 星期二 核密度估计的应用与检验今天的主要任务是:在核密度估计的基础上,对区间a,b上的概率值进行估计,并将估算的结果与理论值进行比较,以验证整个估计过程的正确性与核密度估计理论的合理性。 2011.7.6 星期三 总结实践过程中的经验由于此次实习的时间较短,实践目的是熟悉课堂上的理论知识,及其具体的实现。通过实践,我有以下几点收获:1、好的核密度估计依赖于组距的选取,而组距是与数据量及样本的分布有关的,是需要不断尝试的。2、组距越大,估计出的核密度估计图越光滑;组距越小,估计出的核密度估计图越像噪声图。2011.7.7 星期四 写实习总结 通过这这几天的应用数学实习,我觉得很有必

5、要对这一段时间所做的事情来一次总结。不论是理论上的,还是实际应用上的,我觉得将书上的理论知识通过计算机编程实现出来,这个过程有助于加深对理论知识的认识。还有,从理论到实际应用,我认为归根到底就是:数值计算。2011.7.8 星期五 完成实习报告,填写成绩评定表今天的主要任务是完善实习过程中的内容,并根据实习报告中的内容填写成绩评定表。1应用数学实习课题:核密度估计的实现与简单应用一、核密度估计的理论与实现1、核密度估计的基本理论 核密度估计的目的:给定数据,估计出该总体的概率密度函数。 核密度估计的公式为: 其中K()为核函数。(核函数必须是关于y轴对称的) 常用的核函数如下:均匀核三角核Ep

6、anechikov四次方核三权核高斯核余弦核指数核2、以Gauss核为例做核密度估计取,则此时的核密度估计公式为:用Gauss核做核密度估计的R程序如下:ker.density=function(x,h) x=sort(x) n=length(x);s=0;t=0;y=0 for(i in 2:n) si=0 for(i in 1:n) for(j in 1:n) si=si+exp(-(xi-xj)2)/(2*h*h) ti=si for(i in 1:n) yi=ti/(n*h*sqrt(2*pi) z=complex(re=x,im=y) hist(x,freq=F) lines(z)为

7、了检验效果,我取100个正态分布的随机数来进行验证。实验截图如下:(图中的直方图是频率分布直方图)h=0.5h=0.2h=0.8此时取h=0.2附近比较好取500个正态分布的随机数时,结果如下:h=0.2h=0.5h=0.8从图上可知:取h=0.20.5比较合适。取500个卡方分布的随机数h=0.8h=0.5h=0.2此时取h=0.8比较好结论:h的选取不仅与样本容量有关,还与样本本身的性质(如样本的分布)有关。二、核密度估计的简单应用估算区间a,b上的概率值由于估计出的密度函数为:,那么利用概率公式 即可求出区间a,b上的概率值。具体的计算过程如下:1、 计算公式的推导由和可得,概率的计算公

8、式为:为了应用GaussLegendre求积公式,需做变换:变换后,公式变为: (注:公式中的是由实验数据所确定的值。)2、 具体的计算方法与R程序上述公式的计算,归根到底是积分的计算,这里我选择4点(n=3)的GaussLegendre求积公式,求积节点与系数如下表:令 则:,(其中:)计算具体的R程序如下:(i)函数的程序:f=function(y,a,b,h,t) k=(b-a)*y+a+b-2*t z=exp(-k*k/(8*h*h) z(ii)计算积分的程序:I=function(a,b,h,t) x1=0.8611363;x2=0.339981 A=0.3478548;B=0.65

9、21452 q=A*(f(x1,a,b,h,t)+f(-1)*x1,a,b,h,t)+B*(f(x2,a,b,h,t)+f(-1)*x2,a,b,h,t) q(iii)计算概率P的程序:p=function(a,b,h,x) y=I(a,b,h,x1) s=0 for(i in 2:length(x) yi=I(a,b,h,xi) for(i in 1:length(x) s=s+yi m=2*sqrt(2*pi)*h*length(x) p=(b-a)*s/m p【注:程序中的a,b表示区间a,b;h为待估计的,x为样本】3、 具体的模型检验方法与实验结果截图 具体操作过程:首先,我用R软件

10、产生500个标准正态随机数,用上述核密度估计的方法估计密度函数中的,再用确定的核密度函数计算出不同区间a,b上的概率值,并将此概率值与精确的概率值作比较。(i)确定与核密度函数h=0.2h=0.25h=0.3h=0.35从图中可以看出h=0.250.35均比较好,我取h=0.3。(ii)用估计出的h代入到核密度函数中,并计算几个区间a,b的概率值区间1,2 区间-3,2 区间-5,-2 区间-1.5,1.9 从计算结果的比较中可知:估算结果与理论值比较接近,即:该核密度估计是合理的。实习总结通过这个学期的学习,我学到了许多非参数统计的知识(非参数回归、核密度估计、正态性检验等)以及R统计软件的

11、基本操作、并掌握了用统计方法解决实际问题的一些基本技能。针对平时的的学习内容,并在学习了这些理论知识与软件的基本操作的基础上,我考虑理论与应用相结合,将理论在R软件上实现出来,一方面巩固了书本上的理论知识;另一方面也熟悉了R软件的相关使用,一举两得。这次实习,我选择“核密度估计的实现与简单应用”为课题是有原因的。因为概率统计中的许多内容(如:分布函数的计算、概率的计算、数学期望、方差、点估计、区间估计等)都要以密度函数为基础,没有了密度函数,概率统计中的很多内容就很难实现。因此,我认为,做核密度估计不管在理论上,还是实际应用上,都是很有必要的。还有,核密度估计是我比较生疏的一个知识,我想通过此

12、次实习,能把它的含义与简单应用弄清楚。在实习整个过程中,我重视理论的应用,光实现密度的估计还不行,必须用估计的结果做直接的应用(如:概率的估算),以此来检验估计的效果。如果用一般的实验数据来做估计,那么估计出来的结果是好是坏,这是说不清楚的。因此,我用R软件生成随机数,对随机数做和密度估计,再用估计出来的核密度函数来计算概率值,而该随机数的总体分布是已知的,因此就可以用R软件中现成的函数计算概率值,并将二者进行比较,这样估算结果就更有说服力了。为了完成核密度估计的具体实现与简单应用,我主要是通过查找学校图书馆的资料以及上网搜索相关文献,通过自学相关的理论知识、复习相关的计算算法以及R软件的程序

13、设计,自己推导算法,最终在计算机上实现出来,整个过程中所涉及的数值计算都是自己编写程序来实现的,而没有用软件来计算,只有在检验估计结果是否合理时,才用到R软件的计算结果。这次实习,我收获了很多,比如:深入了解了核密度估计的相关理论,熟悉了整个实现的过程;同时,这对我的编程能力以及搜索资料的能力也是一次锻炼,体会到了数值计算、统计方法的重要性以及自学的必要性。当然,通过实习我也认识到自己的一些不足之处,比如:对于求积分的算法,平时只注重梯形求积公式和辛普森求积公式的应用,而对效率较高的高斯型求积公式的理论方法不大熟悉;不善于在大量信息中快速提取自己想要的信息,从而在查找信息方面浪费了许多的时间。参考文献1李庆扬、王能超、易大义 数值分析(第5版) 清华大学出版社2薛毅、陈立萍 统计建模与R软件 清华大学出版社3王星 非参数统计 清华大学出版社数学系学生实习考核及成绩评定表学年度:20102011学年专业数学与应用数学年级2008级学生姓名唐昌宏分流(专业课群组)培养方向应用统计分析实习性质认识实习教学实习专业生产实习毕业实习实习地点福州大学数计学院实习时间2011.6.27-2011.7.8实习内容 核密度估计的实现与简单



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有