32 R初等统计分析 您所在的位置:网站首页 R语言计算SST 32 R初等统计分析

32 R初等统计分析

2023-03-10 10:18| 来源: 网络整理| 查看: 265

32 R初等统计分析

这一部分讲授如何用R进行统计分析, 包括基本概括统计和探索性数据分析, 置信区间和假设检验, 回归分析与各种回归方法, 广义线性模型, 非线性回归与平滑, 判别树和回归树, 等等。

主要参考书:

(Venables and Ripley 2002) (Kabacoff 2012) 32.1 概率分布

R中与xxx分布有关的函数包括:

dxxx(x), 即xxx分布的分布密度函数(PDF)或概率函数(PMF)\(p(x)\)。 pxxx(q), 即xxx分布的分布函数(CDF)\(F(q)=P(X \leq q)\)。 qxxx(p), 即xxx分布的分位数函数\(q(p)\), \(p \in (0,1)\), 对连续型分布,\(q(p) = F^{-1}(p)\), 即\(F(x)=p\)的解\(x\)。 rxxx(n), 即xxx的随机数函数,可以生成\(n\)个xxx的随机数。

dxxx(x)函数可以加选项log=TRUE, 用来计算\ln p(x), 这在计算对数似然函数时有用, 比log(dxxx(x))更精确。

pxxx(q)可以加选项lower.tail=FALSE, 变成计算\(P(X>q) = 1 - F(q)\)。

qxxx(p)可以加选项lower.tail=TRUE, 表示求\(P(X>x)=p\)的解\(x\); 可以加选项log.p=TRUE, 表示输入的\(p\)实际是\(\ln p\)。

这些函数都可以带有自己的分布参数, 有些分布参数有缺省值, 比如正态分布的缺省参数值为零均值单位标准差。

具体的分布类型可以在R命令行用?Distributions查看列表。 常用的分布密度有:

离散分布有dbinom二项分布, dpois泊松分布, dgeom几何分布, dnbinom负二项分布, dmultinom多项分布, dhyper超几何分布。 连续分布有 dunif均匀分布, dnorm正态分布, dchisq卡方分布, dt t分布(包括非中心t), df F分布, dexp指数分布, dweibull 威布尔分布, dgamma 伽马分布, dbeta 贝塔分布, dlnorm 对数正态分布, dcauchy 柯西分布, dlogis 逻辑斯谛分布。

R的扩展包提供了更多的分布, 参见R网站的如下链接:

https://cran.r-project.org/web/views/Distributions.html 32.2 最大似然估计

R函数optim()、nlm()、optimize()可以用来求函数极值, 因此可以用来计算最大似然估计。 optimize()只能求一元函数极值。

32.2.1 一元正态分布参数最大似然估计

正态分布最大似然估计有解析表达式。 作为示例, 用R函数进行数值优化求解。

对数似然函数为:

\[ \ln L(\mu,\sigma^2) = -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2} \sum(X_i - \mu)^2 \]

定义R的优化目标函数为上述对数似然函数去掉常数项以后乘以\(-2\), 求其最小值点。 目标函数为:

objf.norm1 c)\)。

如果x, y分别是两个变量的原始观测值, chisq.test(x, y)可以做列联表独立性检验。 如果x保存了矩阵格式的列联表, 矩阵行名是\(X\)各个类的名称, 矩阵列名是\(Y\)各个类的名称, 则chisq.test(x)可以做列联表独立性检验。

列联表卡方检验法的检验统计量在零假设下的卡方分布是大样本情况的近似分布。 如果每个变量仅有两个类,每个类的期望频数不能少于5; 如果有多个单元格,期望频数少于5的单元格的个数不能超过20%, 否则应该合并较小的类。

如果列联表的数据不是来自于总数\(n\)固定的随机抽样, 而是按照\(X\)变量分组抽取的, 这时零假设就变成了\(m\)个独立的总体的多项分布是否相同的问题, 这个问题恰好也可以使用上面的卡方统计量, 近似分布的自由度不变。 如果数据按\(Y\)变量分组抽取也一样。

32.8.1 列联表独立性卡方检验例子 32.8.1.1 性别与啤酒种类的独立性检验

Alber’s Brewery of Tucson, Arizona是啤酒制造与销售商。 有三类啤酒产品:淡啤酒,普通啤酒,黑啤酒。

了解不同顾客喜好有利于制定更精准的销售策略。 希望了解男女顾客对不同类型的偏好有没有显著差异, 实际就是检验性别与啤酒类型偏好的独立性。

随机抽取了150位顾客, 得到如下的列联表:

ctab.beer


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有