概率论与数理统计(5) | 您所在的位置:网站首页 › 迪迦奥特曼第二集免费 › 概率论与数理统计(5) |
概率论与数理统计第九章——方差分析及回归分析 注:提纲式内容,因此具体数学模型等理论性内容省略。 第九章 方差分析及回归分析 9.1 单因素试验的方差分析因素:影响试验结果的条件。 单因素试验:为了考察某个因素$A$对所考察的随机变量$X$的影响,在试验中让其它因素保持不变,仅让$A$改变。(类似于控制变量) 水平:因素$A$所处的状态称为水平。 9.1.1 相关参数与表达式设所考察的因素A有s个水平,每个水平$A_j$下进行$n_j$次独立试验,得到结果: 水平 $A_1$ $A_2$ … $A_s$ 样本观测 $X_{11},X_{21},…,X_{n_11}$ $X_{12},X_{22},…,X_{n_22}$ … $X_{1s},X_{2s},…,X_{n_ss}$ 样本总和 $T_{\cdot 1}$ $T_{\cdot 2}$ … $T_{\cdot s}$ 样本均值 $\bar X_{\cdot 1}$ $\bar X_{\cdot 2}$ … $\bar X_{\cdot s}$ 总体均值 $\mu_1$ $\mu_2$ … $\mu_s$其中 \[T_{\cdot j}=\sum_{i=1}^{n_j}X_{ij}\] \[\bar X_{\cdot j}=\frac{1}{n_j}\sum_{i=1}^{n_j}X_{ij}\]数学模型及检验假设请见PPT C26 第6页 三种平方和: 总偏差平方和: \[S_T=S_E+S_A\] 误差平方和: \[S_E=\sum_{j=1}^s\sum_{i=1}^{n_j}(X_{ij}-\bar X_{\cdot j}^2)^2\] 效应平方和: \[S_A=\sum_{j=1}^s\sum_{i=1}^{n_j}(\bar X_{\cdot j}-\bar X)^2\]记$n=\sum_{j=1}^sn_j,\delta_j=\mu_j-\mu$,上述平方和具有如下性质: (1) $S_E/\sigma^2\sim \chi^2(n-s)$ (2) $E(S_E)=(n-s)\sigma^2$ (3) $E(S_A)=\sum_{j=1}^sn_j\delta_j^2+(s-1)\sigma^2$ (4) $S_E$与$S_A$相互独立 (5) 当$H_0$为真时, \[\frac{S_A}{\sigma^2}\sim \chi^2(s-1)\](6) 当$H_0$为真时, \[F=\frac{S_A/(s-1)}{S_E/(n-s)}\sim F(s-1,n-s)\]单因素试验方差分析表: 方差来源 平方和 自由度 均方 F比 因素A $S_A$ $s-1$ $\bar S_A=\frac{S_A}{s-1}$ $\bar S_A/\bar S_E$ 误差 $S_E$ $n-s$ $\bar S_E=\frac{S_E}{n-s}$ $\bar S_A/\bar S_E$ 总和 $S_T$ $n-1$ 9.1.2 检验方法 检验假设:$H_0:\delta_1=\delta_2=\cdots=\delta_s=0$ $H_1:\delta_1,\delta_2,\cdots,\delta_s$不全为0 拒绝域: \[F=\frac{S_A/(s-1)}{S_E/(n-s)}\geq F_{\alpha}(s-1,n-s)\]通过检验样本的F比是否落在拒绝域中来决定是否拒绝原假设。 下面是计算$S_T,S_A,S_E$的简便公式: \[S_T=\sum_{j=1}^s\sum_{i=1}^{n_j}X_{ij}^2-\frac{T_{\cdot \cdot }^2}{n}\] \[S_A=\sum_{j=1}^s\frac{T_{\cdot j}^2}{n_j}-\frac{T_{\cdot \cdot }^2}{n}\] \[S_E=S_T-S_A\] 9.1.3 未知参数的估计相关参数及其无偏估计如下: 参数$\theta$ 无偏估计$\widehat{\theta}$ $\sigma^2$ $\frac{S_E}{n-s}$ $\mu$ $\bar X$ $\mu_j$ $\bar X_{\cdot j}$ $\delta_j$ $\bar X_{\cdot j}-\bar X$当拒绝$H_0$时,需要作出总体$N(\mu_j,\delta^2)$和$N(\mu_k,\delta^2)$的均值差$\mu_j=\mu_k=\delta_j-\delta_k$的区间估计,其置信区间为: \[\Bigg(\bar X_{\cdot j}-\bar X_{\cdot k}\pm t_{\alpha/2}(n-s)\sqrt{\bar S_E\bigg(\frac{1}{n_j}+\frac{1}{n_k}\bigg)}\Bigg)\] 9.2 双因素试验的方差分析有两个因素作用于试验指标,因素A有r个水平,因素B有s个水平,对每对组合$(A_i,B_j)$做t次试验,记水平$A_i,B_j$下第k次试验指标为$X_{ijk}$,$X_{ijk}\sim N(\mu_{ij},\sigma^2)$,称为双因素等重复试验。所有试验相互独立。 9.2.1 相关参数 \[\mu=\frac{1}{rs}\sum_{i=1}^r\sum_{j=1}^s\mu_{ij}\] \[\mu_{i\cdot}=\frac{1}{s}\sum_{j=1}^s\mu_{ij} \quad ,i=1,...,r\] \[\mu_{j\cdot}=\frac{1}{r}\sum_{i=1}^r\mu_{ij} \quad ,j=1,...,s\]水平$A_i$的效应:$\alpha_i=\mu_{i\cdot}-\mu$ 水平$B_j$的效应:$\beta_j=\mu_{\cdot j}-\mu$ 于是有 \[\mu_{ij}=\mu+\alpha_i+\beta_j+\gamma_{ij}\]其中$\gamma_{ij}=\mu_{ij}-\mu_{i\cdot}-\mu_{\cdot j}+\mu$称为水平$A_i,B_j$的交互效应。 平方和分解: \[S_T=S_E+S_A+S_B+S_{A\times B}\]总偏差平方和: \[S_T=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(X_{ijk}-\bar X)^2\]误差平方和: \[S_E=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(X_{ijk}-\bar X_{ij\cdot})^2\]效应平方和: \[S_A=st\sum_{i=1}^r(\bar X_{i\cdot \cdot}-\bar X)^2,S_B=rt\sum_{j=1}^s(\bar X_{\cdot j\cdot}-\bar X)^2\]交互效应平方和: \[S_{A\times B}=t\sum_{i=1}^r\sum_{j=1}^s(\bar X_{ij\cdot}-\bar X_{i\cdot \cdot}-\bar X_{\cdot j\cdot}+\bar X)^2\]双因素等重复试验方差分析表 方差来源 平方和 自由度 均方 F比 因素A $S_A$ $r-1$ $\bar S_A=\frac{S_A}{r-1}$ $F_A=\frac{\bar S_A}{\bar S_E}$ 因素B $S_B$ $s-1$ $\bar S_B=\frac{S_B}{s-1}$ $F_B=\frac{\bar S_B}{\bar S_E}$ 交互作用 $S_{A\times B}$ $(r-1)(s-1)$ $\bar S_{A\times B}=\frac{S_{A\times B}}{(r-1)(s-1)}$ $F_{A\times B}=\frac{\bar S_{A\times B}}{\bar S_E}$ 误差 $S_E$ $rs(t-1)$ $\bar S_E=\frac{S_E}{rs(t-1)}$ 总和 $S_T$ $rst-1$ 9.2.2 数学模型与检验假设有数学模型 \[\left\{ \begin{aligned} & X_{ijk}=\mu+\alpha_i+\beta_j+\gamma_{ij}+\epsilon_{ijk}\\ & \epsilon_{ijk}\sim N(0,\sigma^2) & ,各\epsilon_{ijk}独立\\ & \sum_{i=1}^r\alpha_i=\sum_{j=1}^s\beta_j=\sum_{i=1}^r\gamma_{ij}=\sum_{j=1}^s\gamma_{ij}=0\\ \end{aligned} \right.\]其中$\mu,\alpha_i,\beta_j,\gamma_{ij},\sigma^2$均为未知参数,$\gamma_{ij}$称为水平$A_i$和$B_j$的交互效应。 检验假设 \[\left\{ \begin{aligned} & H_{01}:\alpha_1=\alpha_2=\cdots=\alpha_r=0\\ & H_{11}:\alpha_1,\alpha_2,\cdots,\alpha_r不全为0\\ \end{aligned} \right.\] \[\left\{ \begin{aligned} & H_{02}:\beta_1=\beta_2=\cdots=\beta_s=0\\ & H_{12}:\beta_1,\beta_2,\cdots,\beta_s不全为0\\ \end{aligned} \right.\] \[\left\{ \begin{aligned} & H_{03}:\gamma_{11}=\gamma_{12}=\cdots=\gamma_{rs}=0\\ & H_{13}:\gamma_{11},\gamma_{12},\cdots,\gamma_{rs}不全为0\\ \end{aligned} \right.\] 9.2.3 检验方法$H_{01}$的拒绝域 \[F_A=\frac{S_A/(r-1)}{S_E/\big(rs(t-1)\big)}\geq F_{\alpha}\big(r-1,rs(t-1)\big)\]$H_{02}$的拒绝域 \[F_B=\frac{S_B/(s-1)}{S_E/\big(rs(t-1)\big)}\geq F_{\alpha}\big(s-1,rs(t-1)\big)\]$H_{03}$的拒绝域 \[F_{A\times B}=\frac{S_{A\times B}/\big((r-1)(s-1)\big)}{S_E/\big(rs(t-1)\big)}\geq F_{\alpha}\big((r-1)(s-1),rs(t-1)\big)\] 9.2.3 双因素无重复试验的方差分析无重复试验是指对每对水平组合只做一次试验,因素之间的交互作用不存在或可以忽略。 数学模型 \[\left\{ \begin{aligned} & X_{ij}=\mu+\alpha_i+\beta_j+\epsilon_{ij}\\ & \epsilon_{ij}\sim N(0,\sigma^2) & ,各\epsilon_{ij}独立\\ & \sum_{i=1}^r\alpha_i=\sum_{j=1}^s\beta_j=0 \end{aligned} \right.\]检验假设 \[\left\{ \begin{aligned} & H_{01}:\alpha_1=\alpha_2=\cdots=\alpha_r=0\\ & H_{11}:\alpha_1,\alpha_2,\cdots,\alpha_r不全为0 \end{aligned} \right.\] \[\left\{ \begin{aligned} & H_{02}:\beta_1=\beta_2=\cdots=\beta_s=0\\ & H_{12}:\beta_1,\beta_2,\cdots,\beta_s不全为0 \end{aligned} \right.\]双因素无重复试验方差分析表 方差来源 平方和 自由度 均方 F比 因素A $S_A$ $r-1$ $\bar S_A=\frac{S_A}{r-1}$ $F_A=\frac{\bar S_A}{\bar S_E}$ 因素B $S_B$ $s-1$ $\bar S_B=\frac{S_B}{s-1}$ $F_B=\frac{\bar S_B}{\bar S_E}$ 误差 $S_E$ $(r-1)(s-1)$ $\bar S_E=\frac{S_E}{(r-1)(s-1)}$ 总和 $S_T$ $rs-1$假设$H_{01}$的拒绝域为 \[F_B=\frac{S_B/(s-1)}{S_E/\big((r-1)(s-1)\big)}\geq F_{\alpha}\big(s-1,(r-1)(s-1)\big)\] 9.3 一元线性回归 9.3.1 相关参数与记号约定为方便描述和计算,引入下述记号 \[S_{xx}=\sum_{i=1}^n(x_i-\bar x)^2\] \[S_{yy}=\sum_{i=1}^n(y_i-\bar y)^2\] \[S_{xy}=\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\] 9.3.2 一元线性回归模型假设对于x的每个值,$Y\sim N(a+bx,\sigma^2)$。记$\epsilon=Y-(a+bx)$,则有 \[Y=a+bx+\epsilon \quad ,\epsilon\sim N(0,\sigma^2)\]上式称为一元线性回归模型。b称为回归系数。计算得 \[\left\{ \begin{aligned} & \hat a=\bar y-\hat b\bar x\\ & \hat b=\frac{S_{xy}}{S_{xx}} \end{aligned} \right.\]如果Y不是正态变量,可以令残差的平方和最小来估计a,b,与上面得到的结果相同(实际上这就是高中学的方法)。 9.3.3 相关参数的估计与检验 $\sigma^2$的估计记残差平方和$Q_e=\sum_{i=1}^n(y_i-\hat y_i)^2$,计算得 \[Q_e=S_{yy}-\hat bS_{xy}\]可以证明, \[\frac{Q_e}{\sigma^2}\sim \chi^2(n-2)\]因此得到$\hat \sigma ^2$的无偏估计 \[\hat \sigma^2=\frac{1}{n-2}(S_{yy}-\hat bS_{xy})\] 线性假设的显著性检验即询问:$\mu(x)$是否具有形式$a+bx$? 检验假设 \[H_0:b=0 \quad \quad H_1:b\neq 0\]可以证明 \[\hat b\sim N\bigg(b,\frac{\sigma^2}{S_{xx}}\bigg)\]$H_0$的拒绝域为 \[|t|=\frac{|\hat b|}{\hat \sigma}\sqrt{S_{xx}}\geq t_{\frac{\alpha}{2}}(n-2)\]当拒绝$H_0$时,认为回归效果是显著的。 系数$b$的置信区间回归效果显著时,由上面推导得出的 \[\frac{\hat b-b}{\hat \sigma}\sqrt{S_{xx}}\sim t(n-2)\]可以得到$b$的置信水平为$1-\alpha$的置信区间: \[\Bigg(\hat b\pm t_{\frac{\alpha}{2}}(n-2)\times \frac{\hat \sigma }{\sqrt{S_{xx}}}\Bigg)\] 回归函数值的点估计和置信区间$\mu(x_0)=a+bx_0$的点估计即为 \[\hat \mu(x_0)=\hat a+\hat bx_0\]一元回归模型中Y服从正态分布,由此可得出$\mu(x_0)=a+bx_0$的置信水平为$1-\alpha$的置信区间为 \[\Bigg(\hat a+\hat bx_0\pm t_{\frac{\alpha}{2}}(n-2)\hat \sigma\sqrt{\frac{1}{n}+\frac{(x_0-\bar x)^2}{S_{xx}}}\Bigg)\]置信区间随$\mid x_0-\bar x\mid $的增加而增加,当$x_0=\bar x$时最短。 Y的观察值的点预测和预测区间$Y_0$的点预测: \[\hat Y_0=\hat \mu(x_0)=\hat a+\hat bx_0\]$Y_0$的置信水平为$1-\alpha$的预测区间为 \[\Bigg(\hat a+\hat b x_0\pm t_{\frac{\alpha}{2}}(n-2)\hat \sigma \sqrt{1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{S_{xx}}}\Bigg)\]预测区间随$\mid x_0-\bar x\mid $的增加而增加,当$x_0=\bar x$时最短。 注意到在相同的置信水平下,回归函数值的置信区间$\mu(x_0)$要比$Y_0$的预测区间短,这是因为$Y_0=a+bx_0+\epsilon_0$比$\mu(x_0)=a+bx_0$多了一项$\epsilon_0$。 注:通过适当的变量变换,可以把非线性问题转换为线性回归问题进行研究。 9.4 多元线性回归设 \[Y=b_0+b_1x_1+\cdots+b_px_p+\epsilon \quad \quad ,\epsilon \sim N(0,\sigma^2)\]一组样本 \[(x_{11},x_{12},...,x_{1p},y_1),\cdots,(x_{n1},x_{n2},...,x_{np},y_n)\]引入矩阵表示 \[X= \left( \begin{aligned} & 1 & x_{11} & \cdots & x_{1p}\\ & 1 & x_{21} & \cdots & x_{2p}\\ & \vdots & \vdots & \ddots & \vdots\\ & 1 & x_{n1} & \cdots & x_{np} \end{aligned} \right)\] \[Y=[y_1,y_2,...,y_n]\] \[B=[b_0,b_1,...,b_p]\]通过极大似然估计法可以得到正规方程组 \[X^TXB=X^TY\]得到各系数的极大似然估计 \[\widehat B=[\hat b_0,\hat b_1,...,\hat b_p]=(X^TX)^{-1}X^TY\]得到p元经验回归函数 \[\hat y=\hat b_0+\hat b_1x_1+\cdots+\hat b_px_p\] |
CopyRight 2018-2019 实验室设备网 版权所有 |