气象统计方法知识点小结
小知识点
气象统计诊断的基本步骤
资料收集资料预处理选取诊断方法科学综合与诊断分析
气象统计预测的基本步骤
资料收集选择合适的统计模型统计检验预测结论
一些概念
气象统计分析:利用统计学方法对样本进行分析来估计和推测总体的规律性时间尺度: 时间序列:某气象要素随时间变化的数据序列(n维空间的一个点)空间场:同一时间某气象要素在不同站点的观测记录(一维空间中的n个点)统计量:从总体中抽取容量为n的一个样本,如果由此样本构造一个函数,不依赖任何未知参数,则称此函数为一个统计量累计频率:变量小于某上限值的次数与总次数之比.表征有限样本的统计特征无限总体中的“累积频率”称为分布函数或分布函量中心极限定理:即当样本量很大时(不论这个样本本身满足何种分布,甚至观测数据取自不同的分布),一组独立试验的和或者算术平均满足正态分布
一. 变化幅度统计量
1. 距平
描述气候变量偏离正常值的偏差
x
d
i
=
x
i
−
x
ˉ
x_{di} = x_i - \bar{x}
xdi=xi−xˉ
一组数据中的某个数和均值的差就是距平由距平值组成的序列称为距平序列距平序列的平均值为0距平序列与原始序列相比,演变趋势没有改变
![在这里插入图片描述](https://img-blog.csdnimg.cn/c34ac1ac77394f9b8eec4118e75aa9b6.png)
中心化
将资料处理为距平的方法称为中心化 why: 因为气象要素的年变化周期影响很大,各月的平均值不一样,为了使之能在同一水平下比较,常使用距平值
2. 距平百分率
距平 / 平均值 *100%
消去均值不同造成的差异
3. 标准差(均方差)与方差
方差:
s
2
s^2
s2 标准差:s
衡量样本中数据与平均值差异的平均状态反映变量以平均值为中心的平均振动幅度 向量表示:用距平序列和距平序列的转置表示 原始序列和距平序列相比:趋势不变,标准差不变
4. 变差系数(变异系数、离散系数)
标准差和平均值之比
衡量资料中观测值的变异程度 可以消除单位或均值不同对于多个资料变异程度程度比较的影响 ![在这里插入图片描述](https://img-blog.csdnimg.cn/46977dc9f4ea4c1cac857da43b1b17a5.png)
5. 变率
表征变量值变化幅度大小
绝对变率
就是绝对值版的标准差 ![在这里插入图片描述](https://img-blog.csdnimg.cn/09071f3f2b184aa681658a56ff6afca4.png)
相对变率
变率除以平均值 就是变差系数的变率版 ![在这里插入图片描述](https://img-blog.csdnimg.cn/abd6a3f15ab84e2ca5f9fb9762009668.png)
6. 标准化处理
由于各个要素的单位不一样,平均值和方差也不同,为了让数据在同一个水平上进行比较,就要消除量纲的影响
![在这里插入图片描述](https://img-blog.csdnimg.cn/157f19c04edd4c9a835f8cd99b2cf05c.png)
性质
标准化序列的均值为0,方差为1标准化处理之后,变量的值一般落在-3~3之间,不在这个区间的概率仅为0.0027一般距平达到或大于2被标准差的概率不到5%,可以确定异常标准
7. 汇总图
![在这里插入图片描述](https://img-blog.csdnimg.cn/7cef5f6904374836bb0cd19e04cf5977.png)
反应平均状况的统计量:平均数,中位数,众数反应异常情况的统计量:距平,方差,均方差,累计距平,变率和变差系数对资料的三种预处理中心化,正态化,标准化几种相关系数:简单相关系数,自相关系数,落后交叉相关系数,偏相关系数,复相关系数
二. 正态分布
![在这里插入图片描述](https://img-blog.csdnimg.cn/0e2d18c8c17243f58d9747ed4cb37a53.png)
正态分布的长相由其期望值和标准差决定标准正态分布的期望为0,标准差为1
1. 3sigma原则
在正态分布中,落在均值正负1倍标准差之间的概率为68% 落在均值正负2倍标准差之间的概率为95% 落在均值正负3倍标准差之间的概率为99.7%
2. 偏度系数
衡量这正态分布的对称情况
g1>0 右偏 最高峰偏左,表示均值在峰值右边g1=0 不偏g1>0 左偏 最高峰偏右,表示均值在峰值左边
3. 峰度系数
衡量这个正态分布的高矮胖瘦
g2>0 瘦高g2=0 正常g20,为滞后相关系数:原序列相对于滞后序列是落后的滞后长度
τ
\tau
τ1或P(A/B)---->0 为了保证预报指标有一定准确率 P(A/B)>>P(A)或者P(A/B) 自变量和因变量的相关系数和回归系数之积残差平方和=> 残差方差=> 1-回归方差这两者都有简便的运算
逐步回归
一般而言,回归方程中因子个数越多,回归平方和越大,残差平方和越小但是因子增加到一定数目时,残差平方和下降的幅度就很小了,甚至会影响回归方程的稳定性,使预报效果下降选择因子的时候,要求因子之间相关系数越小越好,各因子和预报量之间相关系数越大越好因此要选择影响显著,而且残差方差很小的因子用穷举法取找最优解不是很实际有三种方案逐步剔除方案,逐步引进方案,双重检验方案
方差贡献大小
要衡量因子的贡献,用到方差贡献也叫偏回归平方和,衡量每个因子对回归方程所起作用的大小方差贡献 = 有这个因子时的回归平方和 - 没有这个因子的回归平方和
方差贡献是否显著
也是用的F统计量 ![在这里插入图片描述](https://img-blog.csdnimg.cn/987da0b165184aab81b671cc91d59e55.png)
逐步剔除方案
从包含全部变量的回归方程中逐步提出不显著的因子
缺点:计算量较大 步骤:
从全部因子的方差贡献中选择最小的那个对那个因子进行F统计检验,如果不显著就剔除,如显著那其他的因子也是显著的;此时的F检验中的自由度是引入之后的因子数
逐步引进方案
基本思想:在一批待选的因子中,考查他们在一元回归方程中对预报量y的方差贡献,挑选所有因子中方差贡献最大者,经统计检验是显著后,进入回归方程 步骤:
第一轮的时候回归方程中没有任何因子,U(回归平方和)为0,分别将因子带入,选择方差贡献最大的之后对这个因子进行显著性检验依次循环
第一轮的时候 ![在这里插入图片描述](https://img-blog.csdnimg.cn/8ed402dca92f4f619debf8495a6760be.png)
之后的每一轮中,还是用这种方式引进因子
双重检验方法(重点)
1. 构建相关系数增广矩阵
![在这里插入图片描述](https://img-blog.csdnimg.cn/a69f35201a01415584c0ea0dd8878d71.png)
2. 引入方差贡献最大的因子
考虑引进第一个因子的时候,建立引进因子的回归方程 然后计算方差贡献,引进方差贡献最大的那个因子方差贡献V公式为
3. 进行F检验确认是否引入
假设p个因子中
x
z
k
x_{zk}
xzk的方差贡献最大,记
V
m
a
x
V_max
Vmax,之后进行F检验 F检验的临界值一般取4,作为否定域的临界值 ![在这里插入图片描述](https://img-blog.csdnimg.cn/53c7feb9c822450bb7560544ca521f3a.png) 如果通过了F检验就引入 引入方式就是对第k个因子在相关系数矩阵中进行如下变换,得到新的相关系数矩阵 ![在这里插入图片描述](https://img-blog.csdnimg.cn/9a3369ddd192404f9befd3286e4b60bb.png)
4. 剔除因子
因为引入因子之后,原来因子的方差贡献会发生变化,可能不显著,因此要进行剔除仅在引入了第三个因子之后才考虑剔除上一步引入的下一步不可能剔除,上一步剔除的下一步不可能引入 找出方差贡献最小的因子,进行F检验如果不显著就剔除,之后对因子所在列进行消去如果要剔除,就再用这个对相关系数矩阵进行变换,对一列引入后又剔除等于变换了两次等于没变换,就像这个因子没有引入过方程一样
循环
之后循环上述步骤:每次先考虑有无因子可以剔除,如果有就剔除,没有再考虑引入新因子,直到没有因子剔除有没因子可以引入
逐步回归案例
1. 原始数据和相关系数矩阵
原始数据:x为不同的预报因子,y为预报量,横坐标代表不同时次 构造对应的相关系数矩阵
2. 计算方差贡献最大的因子
计算各个因子的方差贡献,引入方差贡献最大的 选方差贡献最大的V4,计算F,大于临界值,可以保留
3. 引入因子
上一步选出了第四个因子需要引入,就对相关系数矩阵进行变换 变换后得到新的矩阵
4. 重复上述步骤
计算剩下各项的方差贡献,并将最大的进行F检验 检验通过,引入第一列,对矩阵进行变换得到新矩阵R2 再次重复,引入第二列,得到R3
5. 对已经引入的进行剔除
此时已经引入了三个,可以对已经引入的进行显著性检验了分别计算三个已经引入的因子的方差贡献(第二列是上一步引入的,这一步不考虑剔除) 发现第四列不能通过显著性检验,需要剔除,就对第四列再次进行变换
6. 计算余下因子的方差贡献
这样只剩下第三列了,计算第三列的方差贡献 发现最后这个因子不能通过显著性检验,此时无法剔除也无法引入,结束
双重检验的优缺点
优点
和逐步剔除法相比,计算量较小。和逐步引入法相比,计算量较大,但是此方法可以保证最后的方程是最优的。双重检验逐步回归方法最后能得到一个较合理的“最优”回归方程。
缺点
该方法最终只提供一个 “ 最优”回归方程,而无其它选择的余地。其次,需要解决较大阶数的矩阵,对于 手算有较大的工作量。
气候变化趋势分析
研究对象:气候时间序列 气候序列的基本特点:
数据取值随时间变化;每一时刻取值的随机性;前后时刻数据之间存在相关性、持续性;序列整体有上升或下降趋势,或呈周期振荡;某一时刻数据取值出现转折或突变。
线性倾向估计
就是气候变量和时间之间的一元线性回归相比之前的一元线性回归是气候变量和预报量之间的回归可以理解为也是一元线性回归的一种 含义:用一条直线表示变量x与时间t之间的关系,可用最小二乘法进行估计回归系数b称为倾向值,b>0说明随时间呈上升趋势,反之下降趋势,绝对值越大上升/下降速率越大相关系数和倾向值反应的意义是一致的
公式
和一元线性回归相似
滑动平均
滑动平均相当于一个滤波器,滤去高频信息,保留低频信息滑动平均最终也是一个序列,指定了滑动长度后,依次滑动区间,区间的均值作为该点的值滑动平均求得的是各个时刻的趋势值序列头尾信息不能体现,会有信息的缺失
公式
![在这里插入图片描述](https://img-blog.csdnimg.cn/fd0a5b5a56d44af4a00a385c28debe28.png)
形象一点,用图标是就是,取定滑动长度后,依次滑动长度区间,计算滑动长度区间中的均值,作为一个序列
结果分析
做出滑动平均序列后,可以观察到演变趋势是上升还是下降 滤去了高频信息
累计距平
当前时刻的累计距平就是将当前时刻之前的距平值累加起来,最后也是一个累计距平序列
公式
先计算距平序列之后每个时刻的累计距平就是将该时刻之前的距平值累加起来
计算结果分析
累积距平曲线呈上升趋势 ,表示累积距平值增大 ( 正距平 ) , 气候变量以偏多 ( 高 ) 状态为主 ;呈下降趋势 , 表示累积距平值减小 ( 负距平 ) ,气候变量以偏少 ( 低 ) 状态为主 ;从曲线明显的上下起伏 ,可以判断其长期显著的演变趋势及持续性变化 ,甚至还可以判断出发生突变的大致时间 。 从曲线小的波动可以考察其短期的距平值变化
二次平滑
滑动平均的变体,也起到低通滤波作用,展现出变化趋势相比滑动平均的有点:相比滑动平均它可以保留更多细节,克服滑动平均削弱过多波幅的不足可以得到五点二次平滑,七点二次平滑,九点二次平滑
公式
![在这里插入图片描述](https://img-blog.csdnimg.cn/efa3d2f1ac744d6b8554e5acfe963703.png)
变化趋势的显著性检验(Z检验)
线性倾向估计可以用相关系数的显著性检验进行判断滑动平均,累计距平用Z检验
公式
就是将该点和该点之后的点分别进行比较,如果之后的点比该点大,该点的r值+1 之后用r序列,计算Z统计量 显著性水平为0.05,
Z
0.05
Z_{0.05}
Z0.05为
基本气候状态的统计检验
对均值/方差差异进行显著性检验
根据样本来源分为两类:
检验来自同一样本的数据是否有稳定性检验不同样本之间是否存在显著性差异
根据数据情况又分为两类:
总体方差已知总体方差位置
u检验
对均值的显著性检验,总体方差已知 适用条件:
总体均值,方差已知对遵循正态分布的大/小样本适用如果样本量足够大,不遵循正态分布也适用
统计量表示
样本和总体之间 不同两种样本之间
显著性检验
原假设:假设均值之间没有显著性差异判断u统计量绝对值是否大于临界值即可
t检验
用于对均值的显著性检验,总体方差未知 适用条件:
总体均值已知,方差未知对于遵从正态分布的样本,小样本量也适用
统计量表示
样本和总体之间 ![](https://img-blog.csdnimg.cn/img_convert/7eb48bea61853d97b9a624d16a49a954.png) 样本和样本之间 ![](https://img-blog.csdnimg.cn/img_convert/a2c7e3efe13dc6cf58f36931d8e63ac5.png) 如果样本量足够大,可以按下式计算 ![](https://img-blog.csdnimg.cn/img_convert/a65eab3b83e756408d5b100658a727df.png)
显著性检验
原假设:假设均值没有显著性差异查自由度为n-1的表,比较绝对值和临界值的大小,如果是两个变量之间,查自由度为n1+n2-2自由度的表
卡方检验
用于对方差的显著性检验,总体方差已知
统计量表示
如果已知样本方差,总体方差 ![这种表示方式自由度为n-1](https://img-blog.csdnimg.cn/img_convert/86b411c86f33f0fb6880b902ee54638c.png) 如果已知样本均值和总体方差 ![这种表示方式自由度为n](https://img-blog.csdnimg.cn/img_convert/215056e1231473115008ab499b85a99c.png)
显著性检验
原假设:假设方差之间没有显著差异自由度为n-1对于选定的临界值,需要进行双侧检验
![](https://img-blog.csdnimg.cn/img_convert/29624320afc81fcdee7e77a842f34ccf.png)
F检验
用于对方差进行显著性检验,总体方差未知
统计量表示
![](https://img-blog.csdnimg.cn/img_convert/ada97a091339d12d740d1087a47e9903.png)
显著性检验
原假设:两者之间方差没有显著性差异有双自由度,
v
1
=
n
1
−
1
;
v
2
=
n
2
−
1
,其中
v
1
称为分子自由度,
v
2
称为分母自由度
v_1 = n_1 -1 ;v_2 = n_2 -1,其中v_1称为分子自由度,v_2称为分母自由度
v1=n1−1;v2=n2−1,其中v1称为分子自由度,v2称为分母自由度在查表的时候一般只能查到
F
α
F_\alpha
Fα 而查不到
F
1
−
α
F_{1-\alpha}
F1−α,这时候需要用到一个性质——交换自由度顺序之后为交换前的倒数,就可以获取下分位点的值了
![](https://img-blog.csdnimg.cn/img_convert/8fd6a0331807de1872eb60a48894b45c.png)
小结
![在这里插入图片描述](https://img-blog.csdnimg.cn/aeeebf8f668b40a4be0a1fd837201f91.png)
EOF经验正交函数分解
将时空序列分解为正交的空间函数V和正交的时间函数Z的乘积 空间序列V每列表示一个空间典型场,只与空间点有关,不随时间变化
分解方法
思路:利用实对称矩阵的性质:实对称矩阵存在一个由矩阵的特征向量组成的正交阵,使实对称矩阵化为对角阵V和Z的要求
先构造实对称阵
由原始矩阵构造实对称阵之前的协方差矩阵就是一种实对称矩阵
变换过程和计算
![在这里插入图片描述](https://img-blog.csdnimg.cn/0f4bce7f3ae34f598870b70ae6e20408.png)
S和特征值对角阵都是可以求出来的,这样V和Z就解出来了
实际做题时候要进行的计算
构造协方差矩阵S求出S的特征向量,排列成对角阵,注意特征值要按从上到下是从大到小的顺序排列带入下式,求出V(实际上V就是特征向量组成的矩阵,直接求特征向量也可) S=VZ 反解出Z
贡献率
第i个特征向量对x场的贡献率为(也就是解释方差) 前p个特征向量所占累积方差贡献为
显著性检验
特征值误差范围
相邻的特征值需要满足
蒙特卡罗检验
计算其特征值及方差贡献 , 并按大小排序 ,到 找到95% 分位点 , 将待检验特征向量方差贡献与分位点对比 , 高于95% 分位点则认为显著
原始场不同带来的变化
使用原始场表征的是气候态上的平均情况用距平场构造代表异常的时空分布情况标准化场代表相关系数的分布关系
解的分析
特征值大小对应着不同的模态,特征值越大,对应的模态越重要,我们主要关心的就是前几个模态特征值较大前几个模态就能反映出气候场的主要特征V的每一列表示一个空间典型场,这个是不随时间变化的同时V的第k列需要配合时间权重系数Z的第k行一起看 如果时间系数是负,代表该年有与特征向量相反的空间分布
|