基于数据分析的2019~2020北京市空气质量影响因素分析 您所在的位置:网站首页 分析空气污染的成因 基于数据分析的2019~2020北京市空气质量影响因素分析

基于数据分析的2019~2020北京市空气质量影响因素分析

2024-07-16 12:56| 来源: 网络整理| 查看: 265

基于数据分析的2019~2020北京市空气质量影响因素分析Analysis of Influencing Factors of Air Quality in Beijing from 2019 to 2020 Based on Data Analysis DOI: 10.12677/SA.2022.113070, PDF, HTML, XML,  被引量 下载: 503  浏览: 1,992  作者: 吴向莉, 李一格, 靳 研, 吴继垣:北京工业大学,北京 关键词: 空气质量;多元线性回归;描述性统计;Air Quality; Multiple Linear Regression; Descriptive Statistics 摘要: 本文通过对收集到的记录有AQI指数与二氧化硫、二氧化氮、PM10、PM2.5、一氧化碳和臭氧浓度的数据进行了描述性分析,并建立多元线性回归模型从而来得到六种物质与空气质量指数之间的关系,为空气质量改善提供学术依据。研究结果“两尘四气”两两变量之间大多具有明显的相关性,其中臭氧对AQI指数升高即空气污染程度增大具有最显著的影响,通过此研究结果本文认为在空气治理时应着重关注臭氧浓度的变化及其升高原因,从而得到更全面的科学治理策略。 Abstract: In this paper, we make a descriptive analysis of the collected AQI index, sulfur dioxide, nitrogen dioxide, PM10, PM2.5, carbon monoxide and ozone concentration data, and establish a multiple linear regression model to obtain the relationship between six substances and air quality index, and provide an academic basis for air quality improvement. The results “two dust four gas” has obvious correlation between two variables, including the AQI index of the air pollution degree has the most significant effect, through this study results in this paper that in air management, attention should be paid to the change of ozone concentration and its rise, so as to get a more comprehensive scientific management strategy. 文章引用:吴向莉, 李一格, 靳研, 吴继垣. 基于数据分析的2019~2020北京市空气质量影响因素分析[J]. 统计学与应用, 2022, 11(3): 653-659. https://doi.org/10.12677/SA.2022.113070

1. 引言

随着社会经济的发展,中国仍面临着许多难以解决的问题,环境问题为主要问题之一,环境污染问题对我国构建社会主义和谐社会的事业构成了严重的威胁和挑战,有了影响经济和制约社会的负面影响。空气质量指数(AQI)能够对空气质量进行定量描述,它描述了空气清洁程度或者污染的程度。环保局在计算空气质量时通过六个主要污染标准:二氧化硫、二氧化氮、PM10、PM2.5、一氧化碳和臭氧。AQI发布时一般都取用24小时平均值,它将这六项污染物用统一的标准呈现。

近年来随着人们对空气质量关注度的提高,国内外都有学者就空气质量问题进行了研究并发表相关研究文献,例如Neha Khanna (2000)采用多种大气污染物的综合评判的方法给出了一种新的空气污染指数(API)体系,并将此空气污染指数(API)与美国环保局(EPA)的污染标准指数(PSI)进行了对比 [1]。Indrami Gupta等(2006)选取印度的4个主要城市,分析了10年来总悬浮颗粒物和可吸入颗粒物的月平均值变化规律,指出这4个城市的总悬浮颗粒物(TSP)没有明显的减少趋势,但是PM呈递减或稳定趋势 [2]。国内对空气污染的指数研究主要以时间序列为主:赵景波(2004)以北京、兰州、乌鲁木齐等10个城市城区空气质量作为研究对象,研究分析2004年这10个城市的总悬浮颗粒物、二氧化硫、氮氧化物的污染差异和污染状况 [3]。鲁然英等(2006)通过分析2001~2005年的城市空气质量数据,指出了我国主要城市空气质量的时空分布状况 [4]。

在这些文章的基础上本研究拟通过分析2019~2020年北京市空气质量数据并对其进行回归建模,探究其变化趋势及空间特征并可以通过其中某几项或一项污染物的浓度变化预测AQI的变化,为北京市空气质量改善提出建议。

2. 数据处理及描述性分析

本文所用数据来源于中国AQI网站,包含AQI及PM2.5、PM10、二氧化硫、二氧化氮、一氧化碳、O3_8h浓度数据,数据选取范围为:2019年、2020年两年全年数据 [5]。

描述性统计能展示数据最基本的统计特征,下文通过展示各物质的统计学特征展示其AQI指数和其余六种物质的变化趋势及分布特征,从而对北京市的空气质量进行初步了解。

依据所收集的数据进行描述性分析和初步处理的步骤为:1) 数据处理,检查缺失值并去除缺失值项;2) 对AQI及“两尘四气”进行描述性统计分析;3) 画出空气质量饼图观察两年各空气质量等级的占比;4) 作AQI、及“两尘四气”随时间变化的时间序列图,观察变化规律;5) 作AQI及“两尘四气”两两之间做相关性分析 [6]。

Table 1. Statistical analysis of “Two Dust and Four Gas AQI” description in Beijing from 2019 to 2020

表1. 北京2019~2020年“两尘四气AQI”描述统计分析

表1中的标准差和方差的值可以看出各类物质浓度数据的离散程度,NO2、CO浓度和SO2浓度的标准偏差和方差很小,说明两者浓度数据的离散程度很小即各物质在随着时间的推移变化,这三种物质浓度的变化不大,且其浓度均值均达标,说明北京市在这三种物质治理上取得了显著成效;AQI、PM2.5、PM10和O3的标准偏差和方差很大,说明对应数据的离散程度很大即随着时间变化较大,在空气治理时应注重PM2.5、PM10和O3增大时原因以及时间特征。AQI的偏度均大于0,并且偏度值差值在1.363内,说明它们的数据分布呈现是右偏,及直方图中有一条长尾拖在右侧,偏斜程度相当。AQI及“两尘四气”中除O3以外峰度值均大于0,为尖顶峰,说明总体数据分布与正态分布相比较为陡峭。而O3的峰度值小于0,说明O3数据分布与正态分布相比较为平缓 [7]。

Table 2.Correlation of substances

表2. 各物质相关性

为了探索影响AQI指数的六种因素两两之间线性关系强弱,从而探索六种因素彼此对彼此变化影响的强弱,本文将对其进行相关性分析。表2为相关性分析结果,将北京2019~2020空气质量数据导入SPSS软件,进行变量之间的相关分析,通过此步可以看出两变量之间的相关性,经过“分析–相关–双变量”过程 [6],结果PM2.5与CO的相关系数为0.861,说明它们具有极强的正相关;PM2.5和PM10、NO2和SO2的相关系数分别为0.712、0.617和0.467,说明它们也具有较强的正相关性;PM10与NO2、SO2和CO的相关系数分别为0.571、0.477和0.565,说明它们具有较强的正相关性;NO2与SO2、CO的相关系数分别为0.560、0.684,说明它们具有较强的正相关性;SO2和CO的相关系数为0.583,两者之间也具有较强的相关性。其它变量间的相关系数小于0.4,说明它们之间相关性很弱 [6]。两物质之间存在正相关证明其中一种物质浓度的增大也会在一定程度上使另一种物质的浓度增大,当正相关系数越大,这种影响越明显,反之亦然。

Figure 1. Scatter plot of “Two Dust and Four Gas” changes over time in Beijing

图1. 北京市“两尘四气”随时间变化的散点图

从图1可以看出散点图均没有表现出明显的上升和下降的趋势,因此能够得到北京市“两尘四气”随时间变化均没有明显的线性变化关系。然而,由上可知,图像存在不固定频率的上升和下降,并且有受到季节性因素的影响,即表明“两尘四气”随时间变化具有明显的周期性和季节性 [6]。

O3随时间的变化表现出强烈的年度季节性,以及周期为1年的周期性,且数值冬季较小,夏季较大;PM2.5、PM10、CO、SO2、NO2随时间的变化也都具有明显的季节性,冬季的数值较大,夏季的数值较小,同时,CO、SO2。NO2也具有明显的以一年为周期的周期性。此外,2020年PM2.5、PM10的数值与2019年的数值相比有所降低 [6]。

Figure 2. Scatter plot of AQI changes over time in Beijing

图2. 北京市的AQI随时间变化的散点图

图2可以看出,AQI随时间的变化无上升和下降的趋势,但是存在季节性和周期性 [8],且在春冬季波动较大,在空气治理时可以多关注春冬季各物质排放情况。

Figure 3. Pie chart of air quality distribution in Beijing

图3. 北京市的空气质量分布饼图

本文运用饼图(图3)对数据中的质量等级进行描述从而得到北京市两年总体空气质量等级分布的特征,结果显示空气质量为良的占比最大。其次质量等级为“优”和“轻度污染”占比均在百分之二十五左右。综上所述,北京市空气质量总体处于优良状态,但是空气污染指数为“强度污染”和“中度污染”的天数也较多。在经济持续发展的情况下,北京作为全国“政治中心”和超一线城市,更应该积极响应国家政策,强化绿色优先理念,探索全面科学的策略改善自身空气质量。

3. 模型建立与检验

3.1. 因变量正态性检验,及数据处理

为了探索空气质量指数AQI和“两尘四气”浓度之间的关系,本文选用多因素回归分析以AQI指数做因变量其余六个指标做自变量进行回归拟合建模。在进行模型拟合之前将原数据分为测试集和训练集,选用70%的数据作为训练集用来估计模型中的参数,使拟合得出模型能够反映现实,剩下的30%的数据作为测试集可以对得到的模型进行评估。

通过对数据进行描述性分析认为本文所选择的6个自变量都会对AQI产生影响,于是考虑所有因素对AQI的影响。因为变换后的各变量的数量级差异较大,为了消除变量间的量纲关系,从而使数据具有可比性,所以回归前应用R软件中的scale()语言对数据进行标准化。

3.2. 模型建立

以北京市2019年和2020年两年的AQI数据为因变量,以“两尘四气”含量为自变量,运用R Studio中的lm()语言对数据进行回归分析但在进行回归建模时为了减小数据之间的绝对差异以及数据中部分绝对值的影响,本文对因变量取log对数,建立多元回归模型,结果如下表3:

Table 3. Multiple regression model results table

表3. 多元回归模型结果表

输出的模型结果如下:

ln ( A Q I ) = 4.281 + 0.097 pm 2.5 + 0.151 pm 10 − 0.040 SO 2 + 0.118 NO 2 + 0.111 CO + 0.287 O 3 _ 8 h

由模型可以看出各物质的回归系数中最大的为O3_8h,即在同样增加一单位的浓度的条件下当O3_8h增大时AQI变化是最大的,即O3_8h对AQI增大的影响是最显著的。

3.3. 模型检验

由上文的结果表明:F统计量的值为407.8,P值 < 2.2e−16 < 0.05,此结果表明:5%的显著性水平下,可以认为所建立的回归方程显著有效,可决定系数R2 = 0.8301,调整后的R2 = 0.828,说明方程的拟合结果较好 [9]。

此后对模型残差进行正态性检验,由于本文样本量较大所以选择通过R Studio中的ks.test()语言即K-S方法对残差的正态性进行正态性检验,且由于这种方法默认的是检验是否服从标准正态,所以在检验前还需对模型残差数据标准化,检验输出结果为D = 0.055509,P-value = 0.08738,由结果可得P > 0.05则残差的正态性检验也是通过的。

对拟合的结果进行DW检验(Durbin-Watson test)检验变量是否存在自相关,结果显示DW = 1.7375,p-value = 0.0009763 < 0.05,说明误差一阶自相关,则在后面我们在R软件中用科克伦–奥克特法消除自相关性。后还需对模型进行共线性检验,本文通过R软件car包中的vif()函数进行,输出结果如下表4:

Table 4. Collinearity test results table

表4. 共线性检验结果表

其结果都



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有