浙江省大气PM2.5时空分布及相关因子分析

您所在的位置：网站首页 › 相对湿度与降水量关系 › 浙江省大气PM2.5时空分布及相关因子分析

浙江省大气PM2.5时空分布及相关因子分析

2024-07-12 19:48| 来源: 网络整理| 查看: 265

1 引言(Introduction)

空气细小颗粒物(PM2.5)污染是政府和科学界一直关注的科学问题(Wang et al., 2018；Zhan et al., 2018), 随着经济增长、城市化进程加快、工业、交通运输和能源发电等领域不断扩大, 排放大量细小颗粒物(Huang et al., 2014；Xu et al., 2019), 其污染面积占地球面积的0.5%(United Nations, 2014), 对大气环境、人类健康和生态系统健康威胁日益加剧(Guerreiro et al., 2016；Popek et al., 2018；Yuan et al., 2018；Jin et al., 2018). 研究显示PM2.5大量排放可以影响地球太阳辐射, 促进光化学反应和阴霾形成, 降低大气能见度(Schiferl et al., 2018), 改变土壤pH, 直接或间接影响全球气候变化(Kok et al., 2018；靳全锋等, 2019)；研究显示PM2.5与人类健康之间存在相关关系(Lelieveld et al., 2015；Liu et al., 2016), 细小颗粒物可以直接进入人类呼吸系统, 导致支气管炎、心血管疾病、哮喘和其他疾病(Chen et al., 2013；Hofman et al., 2013, 靳全锋等, 2017), 显著增加妊娠期孕妇产后狂躁和抑郁风险几率(Qiu et al., 2018；Zeng et al., 2019；Niedzwiecki et al., 2020), 大量文献研究显示长期暴露于PM2.5环境下, PM2.5与非偶然性和特定病引起死亡率增加相关(Brook et al., 2010；Pope et al., 2011；Burnett et al., 2014), 卫生计量评估研究所(IHME)全球疾病负担项目研究显示2016年PM2.5导致全球410万人过早死亡(Cohen et al., 2017), 2013年中国因PM2.5过早死亡达763595人(Song et al., 2016), 其中北京每年约9000人过早死亡(Liu et al., 2016), 因此, 解决PM2.5问题对大气环境、生态系统、人类健康和社会共同利益至关重要.

中国正处于经济和城市化大发展时期, 长三角为密集型工业排放区, 大量PM2.5排放到大气中, 加剧了空气质量恶化(Li et al., 2019). 浙江省位于长三角经济核心位置, 因此探索浙江省PM2.5时空分布及相关因子对于中国东部环境问题至关重要. 目前国内已开展PM2.5浓度研究, 并取得一定进展(Jiang et al., 2018；Du et al., 2018；Gui et al., 2019), 以往以研究PM2.5时空格局(Fan et al., 2020；Li et al., 2020)和影响因素(Yang et al., 2018；Chen et al., 2018)为主, 目前尚未有效降低PM2.5浓度和危害的方法(Liacos et al., 2012；Solazzo et al., 2012).

目前国内关于大气污染物影响因素的研究主要采用源解析方法(Cai et al., 2019), 利用地面数据与遥感影像结合探索城市空气质量(Zhang et al., 2019), 利用气溶胶(AOD)反演PM2.5时空格局(Ma et al., 2016)等方法探索空气污染物时空变化及影响因素, 发现这些方法仅能解释变量53%~75%(Li et al., 2019), 无法准确探索影响因素, 因此, 本研究基于前人研究基础运用多元线性回归和随机森林方法来解决环境问题, 多元线性回归方法是普遍适用的方法. 随机森林(Random Forest)是一种非参数模型(Breiman, 2001), 可以用来解决分类和回归问题. 随机森林算法不需要考虑变量之间相互关系且不受线性回归模型的假设条件限制, 具有预测精度高及不易过渡拟合等优点(Svetnik et al., 2003). 近年来, 随机森林方法在生物学、地理学、生态学和环境污染等领域得到广泛应用.鉴于此, 本研究以浙江省2014—2019年PM2.5浓度数据为研究对象, 应用多元线性回归和随机森林方法结合气象、植被、地形、经济、人口和基础设施等因子探索PM2.5时空分布及相关因子以及为相关模型研究和政府大气环境污染防控提供科学依据.

2 资料来源与方法(Data and methods)

本研究以浙江省2014—2019年PM2.5数据为研究对象, 应用多元线性回归和随机森林方法结合气象、植被、地形、经济、人口和基础设施等因子探索PM2.5时空分布及相关因子.

2.1 研究区概况

浙江省位于中国东部, 区域范围是北纬27°06′~31°11′, 东经118°01′~123°10′, 面积为1.02×105 km2(图 1). 全省地貌类型复杂多样, 总体呈西南向东北倾斜趋势, 南部多丘陵地带；该区域地处亚热带季风气候区, 夏季雨热同期、冬季寒冷干燥, 年平均气温为15~18 ℃, 年平均雨量为980~2000 mm, 年均日照时长为1710~2100 h, 人口约为5737万人, 地区生产总值(GDP)为56197亿元人民币, 其中工业产值超过总产值41%(靳全锋等, 2019).

图 1(Fig. 1) 图 1 浙江省分布 Fig. 1 The spatial distribution of area in Zhejiang 2.2 数据来源与处理

本研究数据由环境监测、地形、气象、植被和人类活动数据等5部分组成.

2.2.1 环境监测数据

2014—2019年PM2.5实时监测站数据来源于中国环境监测总站(http://www.cnemc.cn/). 对位于浙江省城市及周边56个国控监测站点进行PM2.5监测, 并每小时进行一次采样. 计算每天、每月和每年各污染物平均值. 然后与地形、气象、植被和人类活动数据等数据进行叠加分析.

2.2.2 地形数据

地形数据包括高程、坡向、坡度. 其中DEM数据来源于地理空间数据云(http://www.gsclo-ud.cn/sources/?cdataid=265&pdataid=10), 运用ArcGIS对DEM数据进行3D分析获得坡向和坡度等数据, 坡向指数是目前地形研究的主要数据(Zhang et al., 2014), 该研究基于坡向计算坡向指数为：

(1)

式中, θ为坡向, 其取值范围0~360°, PI为π, Aspect Index取值范围为-1~1, 越接近1, 潜在太阳辐射越强.

2.2.3 气象数据

气象数据来源于中国气象数据共享网络(http://cdc.cma.gov.cn/), 浙江省及周边42个国家级气象站每日气象数据. 每日气象数据共包含蒸发、降水、湿度、温度、风速、光照和地表温度等22个气象因子, 本研究对气象数据进行预处理, 去除由于仪器设备损坏缺失的数据, 剩余气象因子包括蒸发量(mm)、日平均地表气温(℃)、日最高地表气温(℃)、日最低地表气温(℃)、日平均风速(m·s-1)、日最大风速(m·s-1)、日最大风速的风向(°)、日极大风速(m·s-1)、日极大风速的风向(°)、日降水量(mm)、日平均气压(hPa)、日最高气压(hPa)、日最低气压(hPa)、日照时数(h)、日平均气温(℃)、日最高气温(℃)、日最低气温(℃)、日平均相对湿度和日最小相对湿度共19个气象因子.

2.2.4 植被数据

植被覆盖数据根据地理空间数据云(http://www.gscloud.cn)Landsat影像经过拼接、校正、投影等变换合成归一化植被指数(NDVI), 根据前人研究成果, 以NDVI为基础采用像元二分模型求取植被覆盖(Zhang et al., 2013), 计算方法见式(2).

(2)

式中, FVC为研究区植被覆盖度, NDVIsoil、NDVIveg分别为纯土壤像元值、纯植被像元值其中NDVIsoil、NDVIveg在ENVI中以5%置信区间确定.

2.2.5 人类活动数据

人类活动数据主要由基础设施(铁路密度、道路密度和河网密度)、经济数据和人口数据组成. 基础设施数据来源于国家地球系统科学数据共享平台(http://www.geodata.cn/Portal/index.jsp), 分辨率为1 km×1 km的栅格数据. 经济和人口数据来源于浙江省统计局(http://tjj.zj.gov.cn/col/col1525563/index.html).

2.3 数据处理 2.3.1 多重共线性诊断

多重共线性是自变量间相关关系的重要表现, 如果模型存在较高共线性, 会导致显著性检验失去意义及模型的预测功能失效. 因此, 在模型建模前应对自变量进行多重共线性诊断, 剔除有显著共线性的自变量. 本研究运用方差膨胀因子(VIF)对因子进行多重共线性检验, 以VIF=10为标准, 当VIF>10表明自变量间存在多重共线性, 将其剔除并以逐步回归法得到最优结果；当VIF < 10表明自变量间不存在多重共线性.

2.3.2 多元线性回归模型

多元线性回归模型是用多个自变量解释因变量的变化的一种常用统计模型, 其公式见式(3).

(3)

式中, y为因变量；x1…xk为非随机变量；β1…βk为回归系数；ξ为随机误差项；本文对28个对PM2.5浓度产生影响变量进行分析；y为PM2.5浓度, ξ为各种随机因素对y的影响的总和, 且服从正态分布(Olson et al., 1985).

2.3.3 随机森林模型

随机森林是一种非参数算法可用于回归和分类(Breiman, 2001), 在数据集上表现良好, 对数据具有极强的适应和抗噪能力, 对于大样本运算速度较快, 实现比较简单. 本研究运用回归的方法研究PM2.5浓度影响变量, 利用bootstrap抽样思想, 有放回的抽取a个自助样本并构建a棵回归树, 从全部属性中等概率随机抽取一个最优属性, 然后对a棵回归树的节点分裂, 一般每个节点分裂mtry次, 并通过a个袋外误差(out-of-bag error, OOBE)来估测森林的强度. 其中袋外误差的个数a与节点分裂的次数mtry (mtry＜m)是重要的自定义参数. 李欣海的研究表明, 随机森林用于回归模型中每个节点分裂的次数mtry最适取值为m/3, 研究表明在随机森林回归过程中参数a的值应尽量大, 保证袋外误差的稳定性, 本研究中自变量的个数m等于28, 取mtry的值为9, 参数a的取值为10000.

2.3.4 模型变量的选择及运算

本研究根据前人研究成果, 将总样本数据随机分成60%的训练样本和40%测试样本(Rodrigues et al., 2014), 有放回随机抽样, 重复5次, 分别得到5组样本, 对5组样本进行多元线性回归和随机森林运算, 建立5个中间模型. 以得到各自的显著变量大于3次为基准, 确定最终变量, 从而进行最终样本的运算. 研究通过对观测值和预测值进行相关系数的计算来分析其是否有显著相关性, 验证中间模型得出模型的预测能力. 在选择好变量后, 应用完整的数据集构建最终模型并进行分析. 应用计算包Relaimpo R软件(Gromping, 2006)来计算每个变量的贡献度, 用“lmg”指标测定评估每个变量的相对重要性(Lindeman et al., 1980).

2.4 浙江省PM2.5浓度精度评价

本研究在浙江省PM2.5浓度精度验证过程中分别对PM2.5浓度实测数据与多元线性回归和随机森林模型预测值进比较分析. 精度验证通过分别计算均方根误差(RMSE)、均方绝对百分比误差(MAPE)以及变异解释量(R2)来评估PM2.5浓度精度. RMSE、MAPE和R2计算公式见式(4)~(7).

(4) (5) (6) (7)

式中, yi为PM2.5浓度实测数据, 为多元线性回归和随机森林模型拟合PM2.5浓度数据.

3 结果与分析(Results and analysis) 3.1 浙江省PM2.5浓度时空分布

图 2a显示浙江省平均PM2.5浓度月变化存在差异, 总体呈“V”分布, 其中极大值多集中在1—2月, 最低值多集中在7—8月, 1—12月PM2.5平均浓度分别为64.36、49.01、45.15、40.85、37.90、30.57、24.58、25.44、29.43、35.45、42.39和55.82 μg·m-3. PM2.5浓度具有明显季节性差异, PM2.5平均浓度高低顺序为冬季>春季>秋季>夏季, 春、夏、秋和冬季PM2.5平均浓度分别为41.30、26.82、35.75和56.14 μg·m-3. 研究显示夏季空气质量最优, 冬季最差, 一方面夏季植被生长旺盛、降水充沛有利于降低空气PM2.5湿沉降及盛行东风和海洋清洁空气对浙江空气污染稀释作用, 从而降低空气中PM2.5浓度. 另一方面, 因为冬季PM2.5浓度偏高的主要原因一是排放较高, 二是不利的气象条件, 受干湿沉降的影响与这两个主要原因相比应该是较小.

图 2(Fig. 2) 图 2 2014—2019年浙江省PM2.5浓度时间变化(a)及年变化(b) Fig. 2 Time variation(a) and annual variation(b) of PM2.5 concentration in Zhejiang in from 2014 to 2019

图 2b为2014—2019年浙江省空气PM2.5平均浓度总体呈下降趋势, 2014—2019年PM2.5平均浓度分别为54.04、45.77、39.89、37.56、32.64和30.56 μg·m-3, 年平均减少11.8%. 研究显示工业排放是造成空气污染的主要原因(Krotkov et al., 2016；Zhao et al., 2019), 为了控制空气PM2.5浓度, 2013年政府出台《中国国家环境空气质量标准》；政府加大工业排放控制力度, 工业排放限值和空气质量控制措施甚至更加严格, 政府不仅相继出台了多项排放控制政策, 而且还根据近年来的实际情况来确定了减排目标(Guan et al., 2014;Silver et al., 2018). 特别是政府为减少工业和汽车尾气排放以及使用清洁能源做出了许多努力, 所有现有的燃煤电厂都达到了2014年发布的新排放标准(GB13223—2011)要求(Karplus et al., 2018), 因此, PM2.5显著下降可能归因于中央和地方政府实施的有效控制措施.

3.2 浙江省PM2.5浓度空间分布

根据浙江省各站点PM2.5实时监测数据, 运用ArcGIS10.4在UTM-48投影坐标系统下运用普通克里金差值方法, 绘制2014—2019年污染物时空分布图(图 3), PM2.5浓度空间上不均衡, 呈西北多东南少的分布特征. 杭州、湖州、嘉兴、金华、丽水、宁波、衢州、绍兴、台州、温州和舟山区域PM2.5年均浓度分别为47.18、46.18、44.89、45.41、34.76、38.91、41.74、48.21、36.31和38.07 μg·m-3. 浙江省北部PM2.5浓度较高, 其浓度远超过中国环境空气质量标准(GB3095—2012), 尽管区域PM2.5总体呈下降趋势, 但PM2.5浓度水平仍然高于中国环境空气质量标准确定水平. 研究表明浙江北部区域空气质量改善相对较小, 主要由于浙北地区是浙江重工业分布区, 区域城市化水平、人口密度、民用汽车拥有量及交通设施导致生产生活中颗粒物排放增加以及冬季该区域受到来自内蒙古以及山西、河北、河南、安徽和山东等省的西北污染空气团的影响, 有效促进区域空间PM2.5浓度增加(Wang et al., 2014；Sun et al., 2019).

图 3(Fig. 3) 图 3 2014—2019年浙江省PM2.5浓度空间分布 Fig. 3 Spatial distributions of PM2.5 concentration in Zhejiang in from 2014 to 2019 3.3 浙江省PM2.5浓度变化相关因子分析 3.3.1 多元线性回归模型(MLR)分析结果

本研究运用方差膨胀因子对模型自变量进行多重共线性诊断, 其中日平均气压(AV-PRS)、日平均气温(AV-TEM)、日最低气温(MI-TEM)、日平均地表气温(AV-GST)、日最高气压(MA-PRS)、道路密度(Road)和日最大气温(MA-TEM)等方差膨胀因子(VIF)分别为443.92、305.97、89.93、88.80、41.76、42.89和19.86, 运用逐步剔除方法, 剔除具有显著共线性7个自变量；进一步运用变量解释度剔除极大风速的风向(DMM-WIN)、日最大风速的风向(DMA-WIN)、人均国内生产总值(GDP)、坡向指数(Aspect index)和坡度(Slope)等贡献度小的因子详见表 1.

表 1(Table 1) 表 1 多元线性回归模型因子筛选 Table 1 Factor screening for multiple linear regression models 表 1 多元线性回归模型因子筛选 Table 1 Factor screening for multiple linear regression models 变量 p值最小值 p值最大值样本显著性个数 VIF 解释度日最低地表气温MI-GST 0 0 5 6.72 22.787% 日最低气压MI-PRS 0 0.003 5 4.089 14.891% 日蒸发量EVP 0 0 5 2.249 13.935% 日最高地表气温MA-GST 0 0 5 6.128 9.331% 日最小相对湿度MI-RHU 0 0 5 7.561 5.238% 日极大风速MM-WIN 0 0 5 6.696 5.130% 月植被覆盖度FVC 0 0 5 1.417 5.087% 日降水量PRE 0 0 5 1.323 5.013% 日平均相对湿度AV-RHU 0 0 5 6.425 3.148% 铁路密度Railway 0 0 5 2.132 2.777% 日最大风速MA-WIN 0 0 5 8.611 2.525% 日照时长SSD 0 0 5 3.044 2.231% 海拔DEM 0 0 5 2.513 1.667% 河流密度River 0 0 5 2.53 1.650% 日平均风速AV-WIN 0 0.001 5 2.921 1.580% 人口密度POP 0 0 5 6.444 1.215% 极大风速的风向DMM-WIN 0 0.003 5 2.013 0.750% 日最大风速的风向DMA-WIN 0 0.015 4 1.988 0.477% 人均国内生产总值GDP 0.0060 0.276 1 5.882 0.311% 坡向指数Aspect index 0.2590 0.845 0 1.255 0.233% 坡度Slope 0.0615 0.135 0 1.749 0.023%

研究显示多元线性回归模型最终由16个变量构成, 变量对PM2.5浓度影响大小顺序见表 2, 其中日最低地表气温(MI-GST)、日蒸发量(EVP)、日最小相对湿度(MI-RHU)、日极大风速(MM-WIN)、日降水量(PRE)、日照时长(SSD)、海拔(DEM)、日平均风速(AV-WIN)和人口密度(POP)等8个因子与PM2.5浓度呈负相关关系, 其余10个因子对PM2.5浓度有促进作用.

表 2(Table 2) 表 2 最终多元线性回归模型 Table 2 The final Multiple Linear Regression model 表 2 最终多元线性回归模型 Table 2 The final Multiple Linear Regression model 变量估计系数标准误 t值显著性水平解释度常量Intercept -93.8243 31.04686 -3.0220 0.0025 日最低地表气温MI-GST -1.0789 0.04062 -26.5598 < 0.0001 23.082% 日最低气压MI-PRS 0.1469 0.02978 4.9334 < 0.0001 15.033% 日蒸发量EVP -1.5648 0.08908 -17.5674 < 0.0001 14.395% 日最高地表气温MA-GST 0.2012 0.02749 7.3194 < 0.0001 9.476% 日最小相对湿度MI-RHU -0.2610 0.02141 -12.1882 < 0.0001 5.436% 月植被覆盖度FVC 20.6698 0.88950 23.2376 < 0.0001 5.141% 日降水量PRE -0.2480 0.01683 -14.7305 < 0.0001 5.079% 日极大风速MM-WIN -0.1525 0.01277 -11.9359 < 0.0001 4.995% 日平均相对湿度AV-RHU 0.1577 0.02723 5.7921 < 0.0001 3.238% 铁路密度Railway 279.8514 35.43846 7.8968 < 0.0001 2.748% 日最大风速MA-WIN 1.5471 0.22420 6.9004 < 0.0001 2.507% 日照时长SSD -0.8475 0.06219 -13.6280 < 0.0001 2.228% 海拔DEM -0.1069 0.00744 -14.3615 < 0.0001 1.953% 日平均风速AV-WIN -1.3323 0.22056 -6.0406 < 0.0001 1.572% 河流密度River 356.8953 30.81391 11.5823 < 0.0001 1.571% 人口密度POP 0.0006 0.00004 13.4361 < 0.0001 1.546% 3.3.2 随机森林模型分析结果

随机森林模型的平均准确率降低度(Mean Decrease Accuracy)是衡量把一个变量的取值变为随机数, 预测准确性降低程度的一个参数, 其值越大说明变量重要性越强. 基于随机森林方法对模型变量筛选, 本文基于平均准确率降低度值50%作为阈值, 逐步剔除平均准确率降低度小于50%的变量, 其余变量进入模型进行拟合. 各变量因子对PM2.5影响程度如图 4所示, 各样本组中变量的重要性顺序基本一致, 经筛选, 确定17个变量进行构建随机森林的回归模型, 最终模型中变量重要性顺序见表 3.

图 4(Fig. 4) 图 4 随机森林运算对PM2.5浓度影响的自变量的重要性排序 (X1为日蒸发量, X2为月植被覆盖度, X3为日照时长, X4为日降水量, X5为日极大风速, X6为日最大风速风向积, X7为日最小相对湿度, X8为日平均相对湿度, X9为日平均风速, X10为日极大风向, X11为日最大风速, X12为铁路密度, X13为日最小气压, X14为河流密度, X15为海拔, X16为道路密度, X17为日最低地表气温, X18为日最低气温, X19为日最高气温, X20为日平均气温, X21为国内生产总值, X22为坡度, X23为日平均气压, X24为日最高气压, X25为人口密度, X26为日平均地表气温, X27为日最高地表气温, X28为坡向指数) Fig. 4 Random forests affecting PM2.5 concentration sort the importance of independent variables 表 3(Table 3) 表 3 最终随机森林模型变量的重要性排序 Table 3 The importance of variables included in the final model using Random Forest 表 3 最终随机森林模型变量的重要性排序 Table 3 The importance of variables included in the final model using Random Forest 变量平均准确降低度变量平均准确降低度日最低地表气温MI-GST 206.146 日极大风速风向DMM-WIN 120.029 日蒸发量EVP 197.879 日最小相对湿度MI-RHU 113.038 日照时长SSD 186.901 铁路密度Railway 112.905 月植被覆盖度FVC 171.807 河流密度River 108.624 日降水量PRE 157.941 海拔DEM 100.533 日平均风速AV-WIN 147.159 日最大风速MA-WIN 97.954 日极大风速MM-WIN 133.934 日最低气压MI-PRS 93.899 日最大风速风向DMA-WIN 130.722 日最高气压MA-PRS 79.165 日平均相对湿度AV-RHU 126.165

经筛选, 确定17个变量进行构建随机森林的回归模型(表 3).在最终模型中变量重要性顺序见表 3.

3.4 模型拟合能力比较

多元线性回归模型中每个训练样本的调整R2为0.32~0.33, 变量解释度为31%~34%, 观测值与预测值的相关性都在0.56~0.58(表 4), 结果表明多元线性回归模型拟合效果不佳, 但依然能解释PM2.5浓度与因子间相关关系.

表 4(Table 4) 表 4 多元线性回归模型中的调整R2和观测值与预测值之间的相关性值 Table 4 Adjust R2 and correlation values between observed and predicted values in the Multiple Linear Regression model 表 4 多元线性回归模型中的调整R2和观测值与预测值之间的相关性值 Table 4 Adjust R2 and correlation values between observed and predicted values in the Multiple Linear Regression model 样本组变量解释度调整R2 观察与预测的相关性训练样本(60%) 测试样本(40%) 样本1 31.98% 31.48% 0.320 0.566 样本2 33.26% 33.62% 0.333 0.577 样本3 32.20% 32.28% 0.322 0.567 样本4 33.20% 33.05% 0.332 0.576 样本5 33.10% 33.33% 0.331 0.575

随机森林模型中训练样本与测试样本的解释度都在77.4%~78.8%之间, 均方残差在128.564~ 139.265之间, 且观测值与预测值的相关性在0.88之上(表 5), 其解释度和相关性分别高于多元线性回归模型40%和30%左右. 结果表明PM2.5浓度影响因子分析上, 其模型因子差异不大, 随机森林模型拟合度更高, 其模型显著优于多元线性回归模型(图 5). 此外, 随机森林模型和多元线性回归模型皆高估PM2.5浓度情况, 其中多元线性回归模型预测值高于随机森林模型结果, 随着PM2.5浓度增加多元线性回归模型预测值偏离远大于随机森林模型结果, 预测值偏差较大是由于较高PM2.5浓度数据密度不高的情况下, 训练样本没有足够信息, 容易造成高PM2.5浓度边缘错失现象, 导致PM2.5浓度被估测误差较大.

表 5(Table 5) 表 5 随机森林模型的结果, 包括观测值与预测值之间的相关性 Table 5 The result of Random Forest, including the correlation values between observed (obs) and predicted (pred) values 表 5 随机森林模型的结果, 包括观测值与预测值之间的相关性 Table 5 The result of Random Forest, including the correlation values between observed (obs) and predicted (pred) values 样本组变量解释度均方残差观察与预测的相关性训练样本(60%) 测试样本(40%) 样本1 77.43% 77.23% 139.265 0.879 样本2 77.59% 78.42% 136.258 0.896 样本3 78.32% 78.53% 131.619 0.892 样本4 78.77% 78.68% 128.564 0.887 样本5 78.02% 77.60% 137.577 0.889 图 5(Fig. 5) 图 5 多元线性回归(MLR)与随机森林(RF)模型观测值和预测值线性拟合图 Fig. 5 Plots of the observed and the predicted values calculated by MLR and RF model for the final model 3.5 拟合精度评价

图 6显示基于全样本模型预测PM2.5浓度与实测值进行拟合精度比较, 其中随机森林模型均方根误差(RMSE)、均方绝对百分比误差(MAPE)和变异解释量(R2)分别为0.133、17.83%和0.834, 明显优于多元线性回归模型, 所以随机森林回归模型更适合浙江省PM2.5浓度预测评估.

图 6(Fig. 6) 图 6 PM2.5浓度精度验证 Fig. 6 Accuracy validations of PM2.5 concentration 3.6 重要变量依赖性

为了更好揭示各因子对PM2.5浓度影响, 运用随机森林算法中partialPlot函数绘制16个重要影响因子各自对PM2.5浓度影响区间. 日最低地表气温(MI-GST)、日蒸发量(EVP)、日照时长(SSD)、日降水量(PRE)、日平均风速(AV-WIN)、日极大风速(MM-WIN)和海拔(DEM)对PM2.5浓度影响呈下降趋势, 当日最低地表气温(MI-GST)、日蒸发量(EVP)、日平均风速(AV-WIN)分别达到25 ℃、9.0 mm和3.5 m·s-1时, PM2.5浓度影响最小, 当日降水量(PRE)、日照时长(SSD)、日极大风速(MM-WIN)和海拔(DEM)分别超过40 mm、12 h、10 m·s-1和100 m时, PM2.5浓度影响基本稳定；月植被覆盖度(FVC)、铁路密度(Railway)、河流密度(River)、日最高气压(MA-PRS)和日最低气压(MI-PRS)对PM2.5浓度影响总体呈上升趋势；日最大风速风向(DMA-WIN)、日平均相对湿度(AV-RHU)、日极大风速风向(DMM-WIN)和日最大风速(MA-WIN)对PM2.5浓度影响呈先降低后增加变化, 其极小值分别是0.6 m·s-1、95%、5°和4.5 m·s-1；河流密度(River)对PM2.5浓度影响总体呈先增加后降低变化趋势.

4 讨论(Discussion)

研究表明2014—2019年浙江省PM2.5浓度时空分布不均匀, 每年呈下降趋势, 而季节变化差异显著, 总体呈冬季>春季>秋季>夏季规律；空间上呈西北多东南少的分布特征. 该研究结果与Wang等(2018)研究结果一致. 利用传统多元线性回归与随机森林方法探究浙江省PM2.5浓度与影响因子之间关系, 研究结果表明：随机森林模型比多元线性回归模型具有更优的均方根误差(RMSE)、均方绝对百分比误差(MAPE)、变异解释量(R2)和更好拟合效果, 能够充分体现出各因子对PM2.5浓度影响.

运用多元线性回归与随机森林模型研究显示日最低地表气温(MI-GST)、日最低气压(MI-PRS)、日蒸发量(EVP)、日最小相对湿度(MI-RHU)、月植被覆盖度(FVC)、日降水量(PRE)、日极大风速(MM-WIN)、日平均相对湿度(AV-RHU)、铁路密度(Railway)日最大风速(MA-WIN)、日照时长(SSD)、海拔(DEM)、日平均风速(AV-WIN)和河流密度(River)等15个因子对PM2.5浓度的影响较为显著. 日最低地表气温(MI-GST)、日蒸发量(EVP)、日最小相对湿度(MI-RHU)、日降水量(PRE)、日极大风速(MM-WIN)、日照时长(SSD)、海拔(DEM)和日平均风速(AV-WIN)等因子与PM2.5浓度呈显著负相关, 研究显示当日照时长变长增加最低地表气温, 日蒸发量增强, 空气中相对湿度接近或达到饱和时, 会增加降水量降低PM2.5浓度(He et al., 2019)；PM2.5浓度随着海拔增加而降低, PM2.5在对流层底部分布较多, 该污染源受到风速影响较大, 风速增强有利于PM2.5扩散(He et al., 2019), 此外, 风速逐步增加有利于高污染区域PM2.5向浙江省输送, 增加区域PM2.5浓度. 日最低气压(MI-PRS)、日最高地表气温(MA-GST)、月植被覆盖度(FVC)、日平均相对湿度(AV-RHU)、铁路密度(Railway)、日最大风速(MA-WIN)和河流密度(River)与PM2.5浓度呈显著正相关关系, 当日最高地表气温, 相对湿度极大地促进了干燥条件下的二次反应, 这导致PM 2.5浓度增加(Liu et al., 2016), 铁路密度(Railway)和河流密度(River)有效激活人类活动, 增加区域PM2.5排放, 增加区域PM2.5浓度.

图 7(Fig. 7) 图 7 主要因子对PM2.5浓度影响 Fig. 7 Partial plots show the effect of each variable on PM2.5 concentration

因此, 政府应采取有效措施减少大气PM2.5浓度, 第一, 结果表明降水和空气相对湿度与空气中PM2.5浓度呈负相关, 政府可以从10月—次年3月适当增加浙江省北部区域人工降水量及空气相对湿度, 能够有效降低空气PM2.5浓度. 第二, 人口密度有效增加空气PM2.5浓度, 人口密度越大民用车辆越多, 适当减少私家车出行数量, 提倡绿色出行, 在一定程度上减少空气PM2.5浓度；第三, Fausto等(2014)研究指出每公顷植被每年能有效清除16~149 kg颗粒物, 浙江省北部区域森林覆盖率较低, 政府可以适当增加高吸纳植被种植, 有效降低区域PM2.5干沉降；最后, 大气环境是人类赖以生存的物质基础, 大气环境易受到人类活动影响, 建议保护大气环境从生活点滴做起.

5 结论(Conclusions)

1) 浙江省PM2.5浓度时间分布不均匀, 时间上每年呈下降趋势, 季节变化差异显著, 总体呈冬季>春季>秋季>夏季的规律.

2) 浙江省PM2.5浓度空间上不均衡, 呈西北多东南少分布特征, 北部PM2.5浓度局部较高, 其浓度远超过中国环境空气质量标准.

3) 回归模型结果表明日最低地表气温、日最低气压、日蒸发量、日最小相对湿度、月植被覆盖度、日降水量、日极大风速、日平均相对湿度、铁路密度、日最大风速、日照时长、海拔、日平均风速和河流密度等15个因子对PM2.5浓度影响显著.

4) 随机森林模型均方根误差(RMSE)、均方绝对百分比误差(MAPE)和变异解释量(R2)分别为0.133、17.83%和0.834明显优于多元线性回归(0.278、40.48%和0.575), 表明随机森林更适合浙江省PM2.5浓度估测.

【本文地址】

公司简介

联系我们