基于深度学习与随机森林的PM_(2.5)浓度预测模型被引量：6

A PM_(2.5)prediction model based on deep learning and random forest

导出

摘要针对PM_(2.5)浓度预测中传统机器学习算法无法对数据内部隐藏特征进行深层次挖掘,而深度学习算法在数据较少情况下效果不佳的问题,综合考虑深度学习与随机森林的特点,提出一种基于深度学习与随机森林的PM_(2.5)浓度预测组合模型。模型以气溶胶光学厚度(AOD)遥感数据、气象再分析数据和PM_(2.5)地面观测数据构建训练数据集,通过深度学习方法对训练数据内部深层次隐含特征进行提取,将提取得到的隐含特征用于随机森林模型训练,并使用随机森林回归算法得到PM_(2.5)浓度的预测值。为验证方法的有效性,以河南省区域2018年—2019年的PM_(2.5)浓度估算为例,将原始特征与利用CNN、LSTM和CNN_LSTM所提取特征共同构建的新特征分别通过随机森林回归、支持向量回归以及K近邻回归等3种传统机器学习方法进行训练和预测。实验结果表明,在较少数据情况下PMCOM模型无论是在整体预测还是在分季节预测场景下均具有较好的预测精度,其中以LSTM为特征选择器,RF为回归器的组合模型是本实验的最优模型,在即使只有35%的数据作为训练样本时,整体预测实验中R^(2)仍可达0.89,各季节预测实验中R^(2)均在0.75以上。 At present,the situation of environmental pollution in China is grim,among which regional compound air pollution dominated by PM_(2.5)is the most prominent.Aerosol Optical Depth(AOD)is a key physical quantity used to characterize the degree of atmospheric turbidity,which represents the intensity of aerosol light reduction.Many studies have shown that there is a strong correlation between AOD and PM_(2.5).Using the AOD data obtained by satellite remote sensing combined with other influencing factors to analyze the change mechanism of PM_(2.5)is of great significance to air pollution prevention and the protection of human health.The diffusion of PM_(2.5)is an extremely complicated process,and the PM_(2.5)prediction model based on the statistical regression method can only describe a relatively simple nonlinear relationship.However,the estimation of PM_(2.5)is considered to be a more complex multivariable nonlinear problem.Compared with statistical regression models,the PM_(2.5)prediction model based on traditional machine learning algorithms can deal with more complex nonlinear problems.However,its ability to process historical data is still limited,so it is difficult to mine the variation law of pollutant concentrations from the perspective of big data.Compared with the traditional machine learning method,the models based on deep learning can dig deep features hidden in historical data.However,the AOD remote sensing data are affected by image time resolution and pixel cloud pollution,which will greatly reduce the effective data.Because the construction of a deep learning method depends on a large amount of training data,less training data will seriously affect the model accuracy.Aiming at the problem that the traditional machine learning algorithm cannot deeply mine the hidden association features in data and the deep learning algorithm has a poor effect under the condition of less data,a combined model of PM_(2.5)prediction based on deep learning and random forest is proposed.The model builds a training dataset with AOD remote sensing data,meteorological reanalysis data and PM_(2.5)ground observation data.The deep hidden features in the training data are extracted by the powerful feature extraction ability of the deep learning model first.Then,the extracted hidden features are used in the training of the random forest model,and the predicted value of PM_(2.5)concentration is obtained by the random forest regression algorithm.To verify the effectiveness of this method,a series of experiments were carried out.The results demonstrate that PMCOM has better prediction accuracy in both overall prediction and seasonal prediction scenarios.The combination of random forest and long-and short-term memory neural networks is the best for this experiment.Even when only 35%of the data are used for training,R^(2) in the overall prediction experiment can reach 0.89,and R^(2) in each season prediction experiment is also above 0.75.The combination of deep learning and random forest can reduce the dependence of deep learning models on the amount of data by random forest and make full use of the high-level hidden features of existing historical data.In this way,it makes up for the deficiency of mining the internal associated features of data by a random forest model and improves the prediction accuracy of PM_(2.5)concentration.

作者彭豪杰周杨胡校飞张龙彭杨钊蔡心悦 PENG Haojie;ZHOU Yang;HU Xiaofei;ZHANG Long;PENG Yangzhao;CAI Xinyue(Institute of Geospatial Information,Information Engineering University,Zhengzhou 450001,China;Beijing Institute of Remote Sensing Information,Beijing 100192,China)

机构地区信息工程大学地理空间信息学院北京遥感信息研究所

出处《遥感学报》 EI CSCD 北大核心 2023年第2期430-440,共11页 NATIONAL REMOTE SENSING BULLETIN

关键词遥感 PM_(2.5) 深度学习随机森林长短时神经网络 PM_(2.5)组合模型 remote sensing PM_(2.5) Deep Learning Random Forest LSTM PMCOM

分类号 P2 [天文地球—测绘科学与技术]

引文网络
相关文献

参考文献14

1余东行,张保明,赵传,郭海涛,卢俊.联合卷积神经网络与集成学习的遥感影像场景分类[J].遥感学报,2020,24(6):717-727. 被引量：37
2张长江,戴李杰,马雷鸣.应用SVM的PM2.5未来一小时浓度动态预报模型[J].红外与激光工程,2017,46(2):245-252. 被引量：5
3赵文芳,林润生,唐伟,周勇.基于深度学习的PM2.5短期预测模型[J].南京师大学报（自然科学版）,2019,42(3):32-41. 被引量：15
4夏晓圣,陈菁菁,王佳佳,程先富.基于随机森林模型的中国PM2.5浓度影响因素分析[J].环境科学,2020,41(5):2057-2065. 被引量：61
5王振波,方创琳,许光,潘月鹏.2014年中国城市PM_(2.5)浓度的时空变化规律[J].地理学报,2015,70(11):1720-1734. 被引量：234
6申原,陈朝亮,钱静,刘军.基于随机森林的高分辨率PM_(2.5)遥感反演——以广东省为例[J].集成技术,2018,7(3):31-41. 被引量：9
7曲悦,钱旭,宋洪庆,何杰,李剑辉,修昊.基于机器学习的北京市PM2.5浓度预测模型及模拟分析[J].工程科学学报,2019,41(3):401-407. 被引量：28
8秦东明,丁志军,金玉鹏,赵勤.基于自编码网络的空气污染物浓度预测[J].同济大学学报（自然科学版）,2019,47(5):681-687. 被引量：5
9刘林钰,张永军,李彦胜,刘欣怡,万一.基于深度学习的华东地区PM2.5浓度遥感反演[J].环境科学,2020,41(4):1513-1519. 被引量：20
10刘红年,朱焱,林惠娟,王学远.基于自动站资料的苏州灰霾天气分析[J].中国环境科学,2015,35(3):668-675. 被引量：7

二级参考文献130

1张继红,徐盛荣,赵淑敏.逆温天气对大气污染的影响分析[J].黑龙江环境通报,2008,32(2):24-25. 被引量：21
2周丽,徐祥德,丁国安,苗秋菊,魏凤英.北京地区气溶胶PM2.5粒子浓度的相关因子及其估算模型[J].测绘科技动态,2003,61(6):761-768. 被引量：85
3周江兴.北京市几种主要污染物浓度与气象要素的相关分析[J].应用气象学报,2005,16(B03):123-127. 被引量：54
4李龙凤,王新明,赵利容,何秋生,盛国英,傅家谟.广州市街道环境PM_(10)和PM_(2.5)质量浓度的变化特征[J].地球与环境,2005,33(2):57-60. 被引量：54
5鲍立威,何敏,沈平.关于BP模型的缺陷的讨论[J].模式识别与人工智能,1995,8(1):1-5. 被引量：43
6刘严.多元线性回归的数学模型[J].沈阳工程学院学报（自然科学版）,2005,1(2):128-129. 被引量：78
7徐鹏炜,谭湘萍,蔡菊珍,刘劲松.杭州城市大气消光系数和能见度的影响因子研究[J].环境污染与防治,2005,27(6):410-413. 被引量：26
8吴兑,毕雪岩,邓雪娇,李菲,谭浩波,廖国莲,黄健.珠江三角洲大气灰霾导致能见度下降问题研究[J].气象学报,2006,64(4):510-517. 被引量：388
9张小曳.中国大气气溶胶及其气候效应的研究[J].地球科学进展,2007,22(1):12-16. 被引量：163
10刘新罡,张远航,曾立民,杨鸿,刘源.广州市大气能见度影响因子的贡献研究[J].气候与环境研究,2006,11(6):733-738. 被引量：65

共引文献543

1崔忠宝,谢久明,周学均,李瑞达,马林旭,王学时.CVC六辊平整机轧制高强钢实践研究[J].机械设计,2020,37(S01):259-261. 被引量：1
2李杨,刘永和,王西岳,王海邻.焦作市PM_(2.5)和PM_(10)时空变化特征及其与气象因子的关系[J].环境工程,2022,40(9):44-53. 被引量：6
3石妞,赵威,邹泽铎,游谋,何志啸.2000-2018年黄河流域县域尺度PM_(2.5)污染时空格局[J].河南大学学报（自然科学版）,2023,53(1):1-12. 被引量：1
4霍文,栾博钰,周伟,陆翔,王春丽,周永利,赵彬宇.基于环境因素的露天煤矿粉尘质量浓度预测[J].辽宁工程技术大学学报（自然科学版）,2021,40(5):409-414. 被引量：12
5白煜,王晶,徐茜,佘倩楠,苏玲,张飞,郝影.2019年上海市空气质量特征研究[J].环境科学与技术,2023,46(S02):135-141. 被引量：1
6刘稳,詹庆明,邱春迪,戴文博,巫溢涵.基于精细监测的襄阳冬夏季颗粒物污染时空变化研究[J].环境科学与技术,2023,46(S01):8-18. 被引量：1
7汪蕊,丁建丽,马雯.乌鲁木齐PM_(2.5)时空演变及扩散轨迹模拟[J].环境科学与技术,2021(S02):13-20.
8门丹,黄雄,易行,薛启航,邓雪明.长江经济带雾霾污染的驱动效应及其空间特征研究[J].环境科学与技术,2020(3):10-20. 被引量：3
9孙坤,尹晓红.基于数据去噪和CNN-BiGRU的SO_(2)排放预测[J].电子测量技术,2023,46(13):66-72. 被引量：1
10王少剑,高爽,陈静.基于GWR模型的中国城市雾霾污染影响因素的空间异质性研究[J].地理研究,2020,0(3):651-668. 被引量：58

同被引文献93

1赵耀忠,严俊龙,任吉凯,杨玉坤,刘强,谢世坤,栾博钰.基于机器学习的露天煤矿粉尘浓度预测[J].煤炭工程,2022,54(S01):157-161. 被引量：3
2霍文,栾博钰,周伟,陆翔,王春丽,周永利,赵彬宇.基于环境因素的露天煤矿粉尘质量浓度预测[J].辽宁工程技术大学学报（自然科学版）,2021,40(5):409-414. 被引量：12
3刘琼,张豹.基于GBDT算法的锂电池剩余使用寿命预测[J].电子测量与仪器学报,2022,36(10):166-172. 被引量：7
4薛文博,王金南,杨金田,雷宇,汪艺梅,陈曦.国内外空气质量模型研究进展[J].环境与可持续发展,2013,38(3):14-20. 被引量：75
5刘宪锋,朱秀芳,潘耀忠,李双双,刘焱序.农业干旱监测研究进展与展望[J].地理学报,2015,70(11):1835-1848. 被引量：126
6张蕾,吕厚荃,王良宇,杨冰韵.中国土壤湿度的时空变化特征[J].地理学报,2016,71(9):1494-1508. 被引量：29
7石礼娟,卢军.基于随机森林的玉米发育程度自动测量方法[J].农业机械学报,2017,48(1):169-174. 被引量：13
8张蕾,吕厚荃,王良宇.土壤水分观测历史数据集奇异值分析与校正[J].气象,2017,43(2):189-196. 被引量：6
9赵笑然,石汉青,杨平吕,张雷,方荀,梁快.NPP卫星VIIRS微光资料反演夜间PM_(2.5)质量浓度[J].遥感学报,2017,21(2):291-299. 被引量：23
10周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1737

引证文献6

1吴坚,陈军,赵芳.基于VIIRS的夜间PM_(2.5)浓度遥感估算[J].新疆环境保护,2023,45(2):1-8.
2金磊,杨晓伟,张浩,杜勇志,李新鹏,戴春田,周伟.基于HA-RF-SHAP的露天煤矿粉尘浓度预测模型[J].西安科技大学学报,2024,44(1):74-83. 被引量：1
3路凯丽,杨露,李涛.基于集成深度学习模型的空气质量指数预测[J].南京信息工程大学学报（自然科学版）,2024,16(1):56-65. 被引量：1
4江雨燕,傅杰,甘如美江,孙雨辰,王付宇.改进灰狼算法优化GBDT在PM_(2.5)预测中的应用[J].安全与环境学报,2024,24(4):1569-1580. 被引量：2
5张蕾,郭安红,宋迎波,何亮,赵晓凤,赵运成.土壤水分数据融合及其在旱涝灾害多维度评估中的应用[J].农业工程学报,2024,40(13):68-76. 被引量：1
6周国良,周锋.基于IWOA优化Res-BiGRU深度学习模型的海表温度预测方法[J].海洋环境科学,2024,43(5):806-816.

二级引证文献5

1陈玉涛.煤矿胶带运输巷道综合降尘技术[J].西安科技大学学报,2024,44(4):796-804. 被引量：1
2陈洁,王樊云,徐涛,左超文.电-碳市场下考虑风光不确定性的虚拟电厂优化调度[J].分布式能源,2024,9(4):60-68.
3李杰,王占刚.融合改进NBEATSx和时间注意力机制的空气污染预测[J].陕西科技大学学报,2024,42(5):198-205.
4高健,武晓旭,王雨婷.内蒙古地区FY卫星土壤湿度数据适用性分析[J].农村科学实验,2024(20):160-162.
5张力芝,凌秀.重庆市空气质量影响因素的实证分析[J].自然科学,2024,12(5):998-1005.

1邸江芬,廖采青,刘亚男,陈太兵.基于注意力机制的CNN-BiLSTM的PM2.5时序特征预测[J].电子技术与软件工程,2023(4):184-187.
2田元玉.深度学习引导活化数学课堂路径的探析--以高一函数教学为例[J].课堂内外（高中教研）,2022(S02):116-118.
3张静,凡玉娟,赵佳欣,吕欣妍,李娜,施世宇,张亚彩,吴欣源,赵友华,余浩,曹治国.额头皮脂-角质层中有机磷阻燃剂的垂直分布规律及健康风险评估[J].环境科学学报,2022,42(12):432-440.
4马洁茹,孙杰,吴召华,黄建平,许小峰,邓毅,蔡鸣.以变化的年循环为杠杆突破季节预测极限[J].Science Bulletin,2023,68(1):105-116. 被引量：1
5黄家源,吴凯,熊冬生,邓泽亚,周静.回归算法在神经精神疾病辅助诊断中的应用[J].生物医学工程研究,2023,42(1):100-106.
6王东岳,刘浩,杨英奎.欧洲数值预报资料的接收与自动补调方法实现[J].黑龙江气象,2023,40(1):31-32.
7张修竹,朱祥军,张羽,田亚申,严树.数据可视化与数据挖掘在高压管汇全生命周期管理中的应用探索[J].科技创新与应用,2023,13(10):185-188.
8王智宁,陈宇航,叶新凤.剥削型领导对研发人员创新行为的“双刃”效应:一项经验取样的日志研究[J].财经论丛,2023(3):93-102. 被引量：3
9薛之芹,张贯虹,王见贤,范义飞.基于Attention-BiLSTM模型的对话式文本抑郁识别研究[J].电脑知识与技术,2023,19(7):38-41. 被引量：1
10Aihui Wang,Xin Ma.An overview of soil moisture drought research in China:Progress and perspective[J].Atmospheric and Oceanic Science Letters,2023,16(2):22-27.

遥感学报

2023年第2期

浏览历史

内容加载中请稍等...

基于深度学习与随机森林的PM_(2.5)浓度预测模型被引量：6

参考文献14

二级参考文献130

共引文献543

同被引文献93

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于深度学习与随机森林的PM_(2.5)浓度预测模型 被引量：6

参考文献14

二级参考文献130

共引文献543

同被引文献93

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于深度学习与随机森林的PM_(2.5)浓度预测模型被引量：6