概念 · 解读

随机森林:机器学习中的一种集成算法,它属于“装袋”类型,通过组合多棵决策树,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和稳定性。

决定系数(R2):用于判定模型的拟合效果,取值在0-1之间,越接近1,模型拟合能力越强。

平均分数偏差(MFB):衡量模型拟合过度或低估的倾向。

平均绝对离差(MAD):范围为0到正无穷,当预测值与真实值完全吻合时等于0,即完美模型;误差越大,该值越大。

平均绝对百分比误差(MAPE):MAPE 为0%表示完美模型,MAPE 大于 100 %则表示劣质模型。

文章导读

01

研究背景

大气污染模型可以帮助交通管理者选择最适合的交通管理政策,从而有效地进行决策。随着数据科学与机器学习的发展,如何选择恰当的模型来描述大气污染物浓度与解释变量之间的关系变得越来越具有挑战性。

以往的研究主要使用交通和气象数据来构建大气污染模型。然而,在构建模型的时候,除了选择有力的解释变量以外,还应该关注研究时间段的选取:某些变量间的特定关系只在短期内保持,在长期内则会丢失。因此,本研究采取了一个新的视角:不仅探索气象、交通、时间等解释变量对大气污染水平的影响,也评估研究时段的长度和选择如何影响大气污染模型的准确性和变量的重要性。

02

研究问题

本文使用一种先进的数据挖掘方法——随机森林模型,来探究气象条件、时间变量、交通流量和研究时段是如何影响弗罗茨瓦夫市(波兰人口第四大城市)的NO2、NOx和PM2.5浓度的,重点关注时间段的选择如何影响分析的准确性和所使用的解释变量的重要性。

为此,研究将2015-2016年划分为9个时间段:

①  完整时间段(两年)

②  温暖季节(4月-9月)

③  寒冷/供暖季节(10月-次年3月)

④  工作日

⑤  非工作日

⑥-⑨  春夏秋冬四季

模型中共加入了9个解释变量,分为以下三类:

交通流量;时间变量(周、月、法定节假日);气象变量(气温、风速、风向、相对湿度、气压)

03

图文信息

信息1

交通变量

下图为弗罗茨瓦夫市某十字路口交通流量的日变化、周变化和月变化。交通量的日变化是双峰的,早高峰出现在在上午的7.00-8.00,晚高峰出现在下午的15.00-17.00;夜间的交通流量则明显较低。周末的交通流明显减少,而观测到的交通流月变化则不存在显著差异。

图2 Hallera十字路口不同时间尺度下的交通量箱形图

信息2

大气污染物水平

NO2浓度在一天内变化显著,交通高峰时段NO2浓度较高。NO2浓度的峰值出现在上午7.00-9.00之间,和下午18.00-21.00之间,后者比交通高峰晚3个小时左右。周末,NO2浓度较低,同样对应于交通量的减少。NOx浓度也存在类似的日变化和周变化,但其数值远高于NO2的浓度。

在冬季,大气中PM2.5浓度明显较高。而在一天或一周的时间尺度上,PM2.5没有明显变化。

图3 NO2和NOx浓度的时间序列和箱形图

图4 PM2.5浓度的时间序列和箱形图

信息3

气象变量

气象数据集包括小时气温、风速、风向、相对湿度和气压。弗罗茨瓦夫具有典型工业大城市的气候特征,经济活动表现在土壤的物理特性、大气污染以及来自家庭和工业过程的人工热量的排放等方面。气温的日变化来源于城市热岛效应,明显的季节变化则是温带气候的特征。

图5 气象变量的时间序列

信息4

随机森林回归结果

对9个时间段分别建立随机森林回归模型。采用R2、MFB、MAD、MAPE来评价各模型的拟合优度。

从模型的拟合程度来看,R2值一般较低(低于0.57)。MFB值小于0.2,表明模型对所有污染物的适用性是相似的。MAD和MAPE表明,该模型对NO2最为精确,对 PM2.5的估计最不准确。

从时间段的选择来看,模型⑦夏季和②温暖季节在回归中表现最好,证明夏季大气污染物的可预测性更强;最短时间段④和最长时间段①在回归模型中的表现都不好;对于长时间的研究时段,模型的拟合程度明显低于基于某一特定的时段。工作日或非工作日与污染物模型的有效性之间没有显著的关系。冬季交通流对氮氧化物(NO2和NOx)浓度的影响最大,夏季气象变量对NO2浓度的影响相对最大。

表2 3种污染物在时间段①-⑨中的拟合优度

从解释变量的影响程度来看,对NO2影响最大的变量是交通流量(除了⑤节假日)。温暖季节②⑦和寒冷季节③⑨在影响因素结构上存在较大差异,温暖季节或夏季在变量的影响程度上更为平均,而凉爽季节或冬季则变量影响程度差异更大。

对PM2.5影响最大的变量是气象条件:风速、风向、温度。只有在夏季,交通流量的重要性才能与气象变量的重要性相比。因为在此期间,家庭取暖的排放量很低,使交通排放的作用更为明显。

综上所述,在利用随机森林等计量模型探究大气污染物浓度时,根据气候条件将研究周期划分为几个短时间段是非常合理的,可以揭示解释变量在覆盖整个长时间段的数据集中不可见的关系。

图6 解释变量在时间段①-⑨中对NO2(上)、NOx(左)、PM2.5(右)的影响程度

图7 解释变量对3种污染物的影响程度

04

原文信息

原文题目:The use of random forests in modelling short-term air pollution effects based on traffic and meteorological conditions: A case study in Wrocław

原文作者:Joanna A. Kaminska

期刊名:Journal of Environmental Management

发表时间:2018年5月

一作单位:Department of Mathematics, Wroclaw University of Environmental and Life Sciences

原文链接:https://doi.org/10.1016/j.jenvman.2018.03.094

相关阅读

观点速递64| 京津冀地区1989-2018年间区域降水事件时空分布特征

观点速递63| 环境规制的空间溢出效应对空气污染的影响:来自中国城市群的证据

观点速递62| 消费者偏好在降低电子产品材料强度方面的作用

本公众号是南开大学循环经济与低碳发展研究中心(天津市高校人文社科重点研究基地、天津市高校智库)官方公众号。欢迎围绕中国能源气候大气环境政策资源循环管理与政策城市生态健康管理等领域的论文学习、观点速递投稿。具体可参考公众号往期推文。投稿邮箱b420000@yeah.net

详情可点击下方“原文链接”

随机森林模型_观点速递65|使用随机森林模型模拟短期空气污染效应:基于交通和气象数据...相关推荐

  1. 观点速递:大模型落地产业,存在什么问题?

    智源导读:大规模预训练模型引发了新一轮自然语言的热潮.在本次圆桌会谈上,主持人万小军(北京大学王选计算机研究所研究员论坛主席)和嘉宾李航(字节跳动人工智能实验室总监),何晓冬(京东集团副总裁,AI研究 ...

  2. 深度学习英文文献_文献速递 | 预测术后30天死亡率的深度学习模型

    文献基本信息 题目:Deep-learning model for predicting 30-day postoperative mortality 作者:Bradley A. Fritz , et ...

  3. 随机森林模型_量化策略——短周期、单期货品种的随机森林预测模型

    在前一篇"期货学习量化学习策略--随机森林模型"一文中(链接:https://mp.weixin.qq.com/s/IhcVZ9D-3cmB1GaAFinboQ),我们尝试了长周期 ...

  4. 随机森林分类器_建立您的第一个随机森林分类器

    随机森林分类器 In this post, I will guide you through building a simple classifier using Random Forest from ...

  5. gbdt 算法比随机森林容易_机器学习军火库 | 浪漫算法 随机森林

    一.基本原理 顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的.在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行 ...

  6. mysql创建只读权限用户_新品速递 | Harbor 修复权限提升漏洞,MySQL Plus 支持密码强度校验以及审计功能...

    为了更好的服务 QingCloud 用户,我们推出了『产品速递』栏目,帮助大家梳理青小云家最近上线的新功能和新产品,供大家从中快速选择,得以应用. 1 Harbor On QingCloud 升级至 ...

  7. matlab德语字体,单词速递下载_单词速递德语版下载1.5.1.6 - 系统之家

    单词速递德语版是一款好用的德语学习软件,具有强大的德语学习功能,比如支持单词测试.笔记管理.生词管理.单词查询等功能,通过单词速递德语版,帮助用户更好的学习德语. 软件特色 1.针对德语单词特点,尤其 ...

  8. 实证研究的步骤_新著速递蒋建忠:国际关系实证研究方法

    基本信息 [出版社] 上海远东出版社:第1版 [上架日期] 2020年10月 [装帧] 平装 [语种] 中文 [分类] 国际关系方法论 内容提要 [适读人群] 社会科学领域学者.高校师生 <国际 ...

  9. numpy添加元素_科研速递 | 花费15年众望所归!NumPy论文终登上Nature!

    NumPy 团队撰写了一篇综述文章,介绍 NumPy 的发展过程.主要特性和数组编程等.这篇文章现已发表在 Nature 上.NumPy 是什么?它是大名鼎鼎的使用 Python 进行科学计算的基础软 ...

最新文章

  1. sklearn数据处理_one_hot
  2. javascript迭代器_JavaScript迭代器概述
  3. cloudera之hadoop-0.20.1+152.tar.gz 安装出现找不到JAVA_HOME问题的解决办法
  4. 计算机程序水仙花数,水仙花数
  5. 将 Microsoft Excel 导入至 MySQL
  6. 深入浅出Node.js(一):什么是Node.js(转贴)
  7. 洛谷P1311 选择客栈
  8. python 天气预报 mysql_Python+PyQt5+MySQL实现天气管理系统
  9. 「开源」首次被列入“十四五”规划,未来大有可为
  10. 最优化方法外罚函数法Matlab,最优化方法 第三篇(罚函数法).pdf
  11. 与用户登录shell相关的文件/etc/profile,~/bashrc等浅析
  12. eventbus多个订阅_番石榴的EventBus –简单的发布者/订阅者
  13. Ubuntu11.04 3945ABG无线网卡驱动安装
  14. 《世界已无法阻挡Python入侵!》(附学习资源)
  15. 遗传算法优化的bp神经网络_【首发推荐】农学:基于遗传BP神经网络的采摘机器人手眼标定研究...
  16. 最好的注册测绘师考试资料大全
  17. 身份证号正则验证及提取性别出生年月出生时间
  18. 十六进制格式颜色转换成RGB格式颜色
  19. labview 编程样式_LabVIEW编程样式规则
  20. Unity3D 制作游戏简单“跑马灯”功能

热门文章

  1. 伪彩色、真彩色和直接色区别与联系
  2. 天富龙冲刺上交所:拟募资10.9亿 朱大庆夫妇控制94%股权
  3. java-net-php-python-java电影院影片管理系统.计算机毕业设计程序
  4. 机器学习定义、机器学习与数据建模、分析的区别
  5. 幕墙设计费收费标准(幕墙设计收费2022)
  6. OutputDebugString调试字符串输出及Delphi中调用显示最大字符长度限制为1024
  7. ubuntu14.04开启wifi热点
  8. 技术要求一般要怎么写?
  9. 2021年安徽省安全员C证考试资料及安徽省安全员C证考试总结
  10. 基于Qt的图像处理技术和算法(灰度、暖色、冷色、模糊、锐化、添加相框纹理)