大数据预测雾霾以及存在的商机
近段时间,全国范围内尤其是京津冀地区接连陷入雾霾之困,北京更是频频发布空气重污染红色预警,中小学连续停课,机动车单双号限行。雾霾的背后,重污染天气的预警预测工作显得尤为重要,不仅可以让公众提前合理安排生产生活,也可以让政府相关部门及时采取应急措施,缓解重污染天气带来的危害。
郑宇
微软亚洲研究院主管研究员郑宇【麻省理工科技评论TR35(35名在科技创新领域具有杰出成就的35岁以下顶级青年创新者)2013年的获奖者,就是上图那位帅哥】一直从事大数据挖掘和算法研究,希望用大数据解决现代城市所面临的问题。
他和他的团队已经成功用大数据计算出1km×1km细粒度的空气质量状况、尾气排放数据和噪声污染指数。
大数据能不能成功预测雾霾?
Urban Air正是由微软亚洲研究院开发,用大数据预测城市空气质量的项目。目前,Urban Air已经实现全国70多个城市空气质量预测,可以对京津冀、长三角、珠三角、成渝城市群未来48小时的空气质量进行预测。
“大数据不仅能预测雾霾,还可以精细化预测。”郑宇说,依靠经典模拟方法预测预警雾霾,只能算出空气质量的均值,而大数据可以对1~6小时的空气质量逐小时进行预测,对7~12小时、12~24小时、24~48小时进行最大值和最小值的预测。
除了在预测精度上有优势外,大数据精细化预测还体现在地域范围上。目前,传统模拟方法预测雾霾只能精细到区的范围,比如可以预测到北京市海淀区、朝阳区的空气质量,而大数据可以精细化到每个空气质量站点,比如可以预测海淀区万柳站点未来48小时的空气质量状况。
大数据不仅能预测雾霾,还可以很快速。据郑宇介绍,传统的重污染天气预测工作需要6小时左右的模拟运算时间,无法快速实时发布,而大数据可以在几秒钟之内快速算出重污染空气质量数据。
未来,雾霾的运行轨迹也将有望实现,雾霾从哪来,到哪去都将不是难题。记者了解到,郑宇和他的团队正在从事雾霾因果相关性的研究,目前还处在研发阶段,预计明年将正式投入应用。
能够预测雾霾的大数据究竟包含哪些数据?这些数据又如何预测雾霾?
雾霾的大数据主要包括当前空气质量数据、气象条件、未来天气预报3类数据。郑宇特别介绍说,空气质量数据并不是指单纯的空气质量站点数据,而是以某空气质量站点为圆心,囊括了方圆300公里范围内所有的与空气质量相关的数据,比如空气质量站点数据、交通流数据、气象数据、厂矿数据、人口流动数据、路网结构等。
与传统模拟空气质量不同,大数据预测雾霾依靠的是多元融合方法,也就是说,空气质量的预测不仅仅看空气质量数据,还要看与之相关的气象数据、交通流量数据、厂矿数据、城市路网结构等不同领域的数据,不同领域的互相叠加,相互补强,从而预测空气质量状况。
“大数据应用于预测雾霾,首先,由于每个站点、每个时段空气质量的影响因素都不尽相同,所以针对每个空气质量站点,我们都会为这个站点每个时段单独建一个空气质量模型,之后再将三者数据叠加,最后将数据进行融合,制作出空气质量预测模型。”郑宇说 ,这样算下来 ,为预测北京市空气质量,建立的模型已经达上百个。
多元融合的大数据算法与传统的空气模拟预测相比,是否更准确?
“其实,大数据预测与传统模拟方法有一定的相似性,都是通过数据来拟合模型,只不过是数据量大小不同。”郑宇说,以往由于获知的数据有限,传统模拟方法只能基于有限的样本数据,由科研人员通过经验、假设找出这些数据间的规律,模拟出简单的模型,预测空气质量。
而随着数据增多,单单依靠人工已经无法从海量繁杂的数据中找出规律,所以需要借助机器学习和数据挖掘等工具来发现多源数据中隐含的规律。
如今影响空气质量的因素越来越多,传统模拟的方法显得“力不从心”。郑宇介绍说,传统模拟空气质量预测首先需要搜集完整的污染源数据,比如企业的排污数据和汽车尾气排放等,而这些数据无法全部获知;其次模型太理想化,污染物在空气中传播和变化的实际情况,要复杂很多。
随着影响空气质量的因素增多,数据量的增大,大数据在空气质量预测上颇有优势。
比如传统方法要拿到精确的地面污染源数据才能预测,而大数据则可以解决数据缺失的问题。比如对于交通尾气数据难获取的情况,大数据运算可以采用与交通尾气相关的交通流量、排量等相关数据,间接地分析其与空气质量的关系。
“大数据的精髓就是A领域的问题可以借助B领域、C领域、D领域的数据来一起解决,通过多元数据融合的方法来解决数据缺失和不精准的问题。”郑宇说。
空气质量站点、相关领域的数据、大数据先进的挖掘技术和模型,保证了大数据预测的准确性。据了解,现在大数据对京津冀雾霾的预测精度可以达到75%,对成渝等地的预测精度会更高,平均准确率比统模拟方法高15%~20%。
大数据预测还存在哪些困难?
虽然大数据对雾霾的预测已经成功实践,但郑宇也坦言,大数据预测雾霾确实还有很多困难。
数据量少是大数据发展的掣肘,大数据的预测是基于对大量的数据进行学习。但我国数据开放进程比较晚,并且很多污染源数据都还不完善。
“数据量大小直接影响大数据预测的精准度。”郑宇说,比如数据样本量不够,会导致雾霾的拐点很难预测,目前传统经典模型和大数据模型都很难说清楚雾霾何时会消散。
“很多人认为大风来了,雾霾一定会散去,真实情况并非如此,雾霾消散与大风的强度、持续时间、风向来源地都有非常大的关系。
比如,如果风向的来源地本身是污染源,那么雾霾不但不会散去,反而会加重。”郑宇说,目前有关拐点出现次数的数据特别少,可能一百天出现一次,对简单的统计学模型来说,拐点出现就是少数派,模型很难预测拐点。目前,郑宇和他的团队也在单独对拐点进行建模,准确度已经提高到30%。
针对大数据在环保领域未来的发展,郑宇认为国家首先要培养数据科学家,不仅仅是懂大数据挖掘算法,还要动行业知识,这样才能把大数据转化为生产力。
其次,大数据时代要求政府开放数据。只要数据足够,未来工业园区的建设与空气质量的变化情况,整个城市设计与空气质量的变化情况,完全可以依靠大数据实现。
预测雾霾中的商机
预测空气质量已经成为一个增长迅猛的新生市场,全球两大科技公司IBM和微软都在争夺这个市场。
本月,酸性雾霾数次包围北京城,迫使市政府发布了史无前例地发布了两次“红色预警”——一旦发布这种预警,就相当于告诉北京的2200万居民,严重空气污染有可能持续3天以上。
这种预警需要依靠先进的污染预测技术。政府希望通过改善雾霾监控和治理措施来回应日益高涨的公众诉求,这类技术的重要性也越发凸显出来。
微软亚洲研究院研究员郑宇表示:“人们越来越关注空气质量预报服务,越来越多的人开始关注这项信息技术。”
第一个在中国发布空气污染预报的是曾经在北京居住过的美国地球化学家达斯汀·格雷泽西克(Dustin Grzesik)。他在2013年创办了一个名为“办事儿呢”的免费网站和一款配套的手机应用,利用公开的气象和风力数据预测空气质量。
Berkeley Earth是美国的一家非营利性组织,他们一直在绘制中国实时空气污染地图,该组织工作人员罗伯特·罗德(Robert Rohde)称:“如果你能预测天气,那么你只需要多使用几个变量就可以预测空气质量。多数时候,污染物排放情况变化不会很快。”
如今,“认知计算”(在这种技术中,机器可以自主提升建模能力)的进步催生了更复杂的预测软件。这种软件可以利用天气、交通和土地使用等数据和政府监测网站的实时污染指数,甚至还有社交媒体上发布的信息,来预测10天之内的空气质量指数。
微软和IBM去年在中国的研究实验室里开发了自己的污染预测技术,并都获得了首批政府客户。
IBM的首批客户是北京环保局。该局所使用的空气污染预警系统就是基于IBM的技术。
IBM与北京市环保局在本月早些时候共同创办了“联合环境创新中心”,使得政府官员可以在最恶劣的情况下更好地制定减排计划。
IBM还与张家口市签订了协议,在冬奥会之前作出一些前期规划和应对方案。张家口是2022年北京冬奥会的协办城市。
微软也与中国环保部、福建省环保局和成都市环保局签订了合作协议。
“我们需要在世界各地使用相同的基础系统来进行空气质量预报,”IBM绿色地平线(Green Horizons)项目业务主管布拉德·加蒙斯(Brad Gammons)说。“借助机器学习技术,我们可以快速预报空气质量。”
这两大科技巨头不仅仅在争夺政府客户。商业客户(尤其是可再生能源发电公司)和普通消费者也是他们的目标客户。全中国已经有30多个太阳能发电站使用IBM的预报技术,这项技术还能帮助他们预测阳光照射值。
原文发布时间为:2015-12-31
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
大数据预测雾霾以及存在的商机相关推荐
- 大数据升级治霾手段:拒绝“一刀切”误伤
北京再次被雾霾笼罩,秸秆焚烧.机动车.工厂...甚至餐厨油烟都成为"背锅侠".治霾的棘手之处不仅包括难以确定污染源,还有难以进行精确污染监管.种种治霾手段造成的"一刀切& ...
- 谷歌-百度世界杯大数据预测,哪家更准?
世界杯风风火火,真球迷伪球迷各种不亦乐乎.百度.谷歌.微软等巨头也耐不住寂寞,大数据神预测,各玩各的,哪个的大数据预测更精准呢? 谷歌 谷歌产品营销经理本杰明·贝托谢姆(Benjamin Bechto ...
- 大数据预测:成都、郑州等跻身春节十大“瘦身”城市
中新社北京1月23日电(记者 刘育英)23日发布的一份春节期间出行大数据预测报告显示,十大人员净流出的"瘦身"城市中,成都.郑州等区域中心城市,以及东莞.苏州.佛山等外来务工人员较 ...
- 一只火鸡带你了解大数据预测(经典)
纽约大学特聘教授纳西姆·尼古拉斯·塔勒布有一本代表性的著作<黑天鹅>,认为未来发生的事情是纯随机的,人类要是根据过去的经验去对未来的事情进行预测,那是完全不靠谱的,正如书名所表示的:在发现 ...
- opta球员大数据预测胜负_大数据预测简介及使用流程
中足网大数据预测,是基于中足网以及多家主流数据提供商的数据库,汇总数万场比赛的盘口和热度信息得出的人工智能预测模型,经过专家团数月研制,不断调整算法,命中率已经达到行业内相当高的水平. 1 目前预测玩 ...
- 大数据预测:未来最吸金的领域
到了2020年,世界上每个人每秒将创造7 MB的数据.在过去的几年里,我们已经创造了比人类历史上更多的数据.大数据席卷全球,并且没有放缓的迹象.人们可能会想,"大数据产业从哪里开始?&quo ...
- 大数据预测犯罪?不 是预防犯罪!
在这个信息完全透明的时代,除非你脱离社会远离人群,才有理论上的可能保证自己的信息绝对安全,但是,这真的不可能.而如电影<少数派报告>中所描述的场景,通过大数据采集预测犯罪,则是信息透明到了 ...
- 如何有效利用大数据预测能力
编辑整理/智库2861 大数据预测可能会出现错误,也可能会存在信息泄露等风险,但大数据的预测能力对公共决策所能提供的帮助是我们不能忽视的,如何有效地利用大数据辅助公共决策是我们在现在和未来需要认真思考 ...
- 大数据与机器学习-大数据预测
大数据预测 量化交易 量化交易
最新文章
- 判定两棵二叉树是否相似以及左右子树交换、层次编号
- Oxford Nanopore sequencing, hybrid error correction, and de novo assembly of a eukaryotic genome
- 前端基础入门第一阶段-Web前端开发基础环境配置
- 题注Oracle数据库的网络连接原理
- Zabbix实战之客户端自动发现
- 树莓派内核开发准备(内核源码获取、启动过程、源码目录树)
- 红橙Darren视频笔记 自定义sidebar 自定义View ViewGroup套路
- 强化学习ppt_强化学习和最优控制的十个关键点81页PPT汇总
- qchart能绘制三维_诺斯顿三维测量:走进无人机倾斜摄影的世界
- http协议中的响应代码从 1xx ~ 5xx,一共有41种
- navicat远程连接mysql很慢_解决Navicat远程连接mysql很慢的方法
- python连续写入数据之间用什么隔开_elasticsearch之使用Python批量写入数据
- xp系统能安装32位的python吗-32位XP系统 Python3.4.4安装scrapy1.6.0
- 中国国航往返飞机票怎么改签
- 为什么说百度全面降低了中国互联网体验?
- 1、如何给视频和照片进行调色
- qt4.8.7 2016年4月18日 error reading collection file qthelpcollection cannot load sql
- 代码编程在线运行网站
- android camera 废弃,Android相机android.hardware.Camera已弃用
- Verilog HDL 语法学习笔记