什么是数据驱动天气预报

天气预报业务的发展经历了依靠主观经验为主到以客观预报为基础的发展历程,尤其经过最近几十年的发展,以物理规律驱动的数值天气预报已成为现代天气预报的重要支撑,也是智能网格预报业务的核心基础数据。近年来,随着人工智能尤其是机器学习、深度学习不断取得突破,计算机硬件的不断发展,利用纯数据驱动的天气预报模型研发已成为一个新的探索方向。为了方便不同的研究者进行算法的对比,需要在统一基准数据集(包括基准数据和基准方法)的支撑下进行不断的迭代试验。

基准数据集简介

NMDT是由国家气象中心天气预报技术研发室开发,面向国内天气预报业务和科研应用的通用型天气学诊断分析工具包,其致力于支撑天气预报及其相关的研究工作,为重大天气过程预报、复盘、机理研究等应用场景提供诊断分析技术支持。

在初期的研究中,基准数据集使不同的算法可以相互定量比较,并促进建设性的竞争,也方便来自不同领域的人员更容易进入这一研究领域进行横向比较。国际上已有非常著名的数据集,如计算机视觉数据集MNIST 和ImageNet等。今年2月,Stephan Rasp等人也发布了一套以欧洲中期天气预报中心的ERA5再分析数据为基础的数据集(论文见:https://arxiv.org/abs/2002.00469),经过处理,便于机器学习模型的研究使用,主要用于中期天气预报研究。同时,还提供了一个简单而清晰的评价指标,可以快速评估各类方法的优劣。此外,还提供了来自简单线性回归技术、深度学习模型以及纯物理预测模型的基准评分。毫无疑问,数据集的建设加速了数据驱动的天气预报研究进程。

鉴于太高分辨率很难适用深度学习模型,试验最终选择了5.625°、2.8125°、1.40525° 三种分辨率。物理量见下表。

5天预报对比实验

作者使用直接预报和迭代预报的方式对基准数据集进行了测试,所谓直接预报是指以初始时刻的数据作为输入,通过模型训练直接生成目标时刻(如第5天)的预报结果;而迭代预报是指将中间时刻的输出结果作为其下一个时刻的输入场进行迭代训练,比如将6小时的输出结果作为12小时预报模型的输入场,最终获得最终时刻(如第5天)的预报结果。直接预报和迭代预报示意图如下:

测试结果可见,业务上的数值模式的评分最优(紫色实线),对于神经网络模型而言,直接预报精度明显好于迭代预报。

5.625°分辨率下不同方法RMSE对比

左)500hPa位势高度;右)850hPa温度,

红色和橙色实线表示逻辑回归和CNN的迭代预测,实心圆点表示未来3天和5天的直接预测

3天和5天预测时间的基准评分

(注:粗体为最佳机器学习和物理模型对比评分,分值越小越好,可见最佳机器学习具备一定潜力)

数据驱动应用前景

虽然纯数据驱动的天气预报模型研究取得了初步的成果,但只能算是燃起了星星之火,至于能否燎原,还尚未可知。目前物理规律驱动的数值天气预报的地位仍然不可动摇,是整个天气预报业务核心。纯数据驱动的天气预报面临众多的困难与挑战也不可回避,例如:

第一,大气是复杂的三维流体运动。虽然可以将不同垂直层次的变量场都输入模型,但依然无法准确描述大气运动在垂直方向的相互作用和机理。此外,大气运动受科里奥利力影响,随纬度不同有明显的差异,目前的训练网格都是规则的等经纬度网格,而克服该问题,一个可能的解决方案是将纬度信息单独作为一个要素输入到AI模型。

第二,样本独立性不够。大气运动存在周期性,尤其对于中期天气而言,在若干年的长时间序列中,存在很多相似的样本,这会显著减小所有样本之间的独立性,因而实际可用样本会明显减少,进而容易导致过拟合。

第三,受计算机硬件限制。目前的数值模式分辨率愈来愈高,而采用AI技术的预报还受制于GPU内存大小的限制,训练所用的数据分辨率目前采用5.625°,且目前尚未有更高效的数据接入方式,采用多GPU训练可能能提高训练数据的分辨率。

当前随着人工智能技术的快速发展,将物理模型(即数值模式)与数据驱动有效结合起来,有效提高预报和预警产品的精准度、稳定性和可靠性,而且能依据不同决策者或行业用户的需求来定制天气产品,实现“智慧的预报和服务”,是当前天气预报技术发展的主流趋势。

最后,附上文中数据集传送门欢迎测试:

(https://mediatum.ub.tum.de/1524895)

更多内容,请关注

微信号:kjcx_nmc

tum数据集_数值预报尚能战否?来自数据驱动的挑战相关推荐

  1. 携程二十,尚能战否?

    ▼数据猿年度征集评选活动正在进行中▼ 大数据产业创新服务媒体-聚焦数据·改变商业 数据猿官网 | www.datayuan.cn 今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新 ...

  2. 国美、腾讯的困惑:廉颇老矣,尚能战否?

    2021年11月17日,依旧是普通的一天,我所见的信息中,两件事值得玩味. 其一,国美控股公布了"关于员工行为规范的处罚通报"引起热议:其二,腾讯内容开放平台宣布,终止" ...

  3. 14年macmini装双硬盘_廉颇老矣,还能战否?2014 Mac Mini Late 加装HP EX920固态硬盘

    廉颇老矣,还能战否?2014 Mac Mini Late 加装HP EX920固态硬盘 2019-03-13 13:49:17 15点赞 53收藏 25评论 小编注:此篇文章来自即可瓜分10万金币,周 ...

  4. 将TUM数据集制作成BundleFusion数据集

    在上一篇文章中,我写到了如何将TUM数据生成BundleFusion所需要的数据集,生成的数据集如下图中所示.并且是将每一组数据的groundtruth.txt中的位姿数据写如到这里的pose文件中, ...

  5. TUM数据集制作BundleFusion数据集

    BundleFusion的数据集中,在生成.sens文件之前,包括彩色图,深度图和一个位姿文件,并且这个pose文件中的位姿态是有变化的,所以我怀疑,推测,在这个pose文件中可以写入groundtr ...

  6. ROS下获取kinectv2相机的仿照TUM数据集格式的彩色图和深度图

    准备工作: 1. ubuntu16.04上安装iai-kinect2, 2. 运行roslaunch kinect2_bridge kinect2_bridge.launch, 3. 运行 rosru ...

  7. 机器学习 啤酒数据集_啤酒数据集上的神经网络

    机器学习 啤酒数据集 Artificial neural networks (ANNs), usually simply called neural networks (NNs), are compu ...

  8. 相似邻里算法_纽约市-邻里之战

    相似邻里算法 IBM Data Science Capstone Project IBM Data Science Capstone项目 分析和可视化与服装店投资者的要求有关的纽约市结构 (Analy ...

  9. 熊猫数据集_对熊猫数据框使用逻辑比较

    熊猫数据集 P (tPYTHON) Logical comparisons are used everywhere. 逻辑比较随处可见 . The Pandas library gives you a ...

最新文章

  1. #10172. 「一本通 5.4 练习 1」涂抹果酱 题解
  2. linux匿名页 文件页,文件页和匿名页
  3. 10G 职场晋升/IT干货/生活技能/理财秘籍 【全套】学习资料免费送!
  4. [ZJOI2010] 基站选址(线段树优化dp)
  5. hihocoder-Week173--A Game
  6. 用udp协议通讯时怎样得知目标机是否获得了数据包?_和相亲对象聊天,你属于UDP还是CDP?...
  7. 可重构计算芯片是未来吗?开发者如何抓住这一机会
  8. 【温故而知新-Javascript】使用canvas元素(第一部分)
  9. 华为机试HJ51:输出单向链表中倒数第k个结点
  10. 使用SSE指令集优化memcpy
  11. mac中插入带圆圈数字序号①②③
  12. 【Pr】视频剪辑学习记录——导出
  13. 建立内网Windows补丁服务器
  14. Android应用: 3D旋转球
  15. Huffman编码解压缩的通俗讲解
  16. 仿今日头条项目——首页(文章搜索)
  17. 计算机的本质到底是什么?
  18. MATLAB 批量改文件后缀
  19. [USACO12MAR]花盆Flowerpot
  20. 大数据舞台中的Flink

热门文章

  1. 安卓学习笔记19:常用控件 - 单选按钮和复选框
  2. Spring Boot项目实战:BBT版西蒙购物网
  3. QT案例:登录对话框——主窗口
  4. Java里面as_与Java中的C#关键字“ as”等效
  5. 2017.10.7 最长上升子序列 思考记录
  6. 2017.9.17 相关分析 思考记录
  7. 2017.8.21 弦论 思考记录
  8. 【英语学习】【WOTD】leviathan 释义/词源/示例
  9. 【英语学习】【WOTD】bardolater 释义/词源/示例
  10. spring的依赖、注入、容器、装配的理解