1.背景

太阳辐射和热辐射是大气和海洋运动的最根本的驱动力。大气辐射传输过程实际上已经可以通过一种叫做LBLRTM的辐射模型精确计算,但是LBLRTM模型同时也最为耗时。因此,有各种各样的辐射传输参数化方案用来近似计算辐射传输过程,并应用在数值天气预报中。参数化方案的概念源于数值天气预报模式。大气中一些至关重要的物理过程的规模都要小于当前数值预报模式的网格分辨率,比如小尺度流体运动(小涡,旋涡,涡旋),下图展示了次网格尺度下的水汽凝结最终生成云的过程。一些物理过程非常复杂包括湍流过程、散射等。网格尺度的运动和次网格尺度的运动必然存在一定程度的相互作用,可以通过引入一些参数,来近似建立网格尺度的物理量与次网格尺度的物理量之间的关系,而确定这些参数的方案,被称为参数化方案。

次网格中云的生成(gif动图)

此外辐射参数化方案尽管经过了简化,但是仍然是数值预报模式中最为耗时的,因此辐射传输参数化方案通常在比模式网格分辨率更低的网格中采用更低的频次调用。例如,在欧洲中尺度天气预报ECMWF的确定性预报中,辐射传输方案的调用空间分辨率比原网格粗糙10.24倍,时间调用频次为其他参数化方案和动力框架的1/8。

已经有许多科研工作者尝试一些方案用于替换原辐射参数化方案,包括采用神经网络的方式。早在1998年,欧洲中尺度数值预报中心的Chevallier等人利用单隐藏层的浅层神经网络去计算从一个有31层垂直层的数值模式中大气层顶到地面的长波辐射,也被称为NeuroFlux。NeuroFlux的精度达到了和原ECMWF中辐射传输方案相近的精度,并且要快22倍。但是当模式的垂直分层达到了60层及以上的时候,NeuroFlux就难以同时保持精度和加速的效果。2020年,韩国研究人员Roh, Soonyoung和Song, Hwan Jin通过实验证明:基于神经网络的辐射方案运算速度更快,高频次的调用基于神经网络的辐射方案与低频次调用原先基于物理的辐射方案,在耗时接近的情况下,获得的预报精度更高。

此外,基于深度学习模型的参数化方案除了追求精度以外,也应该通过将物理定律融入到模型中以获得更让人信服的结果。在大气辐射传输问题中,辐射通量和辐射加热率之间存在中一定的关系,如下面公式所表达的。早期的一些研究训练出来的模型直接输出辐射加热率廓线以及地面和大气层顶的辐射通量,没有考虑到能量守恒问题。近来,有部分研究人员通过让模型只预测出辐射通量,然后根据下面公式计算辐射加热率,保证物理上的一致性。但是,Ukkonen等人发现辐射加热率对于辐射通量的误差,特别是相邻垂直层的辐射通量差值非常敏感,很小的辐射通量误差即会造成辐射加热率的相对较大的误差。因此,有必要同时对辐射通量和辐射加热率同时监督,并满足物理规律。

公式中,HRl​为辐射加热率(单位为K/day),g为重力常数,cp为定压热容量, Flup​、Fldown​和pllev​分别为模式第l个level上的向上辐射通量、向下辐射通量,和气压。

我们在训练深度学习模型模拟辐射传输计算之前,通过跨尺度大气预报模式MPAS-A模型以及使用非常普遍的RRTMG辐射传输方案生成大量的训练和验证数据集。同时,我们提出了一种包含前面提到的物理约束的训练框架。基于该框架,我们采用和对比了不同类型的深度学习模型网络结构,并分析了每种网络结构在辐射传输问题上的优缺点。

2.数据

2.1.数据生成

数据集生成采用跨尺度大气预报模式MPAS-A模型(7.1版本),美国国家环境预报中心(NCEP)的全球预报系统(GFS)数据作为初始场。本次MPAS-A模型的设置采用了约60公里的准均匀网格,总共包含了163842个网格点。垂直分层方面采用混合的地形跟随坐标系,共57个垂直层(level),大气层顶在30公里高空。并且,垂直分层的间隔从近地面到大气层顶显著增加。

物理参数化方案上采用了称为"mesoscale reference"的套装。MPAS-A模型运行12次,每次为在2020年的1个月份随机选择一天运行连续3天,3天中的前两天数据作为训练数据,后一天作为测试数据。模型每隔1小时(模拟时间,并非真实时间)输出1次。随机选择的初始时间如下:20200108,20200213,20200302,20200420,20200528,20200615, 20200719,20200811,20200927,20201012, 20201124,20201204。

2.2.模型的输入和输出

下面表格列举了所有的输入和输出变量,包含29个输入变量,6个输出变量。输入变量中,11个变量为地面变量,其他的为3维变量(模式layer或level)。因此,有必要对不同类型的变量进行预处理,通过将地面变量重复拷贝以及将模式layer的变量的地面layer变量拷贝一份的方式,将所有变量的维度都统一成与模式level层变量相同。基于训练数据集,采用z-score的归一化方式,并且对于任一一种原三维变量,均采用该变量的所有模式layer或level的数值计算平均值和标准差。

Type

Variable name

Definition

Location

Unit

Input

aldif

Surface albedo (near-infrared spectral regions) for diffuse radiation

Surface

1

aldir

Surface albedo (near-infrared spectral regions) for direct radiation

Surface

1

asdif

Surface albedo (UV/visible spectral regions) for diffuse radiation

Surface

1

asdir

Surface albedo (UV/visible spectral regions) for direct radiation

Surface

1

cosz

Cosine solar zenith angle for current time step

Surface

1

landfrac

Land mask (1 for land, 0 for water)

Surface

1

sicefrac

Sea ice fraction

Surface

1

snow

Snow water depth

Surface

kg/m2

solc

Solar constant

Surface

kW/ m2

tsfc

Surface temperature

Surface

K

emiss

Surface emissivity for 16 LW spectral bands

Surface

1

ccl4vmr

CCL4 volume mixing ratio

Full layer

mol/mol

cfc11vmr

CFC11 volume mixing ratio

Full layer

mol/mol

cfc12vmr

CFC12 volume mixing ratio

Full layer

mol/mol

cfc22vmr

CFC22 volume mixing ratio

Full layer

mol/mol

ch4vmr

Methane volume mixing ratio

Full layer

mol/mol

cldfrac

Cloud fraction

Full layer

1

co2vmr

CO2 volume mixing ratio

Full layer

mol/mol

n2ovmr

N2O volume mixing ratio

Full layer

mol/mol

o2vmr

O2 volume mixing ratio

Full layer

mol/mol

o3vmr

O3 volume mixing ratio

Full layer

mol/mol

play

Layer pressure

Full layer

hPa

tlay

Layer temperature

Full layer

K

qc

Cloud water mixing ratio

Full layer

kg/kg

qg

Graupel mixing ratio

Full layer

kg/kg

qi

Cloud ice mixing ratio

Full layer

kg/kg

qr

Rain water mixing ratio

Full layer

kg/kg

qs

Snow mixing ratio

Full layer

kg/kg

qv

Water vapor mixing ratio

Full layer

kg/kg

Output

swuflx

Layer SW upward fluxes

Full level

W/m2

swdflx

Layer SW downward fluxes

Full level

W/m2

lwuflx

Layer LW upward fluxes

Full level

W/m2

lwdflx

Layer LW downward fluxes

Full level

W/m2

swhr

SW hearting rate

Full layer

K/day

lwhr

LW heating rate

Full layer

K/day

3.方案介绍

3.1.包含物理约束的框架

通过背景介绍中提到的辐射通量和辐射加热率的关系,我们了解到辐射通量和加热率不是相互独立,而是满足一定物理规律的。此外,大气层中某一变量的改变是会对整个大气层的辐射通量垂直廓线产生影响。例如,在某一层中若出现云,穿透过该云层的短波辐射通量便会减少,该云层下方的所有大气层的短波辐射通量会受到影响。如果该云层下方再出现一个云层,第二个云层可以吸收的短波辐射通量会更少,也会产生相对较少的短波辐射加热率。因此,为了能够帮助模型获取这种非局部的效应的特征,有必要对相关变量进行预处理。下图展示了包含物理约束的AI辐射模型框架图,包含了三层分别是:差分/积分层,辐射传输层,和物理约束层。

包含物理约束的AI辐射传输模型框架图

差分/积分层是预处理模块,不包含任何可训练的参数。如上面提到的,为了能够更好的学习到非局部效应,积分层将相关变量(云量cldfrac和云水qc)沿着垂直方向分别从大气层顶或地面向下或向上积分到每个level获得新的变量。同时,正如上面第一个公式所示,相邻层之间的气压差对于辐射通量转换为辐射加热率非常重要,所以差分层用于计算出相邻层之间的气压差。最终输入到AI模型的既包含了上面输入和输出变量表格中所有的输入变量,也包含了差分/积分层输出的预处理后的变量。

辐射传输层即是包含了用于模拟辐射传输计算的深度学习模型。所有需要学习的参数均在该层中。尽管深度学习模型仅输出辐射通量,但是定制化的loss函数同时考虑辐射通量和辐射加热率,正如下面公式所示,loss函数L

为Lflux​和Lflux​的加权平均。其中,λ为范围在0到1的可调节的权重。考虑到辐射通量和辐射加热率的单位不同,Lflux​和和Lflux​均为通过均方误差除以方差的方式获得无量纲的loss函数。该层中所采用的的各种深度学习模型的网络结构将在下面详细介绍。

物理约束层的作用是通过辐射通量和辐射加热率之间的公式,依据辐射传输层的输出的辐射通量计算辐射加热率,从而保证物理上的一致性和能量守恒。此外,辐射加热率的梯度通过辐射通量获得。

3.2. 辐射传输层中的深度学习模型

该部分详细介绍采用的不同深度学习模型的网络结构,包含了FC、CNN、RNN、transformer,和neural operator。对于所有的模型结构,总的模型参数量均控制在1百万个左右,从而排除模型参数量对模型表现的影响。

●FC NNs:FC模型为在用AI模型替换辐射传输方案的研究中最早使用的模型。在FC模型中,所有输入必须转换为一维后输入模型,因此有关于大气层中变量的垂直分布等重要信息便丧失掉了。

●CNNs:CNN模型最初是为图像处理而设计的,进来也在大气科学研究中应用的越来越多。CNN模型采用卷积核每次处理输入数据中的一小部分,所以非常擅长提取局部特征。其他模型包括FC、RNN、transformer、Neural Operators中,理论上每个单元都会受到全部输入的影响,但是CNN模型中的单元只依赖于部分的输入。我们采用了ResNet和U-Net模型。

●RNNs:RNN模型普遍应用于处理序列数据,包括自然语言处理任务和时间序列等。这里的辐射传输过程可以看出是辐射以光速穿透各个一层层大气,因此也可以看成是时间序列问题。因此,这里的序列数据为模式输出的各个层上的影响辐射的变量(即为上面的表格中的输入变量)。另一方面,考虑到辐射是同时向下和向上传播的,我们这里采用双向RNN模型,包括Bi-LSTM和Bi-GRU模型。

●Transformer:Transformer模型最初应用于自然语言处理任务,并逐渐在机器学习的各个领域取得了成功。不同于CNN类的模型从提取局部特征开始,然后逐步扩大感受野,transformer模型在每一层都能够提取全局的特征。如3.1部分提到的,辐射问题是一个全局问题,云的出现会影响所有大气层的辐射通量因此,transformer模型比较适合于辐射传输计算,因为能从整个大气层提取特征。

●Neural Operator:传统的辐射参数化方案计算前需要会在垂直方向上对大气层进行离散化,划分垂直层。然而,垂直层的划分需要权衡速度和精度。通常来说,垂直层划分的的越多,精度越高,但是相应的速度越慢;垂直层划分的越少,精度越低,速度越快。不同于传统的需要划分网格的方法,fourier neural operator(FNO)模型可以在函数空间去进行辐射传输的计算而非离散空间。并且,FNO模型的输出是波场,类似于辐射的波状。

下面表格总结了使用的所有深度学习模型在辐射传输问题上的优缺点。

NN Structures

Advantages

Disadvantages

FC NNs

The FC NN is the first network structure for emulating radiation transfer parameterization.

The input is one-dimensional, so important information about vertical distributions is lost.

CNNs

Information about the vertical distribution of input features is kept. The CNNs are designed to use convolutional kernels to process a small input region at a time.

The convolutional kernels are usually small and can only learn about local rather than global information about the entire atmospheric column. However, radiative transfer is a global problem, which is explained in more detail in subsection 3.1.

RNNs

RNNs can learn local and global information. In addition, the bidirectional RNNs can extract information from both directions of vertical profiles of the atmosphere and mimic the bidirectional behavior of atmospheric radiative transfer in the vertical directions.



Transformer

Transformer-based NNs can learn local and global information.

The transformer model attends to every model level, while heating rates only depend on the flux changes between adjacent vertical levels.

FNO

The FNO can model the radiative transfer in function space rather than the discretized space. It can capture global information of the entire atmospheric column.

The FNO model assumes that the input variables have a uniform distribution, but the vertical spacing of the atmospheric layers in the MPAS model is not uniform.

3.3. 评估方法

我们所使用的的评估总体精度的指标主要是较为常用的RMSE和MBE。并且,我们通过下面公式计算了每层大气层上的MAE和MBE。

公式中, Y(i,l)和YDL​(i,l)分别为原RRTMG辐射传输方案和基于深度学习模型的辐射传输方案的输出。i为水平空间中的某个点,l为某一模式level或layer的index。

4.结果

4.1.统计结果

下面表格总结了12天的测试集数据上的不同的深度学习模型对于辐射通量(Flux)和辐射加热率(Heating Rate)的统计结果。从表格中可以看出,FC、ResNet和U-Net模型的预测精度较低,短波和长波辐射通量的RMSE分别高于 10.9和2.4W⋅m−2,短波和长波辐射加热率的RMSE分别高于0.09和0.21K⋅d−1。同时,可以看出同一种模型预报的长波辐射通量的RMSE总是小于短波辐射通量,原因是短波辐射通量的数值上大于长波辐射通量,更难预报准确。然而,同一种模型预报的长波辐射加热率的RMSE总是高于短波辐射加热率,原因是长波辐射加热率对于云更加敏感,因此更难预报准确。总体而言,FC和CNN类的模型在辐射传输问题上的表现要差于RNN、transformer和FNO模型,而这可以从之前提到的不同模型特点的差异可以推断出来。

Bi-GRU、Bi-LSTM、transformer和FNO模型显著提高了预报精度,短波和长波辐射通量的RMSE分别小于3.8和1.3W⋅m−2,短波和长波辐射加热率的RMSE分别小鱼0.042和0.15K⋅d−1。因为辐射通量的计算是一个全局问题,即大气层中任一一层的大气状态变化都会影响到整个大气柱的辐射通量廓线,所以能够提取全局特征对于用深度学习模型辐射传输方案非常关键,而Bi-GRU、Bi-LSTM、transformer和FNO模型都具备了这一能力。FNO模型表现不如Bi-GRU、Bi-LSTM和transformer模型,因为FNO模型假设输入是均匀的,但是这里所采用的用于生成数据的MPAS模型的垂直层分布并不是均匀的,并且通常上数值预报模式的垂直分层都不是均匀的。Bi-LSTM和Bi-GRU模型精度最高,高于transformer模型。辐射加热率的计算实际上是局部问题,即每一层的辐射加热率只取决于相邻层的辐射通量,但是transformer模型每次都需要计算所有垂直层的注意力分布。相比而言,Bi-LSTM和Bi-GRU模型直接用上一个垂直层的输出作为下个垂直层的输入。尽管transformer模型可以学习到把更多的注意力给到相关的模式垂直层,但是却比Bi-LSTM和Bi-GRU模型更加抵消。因此,transformer模型需要更多的参数量去实现和Bi-LSTM和Bi-GRU模型相近的精度。本次实验中所采用的各个模型参数量均控制在接近的水平。此外,Bi-LSTM和Bi-GRU模型的双向特点可以更好的模拟辐射在大气层中的双向传输过程。

考虑到大气层顶的净辐射误差直接影响到全球大气的能量收支,表格中也展示大气层顶的净辐射通量的MBE。当大气层顶的净辐射通量MBE越接近0表示与原基于物理的辐射传输方案的能量收支越一致。表格中显示Bi-LSTM模型在大气层顶的净辐射通量的误差也是最小的,并且比其他模型的误差数量级更小。

Model

SW Flux

W⋅m−2

RMSE

LW Flux

W⋅m−2

RMSE

TOA Net Flux

W⋅m−2

MBE

SW Heating Rate

K⋅d−1

RMSE

LW Heating Rate

K⋅d−1

RMSE

FC

14.63

5.28

-3.78

0.189

0.394

ResNet

38.97

8.72

-0.23

0.229

0.414

U-Net

10.92

2.46

-7.62

0.096

0.217

Bi-GRU

2.33

1.22

0.40

0.033

0.141

Bi-LSTM

2.31

1.21

0.05

0.032

0.139

Transformer

2.75

1.29

-5.61

0.041

0.146

FNO

3.76

1.29

-6.77

0.042

0.147

下图展示了具有代表性的四个模型包括FC、U-Net、Bi-LSTM和transformer的误差在各个垂直层上的分布。图中实线和虚线代表的分别是辐射通量(上面两行)或辐射加热率(下面两行)的MAE和MBE,阴影部分代表的是深度学习模型预报的辐射通量(或加热率)与RRTMG预报的作为真值的辐射通量(或加热率)的差值的5%和95%分位数、可以通过阴影面积的大小看出,FC和U-Net模型的方差很大,并且所有垂直层上的MAE也比Bi-LSTM和transformer模型大很多。Bi-LSTM和transformer模型的误差分布接近,但是仍可以肉眼看出Bi-LSTM的误差和方差更小。Bi-LSTM和transformer模型的辐射通量误差的垂直分布相对均匀,长波辐射加热率方面,两个模型均在800-1000 hPa(百帕)和200-400 hPa的气压层范围内有相对更大的方差。这两个气压层刚好也是云最经常出现的垂直区域,因此预报难度更高。

4.2. 加入物理约束层的优势讨论

我们3.1部分的包含物理约束的框架中介绍了如何引入物理约束,并同时对辐射通量和辐射加热率进行监督学习。为了对比是否加入物理约束的差别,我们设计了三组实验:只监督辐射通量(λ=0),只监督辐射加热率(λ=1),加入物理约束同时监督辐射加热率和辐射通量(λ=0.091)。三组实验均采用Bi-LSTM模型,并且除了λ取值上的不同,其他方面均相同。

下面表格对比了三组实验的辐射通量和辐射加热率的RMSE。当只监督辐射通量时,辐射加热率可根据上面提到的公式计算出来,同时辐射通量的廓线相对平滑,所以模型较容易拟合辐射通量。只监督辐射通量时的辐射通量的RMSE略微高于加入物理约束时的结果。但是,只监督辐射通量时短波和长波辐射加热率的RMSE却分别是加入物理约束时的6倍和1.5倍。另一方面,只监督辐射加热率时,我们无法只根据辐射加热率计算辐射通量。并且,只监督辐射加热率时的RMSE仍然要高于加入物理约束时的结果。因此,加入物理约束同时监督辐射加热率和辐射通量有助于同时提高辐射通量和辐射加热率的精度。

Loss Type

SW Flux

W⋅m−2

LW Flux

W⋅m−2

SW Heating Rate

K⋅d−1

LW Heating Rate

K⋅d−1

only fluxes

2.404

1.222

0.196

0.181

only heating rates

\

\

0.117

0.142

with physics-incorporated layer

2.315

1.205

0.032

0.139

4.3. 在不同云状况时的模型表现讨论

云在天气和气候的预报中至关重要,所以我们进一步分析深度学习辐射传输方案在三种典型的云状况时的表现,三种云状况分别定义为:无液态水云、单层液态水云、多层液态水云。液态水云对辐射有着很强的吸收和散射作用,并且会对辐射通量和辐射加热率的廓线产生影响,所以有云情况下辐射方案的预报难度要高于无云情况。这里的单层液态水云定义为连续的垂直层云液态水含量大于0。如下面表格所示,在整个测试集中三种云状况的比例分别为61.3%、29.6%和9.1%。表格中不同模型的RMSE对比可以看出,Bi-LSTM和Bi-GRU模型在三种云状况下的表现都是最好的。与之前预期相符,所有模型在多层云下的RMSE都是普遍高于单层云时的RMSE。

Model

no liquid cloud

(61.3%)

K⋅d−1

single-layer liquid cloud

(29.6%)

K⋅d−1

multilayer liquid cloud

(9.1%)

K⋅d−1

SW HR

LW HR

SW HR

LW HR

SW HR

LW HR

FC

0.1005

0.2938

0.1612

0.3826

0.2127

0.4835

ResNet

0.1263

0.2284

0.2023

0.4456

0.2165

0.4289

U-Net

0.0510

0.1159

0.0837

0.2060

0.1013

0.2674

Bi-GRU

0.0157

0.0554

0.0303

0.1370

0.0359

0.1566

Bi-LSTM

0.0152

0.0546

0.0297

0.1397

0.0346

0.1567

Transformer

0.0201

0.0680

0.0367

0.1437

0.0440

0.1644

FNO

0.0211

0.0683

0.0378

0.1453

0.0463

0.1684

为了更好的展示为什么不同云状况下的模型表现会不同,下面随机挑选了三种云的垂直廓线作为示例(下图第一行)。下面的图对比了原RRTMG辐射方案、FC、U-Net、Bi-LSTM和transformer模型在三种云状况下的辐射通量和加热率廓线。无云状况下的辐射通量和辐射加热率的垂直廓线更加平滑(注意下面各图中不同云状况下的x坐标值的数值范围是不同的)。单层云或多层云时,辐射通量和辐射加热率的垂直廓线都会在有云的地方出现很大的波动。图中显示辐射加热率的预报结果相对准确,短波辐射通量的预报结果比长波辐射通量的结果更差。Bi-LSTM和transformer模型在捕捉由液态云水引起的不连续上表现更好,这也与之前的统计表格结果一致。

5.结论

本文介绍了我们如何用包含物理约束的框架训练和测试不同类型的深度学习模型替换传统辐射传输参数化方案。经过测试对比发现,由于辐射是全局问题,具备全局感知能力的模型要优于FC和CNN类模型。其中,Bi-LSTM和Bi-GRU这两个RNN类的模型精度最高,优于transformer和FNO模型。同时,我们也证实了采用包含物理约束的框架有助于提高模型的预报精度。此外,在不同云状况下的模型评估表明,Bi-LSTM模型在各个垂直层上表现都是最好的,在有云的垂直层的方差和误差会稍微大一点。

未来该工作的方向是将该离线模型放入到例如MPAS或WRF这样的数值天气预报模式中进行在线测试。并且尝试将下图所示的除了辐射传输方案以外其他参数化方案逐步采用AI模型替换。采用AI模型替换参数化方案的一个好处就是,考虑到包括辐射方案在内的很多参数化方案具有很强的非线性,所以很难获得其对应的切线性和伴随模式。切线性和伴随模式对于四维变分资料同化非常重要,而辐射参数化方案由于其高度非线性,采用传统方法无法获得其对应的伴随模式。我们有可能通过辐射传输方案的AI模型去获得对应的伴随模式。ECMWF的Hatfield等人已经在他们的工作中证实了这一点,他们利用AI模型较容易得获得了重力波阻的伴随模式,并成功应用在了四维变分同化中。类似得,我们也可以通过获得AI辐射参数化方案的伴随模式来进一步提高四维变分同化系统的精度。

AI Earth 深度学习模型替换数值天气预报模型中的参数化方案-大气辐射传输方案相关推荐

  1. 【火炉炼AI】深度学习001-神经网络的基本单元-感知器

    [火炉炼AI]深度学习001-神经网络的基本单元-感知器 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotl ...

  2. 干货丨2017年AI与深度学习要点大全

    2017已经正式离我们远去~ ~ ~ 博客WILDML的作者.曾在Google Brain做了一年Resident的Denny Britz,就把他眼中的2017年AI和深度学习的大事,进行了一番梳理汇 ...

  3. 【火炉炼AI】深度学习003-构建并训练深度神经网络模型

    [火炉炼AI]深度学习003-构建并训练深度神经网络模型 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotl ...

  4. 新年快乐!这是份值得收藏的2017年AI与深度学习要点大全

    若朴 夏乙 编译自 WILDML 量子位 出品 | 公众号 QbitAI 2017已经正式离我们远去. 过去的一年里,有很多值得梳理记录的内容.博客WILDML的作者.曾在Google Brain做了 ...

  5. 完结撒花!吴恩达DeepLearning.ai《深度学习》课程笔记目录总集

    作者: 大树先生 博客: http://blog.csdn.net/koala_tree 知乎:https://www.zhihu.com/people/dashuxiansheng GitHub:h ...

  6. 【火炉炼AI】深度学习004-Elman循环神经网络

    [火炉炼AI]深度学习004-Elman循环神经网络 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib ...

  7. 深度学习技巧应用6-神经网络中模型冻结-迁移学习技巧

    大家好,我是微学AI,今天给大家介绍一下深度学习技巧应用6-神经网络中模型冻结:迁移学习的技巧,迁移学习中的部分模型冻结是一种利用预训练模型来解决新问题的技巧,是计算机视觉,自然语言处理等任务里面最重 ...

  8. 深度学习机器学习面试题汇——模型优化,轻量化,模型压缩

    深度学习机器学习面试题汇--模型优化,轻量化,模型压缩 提示:互联网大厂可能考的面试题 若CNN网络很庞大,在手机上运行效率不高,对应模型压缩方法有了解吗 介绍一下模型压缩常用的方法?为什么用知识蒸馏 ...

  9. 推荐系统中基于深度学习的混合协同过滤模型

    近些年,深度学习在语音识别.图像处理.自然语言处理等领域都取得了很大的突破与成就.相对来说,深度学习在推荐系统领域的研究与应用还处于早期阶段. 携程在深度学习与推荐系统结合的领域也进行了相关的研究与应 ...

最新文章

  1. 面试:Java 到底是值传递还是引用传递?
  2. 【转】ABAP的坑1
  3. idea中生成mapper xml文件,快速从代码跳转到mapper及从mapper返回代码的插件安装
  4. php mysql 双条件排序,PHP-MySQL联合查询,按2个变量排序
  5. POJ1430 Binary Stirling Numbers
  6. 基于微服务的软件架构模式
  7. 【Spring 基础注解】对象创建相关注解、注入相关注解、注解扫描详解
  8. vue动态class类型
  9. 语音识别的两个方法_语音识别的应用有哪些
  10. Tomcat加载类机制 - 我们到底能走多远系列(14)
  11. java实现一个简单的打字游戏
  12. 软件著作权申报中60页标准代码文档的写作经验谈(1)
  13. 144个城市坐标Python程序
  14. Altium Designer -- 精心总结
  15. 360浏览器保存的html没有图标,电脑360浏览器图标不见了怎么办
  16. uc浏览器怎么播放html5,uc视频社区 手机UC浏览器不能看视频了怎么办?
  17. CSU - 1256 天朝的单行道
  18. 备份华为物理服务器目录到U盘
  19. 超纯水工业水处理工程方案解析
  20. java开发社交网站_仿知乎问答社交平台网站

热门文章

  1. windows与ubuntu共享文件夹
  2. JS之FormData对象
  3. 构建DNS域名解析服务器步骤和使用虚拟机win10进行域名解析(技术文档)
  4. java连连看代码_java实现连连看游戏
  5. 一周开发的成果,你说牛不牛,点个赞吧
  6. unity_Text文本和图片组合
  7. image downsampling in python
  8. [jzoj 6305] 最小值 {单调栈}
  9. Citrix 知识中心Top10 - 2012年9月 包括KB、白皮书、补丁、演讲以及工具。
  10. 物联网平台搭建的全过程介绍(二)——物联网平台通信思维导图