《机器学习与计算力学的结合及应用初探》论文学习

本文是对《机器学习与计算力学的结合及应用初探》论文的一个知识点的整理。

摘要：

1. 介绍了机器学习、数据科学与计算力学相结合的3种形式:

第一种是与有限元方程求解方面的结合, 直接应用卷积神经网络算法求解线性有限元方程;
第二种方式结合有限元计算和机器学习预测复杂材料结构与力学性能的关系. 本文作者应用该方法基于细观页岩扫描照片和随机建模算法, 成功训练出可以有效预测细观页岩样本等效模量的卷积神经网络;
第三种方式是建立基于数据驱动的计算力学方法, 比如直接利用真实的材料实验数据代替材料本构模型.

2. 关键词：机器学习, 数据驱动, 人工神经网络, 计算力学, 有限单元法

引入&神经网络介绍：

1. 有限单元法

将连续求解区域划分为离散单元, 将求解连续模型上的偏微分方程转换为求解离散模型上的积分方程, 通过离散单元上的近似解逼近连续模型的真实解

2. 计算力学方法

计算力学方法的出现使求解具有更复杂的几何模型和边界条件的问题成为可能.

3. 常见机器学习方法：

感知器[3]、遗传编程[4]、蒙特卡罗方法[5]、K-近邻算法(K-nearest neighbor, K-NN)[6]、线性回归 [7]、逻辑回归[8]、自适应增强[10]和支持向量机[11,12]等

线性回归方法使用线性函数对数据集进行拟合, 通过梯度下降法优化小二乘误差函数, 一般采用均方差函数描述误差. 该方法计算简单且易于实现, 但其固有缺点是无法拟合非线性数据[7].
逻辑回归是一种用于解决分类问题的判别式模型, 它与线性回归相比大的区别在于引入非线性函数, 不要求训练数据满足线性关系, 一般使用分类交叉熵作为误差函数. 其缺点是对于多分类问题的拟合精度欠佳[8,9].
K-近邻算法基于特征空间内与目标样本相似(或临近)的k个样本的类别对目标样本进行分类[13]. 该方法需要记录所有训练数据, 导致计算成本较高, 且结果比较依赖于k的取值[14]. 但该方法同时拥有以下优点: 简单易用、准确度高、可以用于分类和回归问题
支持向量机的目标是在高维度特征空间寻找优的划分超平面. 该方法适用于处理高维度样本数据, 被广泛应用于文本分类和图像识别领域[15]. 其性能依赖于核函数的选取[16], 另外对于大量样本的计算性能还有待提高
自适应增强方法在迭代训练时关注之前分类错误的样本, 通过不断修正之前的错误分类结果, 终将每个迭代步训练得到的弱分类器基于权重叠加为一个强分类器. 该方法的分类精度高且不容易过拟合, 但缺点是模型训练时间较长[18].

4. 人工神经网络发展过程：

建立了感知器 (perceptron)的模型, 该模型也被普遍认为是现代人工神经网络的前身.
首次提出了基于感知器的多层网络模型, 并在模型中应用了非线性多项式函数.
提出了反向传播算法. 该算法后来逐步发展为现代深度神经网络的核心组成部分.
提出了基于受限玻尔兹曼机(restricted Boltzmann machine, RBM)的神经网络模型且首次明确地提出深度学习的概念. 该模型通过训练包括多个中间层的神经网络, 可以有效地提取高维度数据样本的特征, 实现了数据从高维度到低维度的变换.

5. 与常规机器学习方法比较优点：

人工神经网络模型使用了非线性激活函数,
利用多层网络结构引入了大量可调节参数,
通过梯度下降算法挖掘蕴含于大量训练数据中的非线性关系,
可获得良好的分类和回归精度, 且对噪音数据不敏感, 具有一定的概括和推广能力

卷积神经网络在线性有限元求解中的应用

1. 人工神经网络核心思想：

构建一个包括大量待定参数的网络结构, 通过梯度下降算法寻找优的网络参数组合, 使得误差函数达到极值.

2. 通过梯度下降算法寻找最优的网络参数组合, 使得误差函数达到极值.

3. 传统人工神经网络的基本原理,

人工神经网络中一般包括一个输入层、一个输出层和若干中间隐层.
网络中的每一个圆代表一个神经元. 神经元的值称为“激活”. 两个神经元之间的连接线称为权重
神经元的值由上一层神经元的值与两层神经元之间的权重计算得到

4. 卷积神经网络基本原理

卷积神经网络(convolutional neural network, CNN)是人工神经网络一个重要的分支或变种,
卷积神经网络具有以下主要特点
- 第一个特点称为共享参数, 表示同一个卷积层的所有神经元拥有相同的权重w 和偏差b, 能够有效减少网络参数数量, 提高训练效率.
- 第二个特点是局部接受域. 图1(a)所示的传统神经网络中, 相邻两层网络中的神经元是完全连接的. 而在如图1(b) 所示卷积神经网络中, 每一层只有部分神经元与下一层的一个神经元相连.
- 第三个特点是引入池化层. 池化层通常施加在卷积层之后. 大池和平均池被广泛用于简化来自卷积层的输出信息
该网络被成功运用在机器视觉、语音处理及棋类游戏等领域
卷积神经网络的神经元激活
正在上传…重新上传取消
输出层神经元的值与数据标签之间往往存在一定的误差. 此时需要误差函数。
为方便阐述, 本文选择均方差函数作为误差函数C(v): 正在上传…重新上传取消
- 梯度：梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。
  正在上传…重新上传取消
- 形象介绍导数、偏导数、方向导数梯度等一系列概念：
  https://blog.csdn.net/weixin_40807247/article/details/82755087
通过上述方法调整参数。
通过不断调整参数, 网络终可建立起输入数据到标签的映射函数.

5. 线弹性有限元的基本原理.

系统总势能
根据小势能原理, 真实的位移解使得系统总势能达到最小值：
得到离散方程组

5. 卷积神经网络了求解离散方程组

离散方程组可采用高斯消去法等数值方法进行求解[75]. 从本质上说, 有限元方法求解出一组使系统总势能达到小的节点自由度.
人工神经网络的算法则是通过迭代找到一组使得误差函数取极小值的w和b.
1. 构造了图2所示的卷积神经网络结构. 该网络中仅包括一个输入层和一个输出层. 输入层是有限元模型的刚度矩阵K.
2. 对于确定的有限元模型，刚度矩阵K为常数矩阵，位置的结点位移u作为该网络的权重，
3. 输出层是K和u依据式(10)运算得到的节点力f,
4. 标签则是有限元模型的真实节点力 f
根据上述原理, 卷积神经网络算法在每次迭代中求出f与真实节点力 f 的误差C(u). 神经网络算法根据误差函数的梯度∇ C（ u）迭代更新权重u, 终使得f与 f 尽可能接近.

6. 将卷积神经网络的框架与核心算法应用于线弹性有限元问题的求解的局限性

该方法将方程的求解转换为优化问题, 通过梯度下降算法寻找使目标函数满足的优自由度集合. 该优化过程需要经历较多次迭代, 虽可通过GPU加速, 其求解效率仍低于主流数值求解方法.
线弹性有限元方程的刚度矩阵被转换为卷积神经网络的输入层数据. 卷积神经网络的框架限制了输入层数据必须为常数矩阵, 这对非线性有限元方程的求解(可变刚度阵)提出了挑战.

基于细观页岩扫描照片的模量预测方法

1. 作者基于卷积神经网络提出一个用于预测非均质材料等效力学性质的框架.

为了便于阐述, 考虑了细观尺度的页岩材料, 使用该框架建立起页岩样本的细观结构与等效模量之间的映射关系.使用扫描电子显微镜(scanning electron microscope, SEM)获得页岩的细观结构的图像, 并引入一个简化模型将 SEM图像转换为5相材料样本.
接下来, 使用随机重建算法基于5相简化样本生成大量随机样本,
基于随机样本的细观结构和等效模量, 训练了一个多层卷积神经网络, 建立起细观结构到等效模量的映射关系. 完成训练的网络可被用于预测真实页岩样本的等效模量. 完整的流程如图4所示.

（注：模量是指材料在受力状态下应力与应变之比。模量的倒数称为柔量，用J表示。意义：弹性模量可视为衡量材料产生弹性变形难易程度的指标，其值越大，使材料发生一定弹性变形的应力也越大，即材料刚度越大，亦即在一定应力作用下，发生弹性变形越小。）

来源： https://baike.baidu.com/item/%E6%A8%A1%E9%87%8F/2500883

2. 关于页岩（能用机器学习的原因）

宏观尺度的页岩是一种深灰色致密沉积岩.
从细观角度看, 页岩则是包含多种矿物成分的复杂异质材料, 通常由石英、方解石、蒙脱石、黄铁矿、黏土和有机物等成分组成[88]. 能量色散X射线光谱(energy-dispersive X-ray spectroscopy, EDX)、聚焦离子束研磨(focused ion beam, FIB)和扫描电子显微镜等方法常被用于识别矿物成分及表征页岩样品的异质性[89~93].
研究发现, 宏观页岩的变形、破坏等力学性质与其包含的矿物组分密切相关[94~96]. 因此, 理解其细观结构与宏观力学性质之间的联系具有重要工程意义.
各矿物组分的分布形态具有较强的随机性, 造成宏观页岩样本具有显著的异质性和各向异性.
页岩的变形和破坏等力学性质与其细观矿物组分的分布方式以及各矿物组分的力学性质有关. 纳米压入实验常被用于研究页岩细观矿物组分的模量和硬度等力学性质[
本文使用纳米压入实验测定了各主要成分的模量。

（注：也就是说等效模量可以被测出来）

本文基于卷积神经网络建立页岩样本细观结构和等效模量之间的映射关系.

3. 各层神经元特点

研究发现, 该网络中的低层神经元能够捕捉到细节面部特征;
中间层神经元可以捕捉到较大的局部面部特征;
高层神经元则能够捕捉到整体面部特征, 即高层的神经元可以提取更抽象的数据特征

4. 卷积神经网络应用过程

卷积神经网络的训练需要大量的图像样本, 但是, 真实页岩样本的数量相对有限. 为此, 作者利用随机建模方法创建了12000个随机样本[102~104]. 使用其中 10000个样本训练网络, 使用剩余2000个样本进行交叉验证.
训练误差和迭代次数之间的关系如图S8(a)所示. 由于权重和偏差的初始值是随机分配的, 首次迭代的误差较大. 经过几次迭代后, 训练误差迅速下降.
完成训练后, 该网络被用来预测真实页岩样本的等效模量. 本文共使用500个真实页岩样本. 该500个真实样本被输入训练好的网络, 网络输出其对应的等效模量.

利用材料实验数据代替经验本构模型

1. 基于“数据驱动”的计算力学框架的研究现状

作用：框架提取用于描述微观结构、材料属性和边界条件的样本数据; 通过计算建立其材料响应数据库; 结合机器学习算法构建起样本数据的描述符与关注的材料属性之间的联系. 该框架可以进一步用于设计新的结构或响应模型.
核心原理：框架的核心是一个由材料响应数据驱动的求解器. 该求解器在大量材料应力-应变实测数据中进行搜索, 在每个单元上迭代寻找一组满足总体优化方程应力-应变组合.
Kirchdoerfer和Ortiz[110~113]从全新的视角提出了基于实验数据的计算力学框架. 该框架不再依赖具有显式表达式的材料本构关系, 而将实验测定的材料响应数据与传统的协调方程和平衡方程等相结合进行求解, 避免了提取经验性材料本构过程中引入的不确定性, 具有很强的原创性和前沿性.