人工智能专业术语的个人理解与总结（ML、DL、RL）

前言

对于我这样的小白而言，听师兄师姐和老师们讲一些专业术语，总是感到疑惑，难以理解。
所以借此机会在这里进行简单总结。

PS:个人感觉，总结内容时用自己的话讲出来，比较好。

内容

1.收敛：

假设模型已经跑了50次了，看了一下这时候的结果。然后再让模型跑了50次或者几十次，发现，模型结果或性能几乎没有发生改变。这时候，我们可以说模型在跑了50次的时候就已经收敛了！！！

2. episode:

我的理解是：在强化学习中，如果一个agent从开始状态，运行运行，到了最终的状态，结束了！这就是一个episode。（相当于运行了一次）
感觉知乎上的这个回答比较好懂：

3.归一化：

将现有数据，通过一定的计算方法，转化到你希望的范围内。

4.泛化能力：

个人理解：就是我这个模型不仅对我使用的这个数据，展现的性能和规律适用。推广到其他数据集，我的规律依然管用！！！
百度百科解释：
泛化能力（generalization ability）是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

5.鲁棒性：

鲁棒是Robust的音译，Robust翻译过来是强健的；强壮的；结实的；耐用的。个人理解是：鲁棒性指的是一个模型，在数据发生改变时，维持自身模型性能等的稳定能力。
知乎上这个解答，个人感觉不错：
AI模型的鲁棒可以理解为模型对数据变化的容忍度。假设数据出现较小偏差，只对模型输出产生较小的影响，则称模型是鲁棒的。

6.拟合：

百度百科的解释就非常明了。
拟合就是把平面上一系列的点，用一条光滑的曲线连接起来。

7.过拟合：

过拟合也叫过度拟合，我的理解就是，强行将数据点连接起来，形成趋势线。这样的话，预测能力就会下降！
我们想得到泛化能力强的“一般规律”，但是我们的模型过度拟合了。将某个数据的特殊规律也学习到了，以至于将这个特殊的规律当做“一般规律”，导致模型泛化能力下降！！！
过拟合的缺点：
（1）公式有着更大的复杂度，但是有着更小的预测性。
（2）数据发生微小变动或者有噪音，公式会发生剧烈震动。
简而言之，过拟合出来的公式根本没法用
我的理解哈：就是强行满足现有数据的趋势，强行拟合。导致拟合出来的结果不准确！

8.欠拟合：

个人理解就是，我们的模型没有很好的学习到“一般规律”，从而泛化能力差，无法进行准确的预测！！！！
下面是来自bing的总结
过拟合和欠拟合是导致模型泛化能力不高的两种常见原因，都是模型学习能力与数据复杂度之间失配的结果。. “欠拟合"常常在模型学习能力较弱，而数据复杂度较高的情况出现，此时模型由于学习能力不足，无法学习到数据集中的"一般规律”，因而导致泛化能力弱。. 与之相反，“过拟合"常常在模型学习能力过强的情况中出现，此时的模型学习能力太强，以至于将训练集单个样本自身的特点都能捕捉到，并将其认为是"一般规律”，同样这种情况也会导致模型泛化能力下降。. 过拟合与欠拟合的区别在于，欠拟合在训练集和测试集上的性能都较差，而过拟合往往能较好地学习训练集数据的性质，而在测试集上的性能较差。. 在神经网络训练的过程中，欠拟合主要表现为输出结果的高偏差，而过拟合主要表现为输出结果的高方差。

9.噪声：

对研究没有意义，甚至产生错误干扰的数据，称为噪声数据。

10.深度学习中batch、batch_size、epoch、iteration

一个epoch就是将整个训练集训练一次，相当于一个周期。
有时候，训练集的数据量太大了，我们没办法一下训练完。这时候就应该分批，batch英文翻译过来就是“批”的意思。
batch_size指的是一个batch中的样本数。
所以训练样本总数=batch * batch_size
咋们进行分批训练，训练完一个batch的样本，就是一次iteration。中文翻译为：迭代！！！
epoch = iteration / batch

网上这个例子非常好，借鉴一下！

知乎上的个人认为不错回答：
Batch，中文意为“批”。假设我们的训练集有100个训练样本，将这些样本分为5批，那么每批就有20个训练样本，此时Batch Size=20，如果让神经网络以上述的规则进行分批训练，那么每迭代一次（更新一次网络参数）就会训练一批（20个）样本（也即完成了一个iteration），迭代5次后，就对全部训练样本完成了一次遍历，也即完成了一个epoch。

11.ground_truth：

翻译的意思是地面实况，放到机器学习里面，再抽象点可以把它理解为真值、真实的有效值或者是标准的答案。
维基百科对Ground Truth在机器学习领域的解释是：
在机器学习中，“ground truth”一词指的是训练集对监督学习技术的分类的准确性。这在统计模型中被用来证明或否定研究假设。“ground truth”这个术语指的是为这个测试收集适当的目标（可证明的）数据的过程。

12.Loss：

我的理解是：咋们自己模型预测出来的值和真实值之间的差异。loss越小，证明我们的模型预测的越精准。

网上一个不错的回答：
在机器学习中，损失函数（loss function）是用来估量模型的预测值f (x)与真实值Y的不一致程度，损失函数越小，一般就代表模型的鲁棒性越好，正是损失函数指导了模型的学习。

13.EPSILON或epsilon或ε

在强化学习的ε-greedy策略中，我们以ε为10%为例，那么我们的模型将会以10%的概率去采取非贪心的策略，去探索exploration。以90%的概率去选择利用exploitation,采取贪心策略。

14.GAMMA或gamma或γ

许多action对未来确实也有奖励，但是我们无法保证未来采取这个action依然会获取这么多的reward。我们认为：当前的reward对我们更重要，未来的reward会打折的。这个折扣因子叫做GAMMA或gamma或γ。

15.均方误差

网上这个解释非常通俗易懂！！！！
均方误差 (MSE)：测量预测值Ŷ与某些真实值匹配程度。MSE 通常用作回归问题的损失函数。
这是维基百科中定义的均方误差 (MSE) 公式。

MSE 计算模型的预测 Ŷ 与真实标签 Y 的接近程度。您希望误差变为 0。如果您预测房价，误差可能是预测价格与实际价格之间的差异。

想象一下你对两栋房子的价格的预测是这样的：
房子 1：实际 120K，预测 100K -> 误差 20K
房子 2：实际 60K，预测 80K -> 误差 -20K
如果你把这些加起来，误差将为 0，这显然是错误的…

从标签中减去预测是行不通的。误差可能为负也可能为正，这是对样本求和时的问题。您可以取绝对值或误差的平方。取平方有一个特性，它惩罚更大的错误更多。

在训练模型时，您的批次中将有许多样本 (n)。我们需要计算每一个的误差并求和。同样，在这里让误差始终≥ 0 很重要。

如果要比较不同大小批次的误差，则需要对样本数量进行归一化——取平均值。例如，您可能想查看哪个批次大小产生的误差较小。
现在应该更容易理解公式了！MSE 是 ML 回归模型（例如线性回归）中常用的统计度量和损失函数。

16.训练集、验证集、测试集

其他博主一个不错的回答
先用一个不恰当的比喻来说明3种数据集之间的关系：
训练集相当于上课学知识
验证集相当于课后的的练习题，用来纠正和强化学到的知识
测试集相当于期末考试，用来最终评估学习效果

什么是训练集？
训练集（Training Dataset）是用来训练模型使用的。

什么是验证集？
当我们的模型训练好之后，我们并不知道他的表现如何。这个时候就可以使用验证集（Validation Dataset）来看看模型在新数据（验证集和测试集是不同的数据）上的表现如何。同时通过调整超参数，让模型处于最好的状态。

验证集有2个主要的作用：
（1）评估模型效果，为了调整超参数而服务
（2）调整超参数，使得模型在验证集上的效果最好

说明：
验证集不像训练集和测试集，它是非必需的。如果不需要调整超参数，就可以不使用验证集，直接用测试集来评估效果。
验证集评估出来的效果并非模型的最终效果，主要是用来调整超参数的，模型最终效果以测试集的评估结果为准。
什么是测试集？
当我们调好超参数后，就要开始「最终考试」了。我们通过测试集（Test Dataset）来做最终的评估。

通过测试集的评估，我们会得到一些最终的评估指标，例如：准确率、精确率、召回率、F1等。
如何合理的划分数据集？

下面的数据集划分方式主要针对「留出法」的验证方式，除此之外还有其他的交叉验证法，详情见下文——交叉验证法。
数据划分的方法并没有明确的规定，不过可以参考3个原则：

（1）对于小规模样本集（几万量级），常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。
（2）对于大规模样本集（百万级以上），只要验证集和测试集的数量足够即可，例如有 100w 条数据，那么留 1w 验证集，1w 测试集即可。1000w 的数据，同样留 1w 验证集和 1w 测试集。
（3）超参数越少，或者超参数很容易调整，那么可以减少验证集的比例，更多的分配给训练集。

交叉验证法
为什么要用交叉验证法？
假如我们教小朋友学加法：1个苹果+1个苹果=2个苹果

当我们再测试的时候，会问：1个香蕉+1个香蕉=几个香蕉？

如果小朋友知道「2个香蕉」，并且换成其他东西也没有问题，那么我们认为小朋友学习会了「1+1=2」这个知识点。

如果小朋友只知道「1个苹果+1个苹果=2个苹果」，但是换成其他东西就不会了，那么我们就不能说小朋友学会了「1+1=2」这个知识点。

评估模型是否学会了「某项技能」时，也需要用新的数据来评估，而不是用训练集里的数据来评估。这种「训练集」和「测试集」完全不同的验证方法就是交叉验证法。
3 种主流的交叉验证法

留出法（Holdout cross validation）
上文提到的，按照固定比例将数据集静态的划分为训练集、验证集、测试集。的方式就是留出法。
留一法（Leave one out cross validation）
每次的测试集都只有一个样本，要进行 m 次训练和预测。这个方法用于训练的数据只比整体数据集少了一个样本，因此最接近原始样本的分布。但是训练复杂度增加了，因为模型的数量与原始数据样本数量相同。一般在数据缺乏时使用。
k 折交叉验证（k-fold cross validation）
静态的「留出法」对数据的划分方式比较敏感，有可能不同的划分方式得到了不同的模型。「k 折交叉验证」是一种动态验证的方式，这种方式可以降低数据划分带来的影响。具体步骤如下：
将数据集分为训练集和测试集，将测试集放在一边
将训练集分为 k 份
每次使用 k 份中的 1 份作为验证集，其他全部作为训练集。
通过 k 次训练后，我们得到了 k 个不同的模型。
评估 k 个模型的效果，从中挑选效果最好的超参数
使用最优的超参数，然后将 k 份数据全部作为训练集重新训练模型，得到最终模型。

k 一般取 10 数据量小的时候，k 可以设大一点，这样训练集占整体比例就比较大，不过同时训练的模型个数也增多。数据量大的时候，k 可以设小一点。

17.超参数

超参数，英文名为hyper-parameter。超参数指的是学习过程之前设置的参数。
常见的超参数有：

聚类中类的个数
话题模型中话题的数量
模型的学习率
深层神经网络隐藏层数
树的数量或树的深度
矩阵分解中潜在因素的数量
k均值聚类中的簇数

18.模型参数

模型参数指的是，通过训练得到的参数数据

19.多模态

自己的理解是：多模态指的就是不同类型的数据：文字、音频、视频、图像等等。
知乎上比较不错的解释：

20.智能体——agent

简单来说就是：具有智能的实体。
具体点说就是：这个实体可以感知外部环境，根据自身的“智能”策略，采取动作从而作用于环境，与环境进行交互。

知乎上的这个解释非常不错。

21.感知

无人驾驶中的感知，就像是人类用眼睛看世界、用鼻子闻东西、用手触摸东西…用自己的身体器官感受世界。
无人车是如何感知世界的呢？
在无人车上安装各种各样的传感器，比如：用相机捕获周围的图片、用激光雷达测量距离前方车辆的距离…无人车用各类传感器感知周围环境。
知乎上一个比较好的解释：

22.checkpoint

我的理解是：checkpoint保存了，截止当前，训练的最好效果的各项权重和参数。就像是：打造梦西游一样，打完一个关卡，打了一些装备。退出游戏之前，需要保存一下进度。之后，再次登录，就可以接着当前进度打了。这里保存的进度，指的就是checkpoint。
知乎上比较不错的回答：
Checkpoint是用于描述在每次训练后保存模型参数（权重）的惯例或术语。这就像在游戏中保存关卡时你可以随时通过加载保存文件回复游戏。你可以加载保存的模型权重重新开启训练甚至可以之后进行一个推理。

23.tracklet

tracklet是做视频或者物体跟踪（object tracking）里面的专业词汇，一般翻译为“跟踪小片段”，在做物体跟踪时会用到数据关联（data association），整个连续的跟踪过程其实是由很多tracklet构成的。

24.Ground truth

直接翻译过来是：地面实况，在机器学习中可以将其理解为真值，或者标准答案！

其他不错的解释：

25. PCA

主成分分析（Principal Component Analysis，PCA）是一种常用的无监督降维方法，用于将高维数据转换为低维数据。PCA的目的是找到数据中最重要的方向或特征，并将数据映射到这些方向上，以便在保留尽可能多的信息的同时减少数据的维度。这些重要的方向被称为主成分（Principal Components），它们是数据中方差最大的方向。

在实际应用中，PCA可以用于降低数据的维度，去除噪声，提取特征等。PCA的一个重要应用是图像压缩，它可以将高分辨率的图像压缩为低分辨率的图像，并尽量保留原始图像的特征。此外，PCA还可以用于数据可视化，将高维数据投影到二维或三维空间中，以便于观察和理解数据的结构。

26. 编码器和解码器

编码器是一种神经网络模型，用于将输入数据转换为一组隐藏表示，即编码，通常是一种低维表示。编码器通过多层神经网络对输入数据进行变换，提取出数据的高层次特征，并将其压缩到低维空间中。编码器的输出可以用于后续的任务，如图像分类、目标检测等。
解码器是编码器的逆过程，它将编码后的数据重新映射回原始的输入空间，并生成一个与原始数据尽量相似的输出。解码器通常也是一个神经网络，其输入是编码器的输出，输出是重构后的数据。

27. arXiv

我们找的论文，下载下PDF版，就会经常发现左侧会有arXiv标识。这个是什么意思呢？

28. logits

29. 论文中的SOTA，benchmark和baseline

30.softmax

softmax是一种用于多分类的函数，它将多个神经元的输出，映射到（0,1）区间内，可以看成概率来理解，从而来进行多分类。
在机器学习中，softmax函数是一个非常重要的工具，它可以兼容logistics算法、可以独立作为机器学习的模型进行建模训练、还可以作为深度学习的激励函数。

31.logistics算法

Logistic回归是一种广义的线性回归分析模型，常用于数据挖掘、疾病自动诊断和经济预测等领域。它通过Sigmoid函数，把函数值映射到0~1之间，从而进行二分类。
与softmax函数不同的是，logistics算法只能进行二分类，而softmax函数可以进行多分类。

32.消融研究Ablative studies

Ablative studies（消融研究）是一种科学实验方法，通过对某个系统或模型的一部分进行删除或削弱来评估它对系统的贡献。在人工智能领域，ablative studies通常用于深度学习领域中的神经网络中。
具体地说，在深度学习中，ablative studies被广泛应用于验证模型不同部分的功能以及不同组合之间的贡献。例如，在一个深度卷积神经网络（CNN）中，我们可以通过逐步删除网络的某些层或节点，来分析这些部分在模型准确性和有效性方面的作用。
通过消融研究，我们可以更好地理解模型中各个组件的贡献，并且发现哪些组件是最关键的。通过这种方式，我们可以优化模型结构和参数设置，从而提高模型性能和泛化能力。此外，ablative studies还可以用于比较和评估不同模型和算法的相对优劣。
总之，ablative studies是一种非常有价值的研究方法，它可以帮助我们更好地理解深度学习模型中各个组件的贡献，为模型的开发和改进提供指导。

33.反事实

在因果推理中，反事实是指一个假设，它描述了如果某个事件或行动发生的情况下，发生了与实际不同的结果。
举个例子，如果我错过了早班车，然后想象如果我早起了5分钟，那我就能赶上这班车了，那么“我早起了5分钟”就是一个反事实。
使用反事实可以帮助我们更好地理解事件以及其结果之间的因果关系。这种假设可以被用来评估已经发生的事件，并提出对于未来不同选择的建议和决策。

不断更新中…