机器学习期末简答总结

文档完整电子版

https://download.csdn.net/download/qq_42368540/68205608

1.什么是监督学习和非监督学习，它们之间的区别有哪些？

监督学习，是指训练集的数据已经分好类别，通过对带有标签的数据进行学习，来调整分类器的参数，使其达到所要求性能的过程。当用测试集对模型进行测试时，给出D测={xi }=>{yi}。

常见的监督学习算法：逻辑回归、K近邻、朴素贝叶斯、支持向量机

非监督学习，需要将一系列没有标签和类别未知的数据，输入到算法中，需要根据样本之间的相似性对样本集进行分类(聚类)试图使类内差距最小化，类间差距最大化。

常见的非监督学习算法：K-means、LDA

①监督学习必须要有训练集和测试集，非监督学习没有训练集，只有一组数据，在该数据集内寻找规律。

②监督学习要求训练集必须由带标签的样本组成，非监督学习不要求数据样本带有标签。

③非监督学习是在寻找数据集中的规律性，但这种规律性并不一定要对数据进行分类。

2.解释分类、聚类、回归、损失函数

分类：根据一些给定的已知类别标号的样本，通过训练得到某种目标函数，使它能够对未知类别的样本进行分类。

聚类：指事先并不知道任何样本的类别标号，希望通过某种算法来把一组未知类别的样本划分成若干类别，这在机器学习中被称作无监督学习。

回归：用于预测输入变量和输出变量之间的关系，特别是当输入变量的值发生变化时，输出变量的值随之发生的变化。

损失函数：用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。

3.什么是机器学习，机器学习的步骤是什么

机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能的学科。

1 提出问题

2采集数据、导入数据、查看数据信息

3数据预处理、特征提取、特征选择

4 模型构建(建立训练数据集和测试数据集、选择机器学习算法、创建模型、训练模型) 5 评估模型 6 方案实施 7 报告撰写

4.什么是过拟合和欠拟合，产生的原因，以及解决办法

过拟合：在训练集上使用了一个非常复杂的模型，以至于这个模型在拟合训练集时表现非常好，但是在测试集的表现非常差。

过拟合原因：训练数据集样本单一、训练样本噪音数据干扰过大、模型过于复杂。

过拟合解决办法：

①在训练和建立模型的时候，一定要从相对简单的模型开始，不要一上来就把模型调得非常复杂、特征非常多。

②数据采样一定要尽可能地覆盖全部数据种类。

③在模型的训练过程中，我们也可以利用数学手段预防过拟合现象的发生，例如：可以在算法中添加惩罚函数来预防过拟合。

欠拟合：如果模型过于简单，对于训练集的特点都不能完全考虑到的话，那么这样的模型在训练集和测试集的表现都会非常的差。

欠拟合原因：模型复杂度过低、特征量过少

欠拟合解决办法：

①通过增加新特征来增大假设空间。

②添加多项式特征，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

③减少正则化参数。

④使用非线性模型，比如决策树、深度学习等模型。

⑤调整模型的容量，模型的容量是指其拟合各种函数的能力，容量低的模型可能很难拟合训练集。

5.如何划分数据集以及评估方法有哪几种

评估方法就是进行划分数据集的，应该要求测试集与训练集之间互斥，用测试集来进行模型预测，来评估模型的分类和性能能力。

留出法：就是将整个数据集按照某种比例进行划分成训练集和测试集，要注意分层对数据采样，多次重复划分，测试集最好保持在20-30%的数据量上

交叉验证法：将全部数据集D分成 k个不相交的子集，进行k次训练和测试，每次从分好的子集中里面，拿出一个子集作为测试集，其它k-1个子集作为训练集，计算k次测试结果的平均值，作为该模型的真实结果。留一法：是交叉验证法的一种，例如D中有m个样本，令k=m，则每个子集仅包含一个样本。适合小样本数据。

自助法：假定D中包含m个样本，通过对它进行采样产生数据集D’，每次随机从D中挑选一个样本，将其拷贝放入D’中，然后再将该样本放回D中，这个过程重复m次，则得到了包含m个样本的数据集D’，可将D’用在训练集，D\D’用作测试集。

6.最大似然估计(MLE)

在已经得到实验结果(样本)的情况下，估计满足这个样本分布的参数θ，使这个样本出现概率最大的参数θ，作为真参数θ估计。即：模型已定，参数未知。要求所有的采样都是独立同分布的。

假定X={x1,x2,…xn}，θ为模型参数，f为所使用的模型，则

L(θ|X)=f(X|θ)

求解过程：

1由总体分布推导出样本的联合概率密度函数（或联合密度函数）；

2通过联合概率密度函数（或联合密度函数）得到似然函数L(θ)。

3对似然函数取对数，再求导，令导数为0，得到似然方程，再计算极大值点，若无法求导数时，要用极大似然原则来求解。

7.最大后验估计(MAP)

最大后验估计是根据经验数据，获得对难以观察的量的点估计。与最大似然估计不同的是，最大后验估计融入了模型参数本身的先验概率分布。估计过程中，需利用先验概率和贝叶斯定理得到后验概率，目标函数为后验概率的似然函数，求得该似然函数最大时的参数值，即MAP的目标结果，求解过程可用梯度下降等方法进行。

假定X={x1,x2,…xn}，θ为模型参数，f为所使用的模型，g为参数θ的先验分布则

L(θ|X)=f(X|θ)g(θ)

1确定参数的先验分布以及似然函数

2确定参数的后验分布函数

3将后验分布函数转换为对数函数，再求导，令导数为0，得到似然方程，再计算极大值点

8.MLE与MAP比较

最大后验估计是根据经验数据获得对难以观察的量的点估计，融入了要估计量的先验分布在其中。

MLE：取似然函数最大时的参数值为该参数的估计值。MAP：取后验函数最大时的参数值为该参数的估计值。

MLE只考虑训练数据拟合程度没有考虑先验知识，把错误点也加入了模型中，会导致过拟合。

MAP考虑了模型的先验分布，而MLE假设模型是均匀分布。

两者都是为了找到参数的某一个取值，这个取值使得得到目前观察结果的概率最大。

9.贝叶斯分类器(朴素贝叶斯分类器)

其分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。

类结点C，其中C 的取值来自于分类集合( c1, c2, ... , cm)，分类特征集合X = (x1, x2, ... , xn)，则样本D属于类别ci的概率P(C = ci | X = x) = P(X = x | C = ci) * P(C = ci) /P(X = x)

贝叶斯最优分类器：补：R(c|x)=1-P(c|x) 最小化分类错误率

所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关，由指定的特征值xi，通过构造分类器f，得到所属分类yi, 分类特征集合X = (x1, x2, ... , xn)，类别集合c=(y1,y2,…,ym)。计算后验概率：P(yi|x)=P(yi)P(x|yi)/P(x)

朴素贝叶斯分类器：

朴素贝叶斯分类器的优缺点:

若条件独立性假设成立，则朴素贝叶斯分类器是最佳分类器

朴素贝叶斯模型有稳定的分类效率

对缺失数据不敏感，算法简单，常用于文本分类，分类准确度高，速度快

但需要先知道先验概率，因此在某些时候由于假设的先验模型的原因导致预测的效果不佳

10.分类器分为哪几种模型

判别式模型：给定x，通过直接建模P(c|x)，来预测c。例如：逻辑回归

生成式模型：先对联合概率分布P(x|c)建模，然后由此获得P(c|x)。例如：高斯、朴素贝叶斯

判别式模型较生成式模型方便很多，因为生成式模型需要学习一个X和Y的联合分布，往往需要很多数据，而判别式模型需要的数据相对较少，不过生成式模型能够提供更多的信息。若给定无限数据，条件独立性假设成立，判别式和生成式表现相似，若不成立，则判别式优于生成式。

11.什么是线性回归和逻辑回归，并阐述两者的联系和区别，以及各自的优缺点

线性回归：用一条高维一次曲线或曲面，去拟合变量之间的关系。利用线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。

线性回归模型公式：h(x)=ω1x1+ω2x2+⋅⋅+ωnxn+b

{x}是模型的特征空间，ω是特征向量的权值，b是常量。

逻辑回归：一个应用非常广泛的机器学习分类算法，它将数据拟合到一个logit函数中，从而完成对事件发生概率的预测。

区别：

①线性回归要求变量服从正态分布，逻辑回归对变量分布没有要求。

②线性回归要求因变量是连续性数值变量，而逻辑回归要求因变量是分类型变量。

③线性回归要求自变量和因变量呈线性关系，而逻辑回归不要求自变量和因变量呈线性关系

④逻辑回归是分析因变量取某个值的概率与自变量的关系，而线性回归是直接分析因变量与自变量的线性关系

⑤线性回归优化的目标函数是均方误差（最小二乘法)，而逻辑回归优化的是似然函数

⑥逻辑回归处理的是分类问题，线性回归处理的是回归问题，这也导致了两个模型的取值范围不同：0-1和实数域

联系：

①两个都是线性模型，线性回归是普通线性模型，逻辑回归是广义线性模型

②表达形式上，逻辑回归是线性回归套上了一个Sigmoid函数

线性回归优缺点：

优点：

①思想简单，实现容易，建模迅速，模型容易理解，对于小数据量、简单的关系很有效。

②是许多强大的非线性模型的基础。

③能解决回归问题。

缺点：

①对于非线性数据或者数据特征间具有相关性多项式回归难以建模.

②难以很好地表达高度复杂的数据，容易欠拟合。

逻辑回归优缺点：

优点：

①训练速度快，分类的时候，计算量仅仅只和特征的数目相关

②简单易理解，模型的可解释性非常好

③适合二分类问题，不需要缩放输入特征

缺点：

①不能用LR去解决非线性问题

②对多重共线性数据较为敏感

③很难处理数据不平衡问题

④准确率并不是很高，因为形式非常简单，很难去拟合数据的真实分布

12.参数模型与非参数模型

参数模型：通常假设总体服从某个分布，这个分布可以由一些参数确定，如正态分布由均值和标准差确定，在此基础上构建的模型称为参数模型。

常见的参数机器学习模型有：逻辑回归、线性回归、感知机

优点:

1、简洁：理论容易理解和解释结果。

2、快速：参数模型学习和训练的速度都很快。

3、数据更少：通常不需要大量的数据，在对数据的拟合不很好时表现也不错。

局限性：

1、拘束：以指定的函数形式来指定学习方式。

2、有限的复杂度：通常只能应对简单的问题。

3、拟合度小：实际中通常无法和潜在的目标函数完全吻合，也就是容易出现欠拟合。

非参数模型：对目标函数形式不做过多的假设，因此算法可以通过对训练数据进行拟合而学习出某种形式的函数。

常见的非参数机器学习模型有：决策树、素贝叶斯、持向量机、经网络

优点：

1、可变性：可以拟合许多不同的函数形式。

2、模型强大：对于目标函数不做假设或者作出很小的假设。

3、表现良好：对于训练样本数据具有良好的拟合性。

局限性：

1、需要更多数据：对于拟合目标函数需要更多的训练数据。

2、速度慢：因为需要训练跟多的参数，所以训练过程通常比较慢。

3、过拟合：有较高的风险发生过拟合，对于预测的效果解释性不高。

11.极大似然估计

已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。

令Dc表示训练集D中第c类样本组成的集合，假设这些样本是独立同分布的，则参数θc对于数据集Dc似然是P(Dc|θc)=

对数似然LL(θc)=log P(Dc|θc)=

此时θc的极大似然估计=arg max LL(θc)

13.独立同分布

随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布。如随机变量X1和X2独立，是指X1的取值不影响X2的取值，X2的取值也不影响X1的取值且随机变量X1和X2服从同一分布，这意味着X1和X2具有相同的分布形状和相同的分布参数。

14.BP算法

BP算法：由学习过程由信号的正向传播与误差的反向传播两个过程组成。

BP算法的基本思想是：学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时，输入样本从输入层传入，经各隐层逐层处理后，传向输出层。若输出层的实际输出与期望的输出(教师信号)不符，则转入误差的反向传播阶段。误差反传是将输出误差以某种形式通过隐层向输入层逐层反传，并将误差分摊给各层的所有单元，从而获得各层单元的误差信号，此误差信号即作为修正各单元权值的依据。这种信号正向传播与误差反向传播的各层权值调整过程，是周而复始地进行的。权值不断调整的过程，也就是网络的学习训练过程。此过程一直进行到网络输出的误差减少到可接受的程度，或进行到预先设定的学习次数为止。

BP学习过程：

(1)组成输入模式由输入层经过隐含层向输出层的“模式顺传播”过程。

(2)网络的期望输出与实际输出之差的误差信号由输出层经过隐含层逐层休整连接权的“误差逆传播”过程。

(3)由“模式顺传播”与“误差逆传播”的反复进行的网络“记忆训练”过程。

(4)网络的总体误差趋向极小值的“学习收敛”过程。

BP算法不足：

(1)训练时间较长。对于某些特殊的问题，运行时间可能需要几个小时甚至更长，可以采用自适应的学习率加以改进。

(2)易陷入局部极小值。这主要是因为BP算法所采用的是梯度下降法，不同的起始点可能导致不同的极小值产生，即得到不同的最优解。

(3)训练过程中，学习新样本时有遗忘旧样本的趋势。

(4)梯度越来越稀疏，从顶层越往下，误差校正信号越来越小，梯度扩散

(5)通常，算法只能用于有标签的数据训练，但大部分数据是没有标签的

15.多层神经网络一般由哪些层组成，每层（节点）什么含义

在神经网络中，处理单元通常按层次分布于神经网络的输入层、隐含层和输出层

输入层：接受与处理训练数据集中的各输入变量值

隐含层：实现非线性数据的线性变换

输出层：给出输出变量的分类或预测结果

16.介绍L2正则化与L1正则化及区别

17.集成学习，Bagging与Boosting方法及两者区别

集成学习：就是将多个个体学习器用某种策略组合起来成为强学习器，通常个体学习器是由已有的学习算法从训练数据中学习产生的。有同质集成和异质集成。同质集成，即集成中只包含同种类型的个体学习器，这些个体学习器亦被称为基学习器，产生这些基学习器的学习算法叫作基学习算法。异质集成，即集成中的个体学习器由不同的学习算法生成。

Bagging：是一种并行集成算法。该算法的思想是分别构造多个基学习器（弱学习器），多个基学习器相互之间是并行的关系，通过自助采样法进行训练，最终将多个基学习器结合。对分类问题采用投票方式，对回归问题采用简单平均方法对新示例进行判别。

Baggingt特点：

①训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的

②使用均匀取样，每个样例的权重相等

③所有预测函数的权重相等。

④各个预测函数可以并行生成

⑤趋于降低方差，使模型更稳定

Boosting：是一种迭代算法。每轮迭代中会在训练集上产生一个新的分类器，然后使用该分类器对所有样本进行分类，以评估每个样本的重要性。Boosting算法要涉及到两个部分，加法模型和前向分步算法。加法模型就是说强分类器由一系列弱分类器线性相加而成。前向分步就是说在训练过程中，下一轮迭代产生的分类器是在上一轮的基础上训练得来的。

Boosting特点：

①每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

②根据错误率不断调整样例的权值，错误率越大则权重越大。

③每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

④各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

⑤趋于降低偏差，模型准确率更高。

18.支持向量机与感知机，及两者的区别与联系

感知机：

二维空间中找到一条直线可以把所有二元类别分离开，三维或多维空间中，找到一个分离超平面把所有二元类别分离开。

f(x)=sign(wx+b) 将f(x)称为感知机，w,b分别为该感知机的权值和偏置，sign是符号函数，有两种输出结果

定义损失函数：（M为误分类点集合）

补：多层感知机：除了输入和输出层之外，它中间可以有多个隐含层。

支持向量机：

是一种二分类监督学习模型，定义在特征空间上间隔最大的线性模型。

分类决策函数：

区别：

感知机，只需要找到可以将数据正确划分的超平面即可，而SVM需要找到间隔最大的超平面将数据划分开，感知机超平面无数个，而SVM只有一个

19.偏差和方差

偏差：学习算法的期望预测与真实结果的偏离程度，刻画了学习算法本身的拟合能力。，偏差越小，拟合越好，小到一定程度会发生过拟合。

方差：度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动所造成的影响。

，方差越大，数据分布越分散。

20.交叉验证及存在的问题

将数据集随机划分成k类，每类作为一个测试集，剩余k-1个类作为训练集，交替作为测试集，计算k次，求每次的均方误差。

留一法是一种特殊的交叉验证方式。如果样本容量为n，则k=n，进行n折交叉验证，每次留下一个样本进行验证。主要针对小样本数据。

存在k值确定的问题：

选择的k值大，误差估计的偏差很小，但误差估计的方差很大，计算时间非常大。

选择的k值小，误差估计的偏差很大，但计算量小，时间短，误差估计的方差小。

21.决策树

决策过程：

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

开始，构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按着这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。

如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到所对应的叶节点去。

如果还有子集不能够被正确的分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的节点，如果递归进行，直至所有训练数据子集被基本正确的分类，或者没有合适的特征为止。

每个子集都被分到叶节点上，即都有了明确的类，这样就生成了一颗决策树。

优点：

①决策树可以完美的对训练集进行分类，每个实例都有一个完美的叶节点

②能够同时处理数据型和常规型属性

③便于理解和解释，能够可视化

④对缺失值不敏感

缺点：

①泛化能力差，不能很好的推广到新的例子

②对连续性字段比较难预测

③当类别过多，错误可能就会增加的比较快

简单化决策树：

预剪枝：在决策树生成过程中，对每个结点在划分前先进行评估，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。

后剪枝：先从训练集生成一棵完整的决策树，然后自底向上的对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

22.损失函数有哪些，风险函数有哪些，哪些算法用这些函数

23. 怎样去度量一个算法学习生成的模型是好是坏

采用性能度量来评判一个模型的泛化能力是好是坏。

TP：本来是正样本，被模型预测为正样本。

TN：本来是负样本，被模型预测为负样本。

FP：本来是负样本，被模型预测为正样本。

FN：本来是正样本，被模型预测为负样本。

正确率也即准确率：识别对了的正例（TP）与负例（TN）占总识别样本的比例。A=(TP+ TN)/S

错误率：识别错了的正例（FP）与负例（FN）占总识别样本的比例。E=( FP+FN)/S

精度：识别对了的正例（TP）占识别出的正例的比例。P=TP/(TP+ FP)

召回率：识别对了的正例（TP）占实际总正例的比例。R=TP/(TP+ FN)

24.线性回归怎么去进行求解，哪两种办法，分别简述过程及原理，并给出两种方法之间的联系与区别

求解使用梯度下降和正规方程法

梯度下降：

梯度下降法是一种迭代算法。选取适当的初值x(0)，不断迭代，在迭代的每一步，以负梯度方向更新x的值，进行目标函数的极小化，直到收敛。

过程：当变量的大小相差很大时，应先预处理，对特征值进行缩放，使得他们的值尽可能在同一范围，这样做能收敛的快些。①首先对θ随机赋初值。②改变θ值，使得J(θ)按梯度下降方向减小。线性回归的梯度下降仅有一个全局最优，没有其他局部最优。因为损失函数J(θ)是凸二次函数，这里梯度下降一直收敛直到最小。

正规方程：

梯度下降算法需要经过多次迭代，最后达到收敛。而正规方程法，提供了一种求解最优 θ的解析算法，不需要迭代，而直接一次性求出θ的最优解。

过程：只需要对J(θ)函数对每个θ求偏导，求出每个θ j使得偏导等于0。这些解组合成对应的向量θ就是最优解。

在推导过程中推出一个结果公式：θ=

区别：

梯度下降算法有时需要我们对特征值进行适当的缩放，正规方程不需要特征缩放。

梯度下降算法需要我们自己选择适当的学习率α ，且需要多次的迭代运算。而正规方程并不需要。

相比梯度下降，当n不是很大时，正规方程得到结果更快一些，梯度下降更适合特征变量很多的情况.

25.KNN

KNN算法的核心思想是，如果一个样本在特征空间中的K个最相邻的样本中，大多数都属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。KNN方法在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分类样本集来说，KNN方法较其他方法更为适合。

①计算测试数据与各个训练数据之间的距离；

②按照距离的递增关系进行排序；

③选取距离最小的K个点；

④确定前K个点所在类别的出现频率；

⑤返回前K个点中出现频率最高的类别作为测试数据的预测分类。

优点：简单有效、重新训练代价低、算法复杂度低、适合类域交叉样本、适用大样本自动分类

缺点：惰性学习、类别分类不标准化、输出可解释性不强、不均衡性、计算量较大

26.最小二乘法

是一种求解无约束最优化问题的常用方法，并且也可以用于曲线拟合，来解决回归问题。最小二乘法实质就是最小化“均方误差”。

f(xi)=wxi+b

(w*,b*)=arg min

27.密度估算有哪几种，分别讲述

在使用核密度估计时，如果带宽设置过小，会出现过拟合的现象，如果带宽设置过大，会出现欠拟合的现象，因此需要确定好最佳的带宽。

补充：

1.超参数

是指模型在开始学习过程之前人为指定的参数，而不是通过训练得到的参数数据。例如：树的深度、学习率、深层神经网络中隐藏层的数量等。

2.线性可分

给定一个数据集T={(xi,yi)}，其中，，i=1,2,……,N。如果存在一个超平面S，使得，能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，即对所有的的实例i，有，对所有的的实例i，有，则称数据集T为线性可分数据集。

3.感知机（补充）

感知机是二分类的线性模型，其输入是实例的特征向量，输出的是事例的类别，分别是+1和-1，属于判别模型，要求训练数据集是线性可分的。

4.支持向量机（补充）

线性可分支持向量机：当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器。

线性支持向量机：当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器。

非线性支持向量机：当训练数据线性不可分时，通过使用核技巧及软间隔最大化。

5.梯度下降（补充）

目标函数：

参数θ更新公式：

批量梯度下降法：是梯度下降法的基本类型，这种方法使用整个数据集去计算代价函数的梯度。该方法迭代慢，并且很难处理不能载入内存的数据集，每次迭代都是朝梯度下降的方向。

随机梯度下降法：在每次迭代仅选择一个训练样本去计算代价函数的梯度，然后更新参数。即使是大规模数据集，随机梯度下降法也会很快收敛。但每次迭代不一定都是朝梯度下降的方向，所以准确性可能不会是最好的，同时，迭代次数较多。

小批量梯度下降法：小批量梯度下降是首选方法，因为它结合了前两种方法。它只是将训练数据集拆分成小批量（m个训练样本），在每次迭代中仅使用m个训练样本去计算代价函数的梯度，并为每个批量执行更新。因此，它平衡了随机梯度下降的稳健性和批量梯度下降的效率。

6.方差、均方误差、标准差

方差是各数据偏离平均值差值的平方和的平均数。

均方误差是各数据偏离真实值差值的平方和的平均数。

标准差是方差的算术平方根，刻画了数据的离散程度或波动幅度，标准差越大，数据的离散程度越大；标准差越小，数据的离散程度越小。

7.二元分类器

在一类分类任务中，输出两个互斥类别中的一个。例如，一个评估邮件信息，输出垃圾邮件或非垃圾邮件的机器学习模型就是一个二元分类器。输出结果是0或1。

8.激活函数

在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数

使用激活函数的作用：

如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。

如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

激活函数需要具备以下几点性质:

①连续并可导（允许少数点上不可导）的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数。

②激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。

③激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性。

常用的激活函数：

Sigmoid:

是常用的非线性的激活函数，它的数学形式如下：

特点：

它能够把输入的连续实值变换为0和1之间的输出，特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1.

缺点：

①在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失，其中梯度爆炸发生的概率非常小，而梯度消失发生的概率比较大。

②Sigmoid 的output 不是0均值。这是不可取的，因为这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。

③其解析式中含有幂运算，计算机求解时相对来讲比较耗时。对于规模比较大的深度网络，这会较大地增加训练时间。

tanh函数：

函数解析式：

为双曲正切曲线，过（0,0）点

优点：

函数输出以（0,0）为中心

收敛速度相对于Sigmoid更快

缺点：

tanh并没有解决sigmoid梯度消失的问题

ReLU函数：

f(x)=max(0,x);

优点：

①在输入为正数的时候，不存在梯度饱和问题。

②计算速度要快很多。ReLU函数只有线性关系，不管是前向传播还是反向传播，都比sigmod和tanh要快很多。

缺点：

①当输入是负数的时候，ReLU是完全不被激活的。这样在前向传播过程中，有的区域是敏感的，有的是不敏感的。但是到了反向传播过程中，输入负数，梯度就会完全到0。

②我们发现ReLU函数的输出要么是0，要么是正数，这也就是说，ReLU函数也不是以0为中心的函数。

9. K-means算法

K-means算法的思想：对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

算法执行过程：

选择常数K，随机选择K个样本点，每个样本点初始地代表一个类的平均值或簇中心；

对剩余每个数据样本点，根据其到类中心的距离，被划分到最近的类；

重新计算每个簇的平均值来更新每个簇中心；

重复这个过程，直到所有样本都不能再分配为止；

返回K中心。

K-means优点：

①原理简单，模型的可解释性较强，适用于常规不相交的簇。

②收敛相对较快。

③聚类效果较优。

K-means缺点

①需要提前指定 K 的值。

②可能会收敛到局部最优点。在实践中，尝试不同的初始中心点, 从中挑选最好的结果。

③可能对噪声数据和异常值敏感。

④对于不是凸的数据集比较难收敛。

⑤如果各隐含类别的数据不平衡，例如：各隐含类别的方差不同，则聚类效果不佳。

K-means和KNN比较

K-means是无监督学习的聚类算法，没有样本输出；而KNN是监督学习的分类算法，有对应的类别输出。KNN基本不需要训练，对测试集里面的点，只需要找到在训练集中最近的k个点，用这最近的k个点的类别来决定测试点的类别。而K-means则有明显的训练过程，找到k个类别的最佳质心，从而决定样本的簇类别。

当然，两者也有一些相似点，两个算法都包含一个过程，即找出和某一个点最近的点。两者都利用了最近邻的思想。

10.误差反向传播算法

11.泛化错误、训练错误、性能度量

泛化误差：在新样本或测试集中产生的误差

训练误差：学习器在训练集中产生的误差

性能度量：是衡量模型泛化能力的评价标准，反映了任务需求。

12.贝叶斯文本分类

文本都是由多个词语所构成的，将文本进行分词得到多个文本的特征项(词语)。

设X={a1,a2,……,am}为一个待分类项，X为将文本进行分词得到的多个文本的特征项集合，每个ai为X的一个特征属性(词语)。

设类别集合C={y1,y2,……,yn}

计算P(y1|X),P(y2|X),……,P(yn|X)

根据贝叶斯公式

取max{P(y1|X),P(y2|X),……,P(yn|X)}，作为X所属的类别。

例题：

13.朴素贝叶斯与逻辑回归的区别

①朴素贝叶斯是一个生成模型，逻辑回归是一个判别模型（可以再解释下生成式模型与判别式模型）

②朴素贝叶斯是建立在条件独立性假设的基础之上的。因此，朴素贝叶斯可以不使用梯度下降，而直接通过统计每个特征的逻辑发生比来当做权重。逻辑回归的条件独立假设并不成立，所以，需要通过梯度下降法，来得到特征之间的耦合信息，从而得到相应的权重。逻辑回归实际上是用线性回归模型的预测结果去逼近后验概率的逻辑发生比。

③朴素贝叶斯：不需要优化参数，先用极大似然估计法估计出先验概率P(y)和条件概率P(x|y)，然后计算出极大后验概率P(y|x)。逻辑回归：需要优化参数，先用极大似然估计法得出损失函数，再用梯度下降法等优化参数。

以下为对序号②的解释：

14.多项式回归

研究一个因变量与一个或多个自变量间多项式的回归分析方法，称为多项式回归。

如果自变量只有一个时，称为一元多项式回归。f(x)=w0+w1x+w2x2+…+wmxm

如果自变量有多个时，称为多元多项式回归。f(x)=w0+w1x1+ w2x2+w3x12+ w4x22…

15.高斯分布学习

高斯分布公式：

在后验估计下高斯分布的均值与方差

16.非线性回归

非线性回归算法属于有监督的回归学习算法。非线性回归算法就是将非线性回归转化为线性回归，再按照线性回归求解。例如：y-a+b*lnx，令v=lnx，u=y，则u=a+b*v。线性回归通常采用给定的函数值与模型预测值之差的平方和最小为损失函数, 并使用最小二乘法和梯度下降法来计算最终的拟合参数。自变量与因变量之间的函数表达式的非线性体现在至少有一个变量的指数不是1。

逻辑回归分类算法的核心步骤如下:

①确定变换函数，将非线性回归转化为线性回归;

②构造 predict 函数，采用n维线性函数;

③构造 loss 函数, 给定的函数值与模型预测值之差的平方和最小;

④使用最小二乘法和梯度下降法计算最终的拟合参数;

⑤反复迭代优化最终的拟合参数;

⑥输出最终的拟合参数

17.模型选择

在实际机器学习的应用中，我们常常需要反复调试和比较不同的参数设置以提高模型在新数据集上的预测性能，这一调参优化的过程就被称为模型的选择。

holdout 方法进行模型选择：

将数据集划分为：训练集、验证集、测试集

重复地使用验证集来评估模型的参数，对其性能做出评价。一旦我们对参数值满意，我们就将使用测试集来评估模型的泛化误差。holdout 方法的弊端在于性能的评估对训练集和测试集的分割比例较为敏感。

K交叉验证（参考前面）

结构风险最小化：

复杂性正则化：

信息标准：AIC：C(f)=#parameters BIC：C(f)=#parameters*logn

最小描述长度：MDL

18.最小二乘法和最大似然估计以及正则化最小二乘法和最大后验估计

19.ROC曲线

TPR（真正例率）：真实值是正例，且预测为正例的比例

FPR（假正例率）：真实值为负例，而预测为正例的比例

ROC曲线就是以TPR为Y轴，以FPR为X轴，然后以一个对不同的预测值进行分类.

当取不同阈值时会得到不同的TPR和FPR，对应于ROC曲线上的一个点。

那么ROC曲线就反映了FPR与TPR之间动态关系的情况。

通俗地来说，即在TPR随着FPR递增的情况下，谁增长得更快，快多少的问题。

TPR增长得越快，曲线越往上曲，反映了模型的分类性能就越好。

当正负样本不平衡时，这种模型评价方式比起一般的精确度评价方式的好处尤其显著。

文档完整电子版

https://download.csdn.net/download/qq_42368540/68205608

机器学习期末简答总结相关推荐

华南农业大学 Linux 期末简答速成
1.画出Linux系统的体系结构图,说明每一个模块的功能和联系 2.画出stand-alone图和xinetd的图模式 3.画出X windows的模式图 4.软连接和硬连接? 联系: (1)对软连接 ...
计算机网络之百个为什么？［期末简答必记］
1)什么是链接? 链接是指两个设备之间的连接.它包括用于一个设备能够与另一个设备通信的电缆类型和协议. 2)OSI 参考模型的层次是什么? 有 7 个 OSI 层:物理层,数据链路层,网络层,传输层, ...
Android期末复习篇_传智课后习题以及答案（选择、填空、判断、简答、编码题）
写在前面此为移动应用开发传智课后习题及答案,供期末复习使用,注意答案仅供参考加粗题目为强调题型涉及:选择.判断.填空.简答.编程题另8章习题及答案汇总:Android期末复习篇_8章节练习题 ...
哈工大2021秋机器学习期末试题
哈工大2021秋机器学习期末试题刚刚经历了机器学习复习和考试,这过程简直是太折磨了. 这门课的期末考试往年题还是很有参考价值的.所以我在考试的时候抽了点时间把期末题记了一下,希望能对学弟.学妹(如果 ...
432统计简答（个人笔记）
简答题/面试题属开放性问答,答案并不唯一,因此自己对问题的理解与阐述就显得尤为重要.除说准基本概念外,适当具体加以论证更有助于表达. 以下为方便个人记忆而整理的部分简答及解析,仅供参考,欢迎读者斧正或 ...
机器学习期末考试复习资料，全是干货，过过过
第一章机器学习概述定义我们需要分析的目标---收集相关数据---对数据进行处理使得可以使用机器学习的方法对它运用,特征提取.特征降维.特征选择等整理预处理对数据集进行清洗---建模-选择合适的机 ...
金融名词+简答+计算
名词解释金融工程:金融工程是以金融产品和解决方案的设计.金融产品的定价与风险管理为主要内容 ,运用现代金融学.数理和工程方法与信息技术的理论与技术,对基础产品与金融衍生产品进行组合与分解,以达到 ...
机器学习期末考试回忆版
机器学习期末考试回忆版机器学习期末考试_不败顽童博主的博客-CSDN博客这是作者在考试之间总结的文章,大家有兴趣的话可以参考下,作者是在6月10号下午考试.但是作者是在6月26号才想起来写一个回忆 ...
java单链表查询功能,Java 实现简答的单链表的功能
作者:林子木博客网址:http://blog.csdn.net/wolinxuebin 參考网址:http://blog.csdn.net/sunsaigang/article/details/5 ...

机器学习期末简答总结

机器学习期末简答总结相关推荐

最新文章

热门文章