之前学习的复习，以及一些问题总结。PART 1

1. LR和朴素贝叶斯（NB）的区别

1.目的或解决的机器学习类别是什么？
两种算法都可以用于数据分类。使用这些算法，您可以预测银行家是否可以向客户提供贷款或确定给定的邮件是垃圾邮件还是火腿邮件。

2.算法的学习机制
朴素贝叶斯：对于给定的特征（x）和标签y，它从训练数据中估计联合概率。因此，这是一个生成模型
Logistic回归：通过最小化误差直接从训练数据中估计概率（y / x）。因此，这是一个判别模型

3.模型假设
朴素贝叶斯：模型假设所有特征在条件上都是独立的。因此，如果某些特征相互依赖（在较大的特征空间的情况下），则预测可能会较差。
逻辑回归：线性分割特征空间，即使某些变量相关也可以正常工作

4.型号限制
朴素贝叶斯（NaïveBayes）：即使估计的训练数据较少，但效果很好，因为估计值基于关节密度函数
逻辑回归：如果训练数据较小，则模型估计值可能会过拟合数据

5.改善结果应遵循的方法
朴素贝叶斯：当训练数据的大小相对于特征而言较小时，有关先验概率的信息/数据有助于改善结果
逻辑回归：当训练数据量相对于特征较小时，Lasso和Ridge回归将有助于改善结果。

2. 机器学习中，LR和SVM有什么区别
Logistic回归假设预测变量不足以确定响应变量，但确定的概率是它们线性组合的逻辑函数。如果有很多噪音，逻辑回归（通常适用于最大似然技术）是一个很棒的技术。

另一方面，存在一些问题，其中您有成千上万的维度，而预测变量几乎可以肯定地确定响应，但是以某种难以解释的编程方式进行。一个例子是图像识别。如果您有100 x 100像素的灰度图像，则已经有10,000个尺寸。通过各种基础转换（内核技巧），您将能够获得数据的线性分隔符。

当存在一个分离的超平面时，非正则逻辑回归技术不能很好地工作（实际上，拟合系数会发散），因为最大的可能性是由任何分离的平面实现的，并且不能保证会得到最好的。您得到的是一个非常有信心的模型，在边际附近的预测能力很差。

SVM为您提供最佳的分离超平面，它们在高维空间中效率很高。它们与正则化相似，它试图找到分隔数据的最低范数矢量，但是有一个余量条件，有利于选择一个好的超平面。硬边界的SVM将找到一个将所有数据分隔开的超平面（如果存在），如果没有则失败。当数据中存在噪声时，软边距SVM（通常首选）效果更好。

此外，SVM仅考虑边缘附近的点（支持向量）。 Logistic回归考虑了数据集中的所有点。您更喜欢哪个取决于您的问题。

逻辑回归在较小的维度上非常有用，并且当预测变量不足以给出响应的概率估计时。当维数较多时，SVM的效果更好，尤其是在预测变量确实（或几乎确定）确定响应的问题上。

LR在特征较多时可以进行怎样的优化
首先，使用线性回归对具有给定特征的模型进行训练，并查看性能以及其在训练和测试数据上的表现。

然后，要在存在多个特征时优化线性回归模型，请尝试通过添加更多具有2或3级的特征或任何其他函数（例如，正特征的对数）来添加虚拟数据的不同组合进行测试。首先添加一项功能，然后检查结果是否更好。但是，如果我们继续添加越来越多的复杂功能，可能会导致数据过度拟合，从而非常适合训练数据，即得分太高，但对测试数据的表现不佳。

我们可以添加新列，方法是使用panda将数据转换为数据帧，然后运行for循环，该循环可以遍历所有列并添加与现有功能相对应的新功能。

例如，如果要添加与计数为13的现有要素相对应的平方要素，则可以通过此for循环添加要素

对于范围内的我：

d [df.columns [i] + _square] = df [df.columns [i]] ** 2

其中df是数据帧。

kmean 优点缺点

K-Means的优势：

1）如果变量很大，则在大多数情况下，如果我们保持k个小，则K-Means在计算上通常比层次聚类快。

2）K-Means产生的聚类比层次聚类更紧密，尤其是如果聚类是球形的。

K-均值缺点：

1）难以预测K值。
2）对于全球集群，它运行不佳。
3）不同的初始分区可能导致不同的最终集群。
4）它不适用于不同大小和不同密度的群集（在原始数据中）

Kmeans与Kmeans++初始化的区别

K-means首先从随机分配群集中心开始，然后寻找“更好”的解决方案。 K-means ++首先从随机分配一个群集中心开始，然后根据第一个群集中心搜索其他中心。此外，由于所有中心均以k均值随机初始化，因此其结果可不同于k-means ++。

Kmeans与层次聚类对比：
K-均值层次聚类

类别基于质心，基于分区分层，聚集

找到最佳
簇数的方法使用WCSS 树状图

定向方法唯一的质心被认为形成簇自上而下，自下而上

Python库 sklearn – KMeans sklearn-AgglomerativeClustering

正则化为什么能防止过拟合？

机器学习中的正则化是将约束，正则化或缩小系数估计值的参数正则化为零的过程。换句话说，此技术不鼓励学习更复杂或更灵活的模型，避免了过拟合的风险。

SVM和softmax的区别？

SVM和Softmax之间的性能差异通常很小，并且不同的人对于哪种分类器效果更好会有不同的看法。与Softmax分类器相比，SVM是一个更本地化的目标，可以将其视为错误或功能。
SVM 为什么要引入拉格朗日的优化方法

为什么要选择最大间隔分类器？

https://uzshare.com/view/793456

样本失衡会对SVM的结果产生影响吗？如何解决SVM样本失衡问题？样本比例失衡时，使用什么指标评价分类器的好坏？

SVM如何解决多分类问题

https://www.cnblogs.com/CheeseZH/p/5265959.html

SVM适合处理什么样的数据？

高维、稀疏、样本少的数据。

SVM为什么对缺失数据敏感？

SVM没有缺失值的处理策略；
SVM希望样本在特征空间中线性可分，特征空间的好坏影响SVM性能；
缺失特征数据影响训练结果。

SVM如何防止过拟合？

SVM通过在可以分离特征空间中数据，众多超平面中选择一个特定的超平面来避免过拟合。 SVM找到最大余量超平面，该超平面最大程度地混合了从超平面到最近训练点的最小距离

决策树和随机森林的区别

在给定的训练数据集上使用决策树模型时，准确度会随着越来越多的拆分而不断提高。除非您使用交叉验证（针对训练数据集），否则您很容易过度拟合数据，并且不知道何时越界。简单的决策树的优点是模型易于解释，您知道使用什么变量以及该变量的值来拆分数据和预测结果。

随机森林就像一个黑匣子，其工作原理如上述答案所述。您可以建立和控制这片森林。您可以指定森林中所需的树数（n_estimators），也可以指定每棵树中使用的最大要素数。但是您无法控制随机性，您无法控制哪个特征是森林中哪棵树的一部分，您无法控制哪个数据点是哪棵树的一部分。随着树木数量的增加，精度会不断提高，但在某些时候会保持不变。与决策树不同，它不会创建高度偏差的模型并减少方差。

何时用于决策树：

当您希望模型简单易懂时
当您需要非参数模型时
当您不想担心特征选择或正则化或多重共线性时。
如果您确定验证或测试数据集将成为训练数据集的子集或几乎重叠而不是意外发生，则可以过度拟合树并构建模型。
何时使用随机森林：

当您不花太多时间去解释模型但想要更好的准确性时。
随机森林将减少误差的方差部分而不是偏差部分，因此在给定的训练数据集决策树上，随机树可能比随机森林更准确。但是在意外的验证数据集上，随机森林总是会在准确性方面取胜。

随机森林里面用的哪种决策树

Leo Breiman首先在论文中对适当的随机森林进行了介绍。该论文描述了一种使用类似CART的程序，构建树木的森林的方法。

随机森林的原理？如何进行调参？树的深度一般如何确定，一般为多少？

Bagging 和 Boosting的区别

RF、GBDT之间的区别
树木的构建方式：随机森林独立地构建每棵树，而梯度增强则一次构建一棵树。这种加性模型（合奏）以阶段性的方式工作，引入了弱学习者，以改善现有弱学习者的缺点。
合并结果：随机森林在流程结束时合并结果（通过平均或“多数规则”），而梯度增强则沿途合并结果。

如果仔细调整参数，则梯度增强可以比随机森林获得更好的性能。但是，如果可能有很多噪声，则梯度增强可能不是一个好选择，因为它可能导致过度拟合。它们也往往比随机森林更难调整。

随机森林和梯度助推器在不同区域均表现出色。随机森林在进行多类对象检测和生物信息学方面表现良好，这往往会产生大量统计噪声。当您拥有不平衡的数据（例如实时风险评估）时，梯度提升会表现良好。

随机森林的优缺点

随机森林的优点：

随机森林可以解决分类和回归这两种类型的问题，并且可以在两个方面进行合理的估算。

我最常使用的随机森林的好处之一是处理具有更高维度的大型数据集的功能。它可以处理数千个输入变量并标识最重要的变量，因此被认为是降维方法之一。此外，模型输出变量的重要性，这可能是非常方便的功能。

它是一种估算丢失数据的有效方法，并在丢失大部分数据时保持准确性。

上面的功能可以扩展到未标记的数据，从而导致无监督的聚类，数据视图和异常值检测。

随机森林的缺点：

它肯定在分类上做得很好，但对于回归问题却没有，因为它不能给出精确的连续自然预测。在回归的情况下，它不会预测超出训练数据的范围，并且它们可能会过度拟合特别嘈杂的数据集。

对于统计建模人员而言，随机森林感觉就像是黑盒方法，我们对模型的工作几乎没有控制。您最多可以尝试不同的参数和随机种子。

GBDT的关键？GBDT中的树是什么树

关键：利用损失函数的负梯度方向作为残差的近似值来拟合新的CART回归树。
CART回归树。

GBDT和XGB的区别

XGBoost代表“极端渐变增强”；它是Gradient Boosting方法的特定实现，它使用更精确的近似值来找到最佳的树模型。它采用了许多巧妙的技巧，使其异常成功，特别是在结构化数据方面。最重要的是

1.）计算二阶梯度，即损失函数的二阶导数（类似于牛顿的方法），它提供了有关梯度方向以及如何使损失函数最小化的更多信息。常规梯度增强使用基本模型的损失函数（例如决策树）作为代理来最大程度地减少整体模型的误差，而XGBoost使用二阶导数作为近似值。

2）和高级正则化（L1＆L2），可提高模型的泛化能力。
XGBoost具有其他优点：训练非常快，可以在集群中并行化/分布。

LGB和XGB的区别

树的切分策略不同：

xgb基于level-wise，对每一层节点进行无差别分裂，造成不必要的开销；
lgb基于leaf-wise，在当前所有叶子节点中选择分裂增益最大的节点进行分裂；
实现并行方式不同：

xgb使用基于 pre-sorted 决策树算法；
lgb使用基于histogram决策树算法，对离散特征进行分裂时，特征的每个取值为一个桶；
lgb支持直接输入categorical feature，对类别特征无须进行one-hot处理；

优化通信代价不同：lgb支持特征并行、数据并行。

xgboost如何确定特征和分裂点的？
XGBoost使用了和CART回归树一样的想法，利用贪婪算法。基于目标函数，遍历所有特征的所有特征划分点，具体做法就是分裂后的目标函数值大于分裂之前的就进行分裂。

XGB是如何给出特征重要性评分的？
特征权重（weight）：指的是在所有树中，某特征被用来分裂节点的次数；
如何计算：一个特征对分裂点性能度量（gini或者其他）的提升越大（越靠近根节点）其权重越大，该特征被越多提升树选择来进行分裂，该特征越重要，最终将一个特征在所有提升树中的结果进行加权求和然后求平均即可。

GDBT在处理分类和回归问题时有什么区别？

损失函数不同：

分类：指数、对数；
回归：均方差、绝对值。
基于树的模型有必要做标准化吗？

https://blog.csdn.net/answer3lin/article/details/84961694
当采用普通的线性回归的时候，是无需标准化的。因为标准化前后，不会影响线性回归预测值。同时，标准化不会影响logistic回归，

逻辑回归和线性回归的区别

线性回归；逻辑回归
对连续值预测；分类
最小二乘法；最大似然估计
拟合函数；预测函数

K-means 的原理，时间复杂度，优缺点以及改进
原理：对于给定样本集，按照样本之间的距离大小，将样本划分为若干个簇，使簇内距离尽可能小，簇间距离尽可能大；
时间复杂度：O(knd*t) | k:类别，n：样本数，d：计算样本之间距离的时间复杂度，t：迭代次数；
优缺点：
优点：1. 原理易懂、实现简单、收敛速度快、效果好 2. 可解释性强 3. 可调参数只有少，只有k；
缺点：1. 聚类效果受k值影响大 2. 非凸数据集难以收敛 3. 隐含类别不均衡时，效果差 4. 迭代算法，得到的只是局部最优 5. 对噪音和异常数据敏感。
改进：随机初始化K值影响效果 + 计算样本点到质心的距离耗时这两方面优化
KMeans++算法
KMeans随机选取k个点作为聚类中心，而KMeans++采用如下方法：
假设已经选取好n个聚类中心后，再选取第n+1个聚类中心时，距离这n个聚类中心越远的点有越大的概率被选中；选取第一个聚类中心（n=1）时也是需要像KMeans一样随机选取的。

之前学习的复习，以及一些问题总结。PART 1相关推荐

从JVM入手，聊聊Java的学习和复习！
我们在学习的时候,经常会遇到这样一个问题: 「学完就忘」这个问题大部分人都会遇到,那么我们今天就来聊聊,为啥会学了就忘呢? 我根据自己的学习经验,大致总结以下三点原因: 1.知识没有用起来 2.没有 ...
零基础带你学习计算机网络复习—（五）
零基础带你学习计算机网络复习-(五) 学习内容一.数据链路层的概述二.封装成帧三.差错检测四.可靠传输的基本概念五.可靠传输的实现机制-停止等待协议六.可靠传输的实现机制-回退N帧协议七 ...
游戏策划学习：复习、arpg
游戏策划学习:复习.arpg 4/21 1.最喜欢的游戏类型. arpg,魂.只狼.arpg类型的游戏吸引人的地方. (1).角色的成长性.不管是加点的方式还是拾取装备,角色都会随着游戏的进行有数值上 ...
【week5】JAVA语言学习及复习
目录 JAVA语言复习一.JAVA语言的历史及特点二.JAVA开发环境配置三.JAVA语言基本语法四.JAVA变量类型五.方法.类.对象.接口和函数 JAVA语言复习常常听到前辈们和许多大 ...
少儿全学科知识学习、复习、训练的免费福利，少儿知识训练大师 5.0 全新发布：真人语音、插件题库、全新功能
孩子全学科复习.强化训练学习的必备工具,各种学科和知识问题库无限发挥.任意组合,配合本地.在线语音合成和识别引擎,为您打造真人级朗读和交互效果,更适合少儿的生动学习场景,本软件还是免费的哦! 新版软件 ...
lua 给userdata设置元表_lua学习之复习汇总篇
第六日笔记 1. 基础概念程序块定义在 lua 中任何一个源代码文件或在交互模式中输入的一行代码程序块可以是任意大小的程序块可以是一连串语句或一条命令也可由函数定义构成,一般将函数定义写在 ...
国科大人工智能学院.深度学习.期末复习知识点笔记
目录图卷积网络几种激活函数的对比梯度消失与爆炸 GRU.LSTM,解决什么问题 RBM.DBN与GAN.VAE 强化学习基本思想.基本要素.应用场景注意力机制循环神经网络:RNN的结构.优化 ...
我的HTML基础学习笔记(复习)
学习自W3Schoool 文章目录 HTML 简介网页结构 HTML常用的标签注释标签 a 标签 abbr标签 b标签 base标签 br标签 button标签 div标签 font标签 for ...
跟学尚硅学习，趴的老师笔记仅供自己学习和复习无他用途-JavaSE复习笔记
JavaSE复习笔记第一章 Java概述一.计算机语言机器语言汇编语言高级语言:更接近人类语言,方便编写与维护,但相对机器语言执行效率低. 二.跨平台原理一处编写,到处运行. Java程序 ...

之前学习的复习，以及一些问题总结。PART 1

之前学习的复习，以及一些问题总结。PART 1相关推荐

最新文章

热门文章