机器学习中的小数学知识

1、如何通俗易懂地解释「协方差」与「相关系数」的概念：协方差能够表示变量相关性的原因，相关系数可以看成一种剔除了两个变量量纲影响、标准化后的特殊协方差。

2、置信区间理解：当计算出样本均值时如何基于样本均值确定一个区间，使我们以一定置信水平（概率，如95%）相信真实的总体样本均值包含在在这个置信区间内。

3、如何通俗并尽可能详细解释卡尔曼滤波？：模型预测分布和实际测量分布的加权平均，不断迭代。

4、1、L1正则化与L2正则化为什么能够给避免过拟合； 2、l1 相比于 l2 为什么容易获得稀疏解：结构风险最小化的一种策略，假设模型参数符合某种先验分布。实践中，根据Quaro的data scientist Xavier Amatriain 的经验，实际应用过程中，L1 nrom几乎没有比L2 norm表现好的时候，优先使用L2 norm是比较好的选择。L2对大数，对outlier更敏感。这个可以从二者的假设分布拉普拉斯分布和高斯分布分布图像中观察到。

5、浅谈「正定矩阵」和「半正定矩阵」，请问谁能用易于理解的语言解释下矩阵的正定及半正定？：一个向量经过正定、半正定矩阵的变换后的向量与其本身的夹角小于等于90度。XAX = XY >= 0 (X为任意矩阵，Y为变换后矩阵)。XY=cosθ >= 0为向量内积，表示θ <= 90度。从几何方面理解，可以看成二次函数的高维形式：

如何判断一个矩阵为正定？
1、顺序主子式全大于0；
2、存在可逆矩阵C使C^TC等于该矩阵；
3、正惯性指数等于n；
4、合同于单位矩阵E（即：规范形为E）
5、标准形中主对角元素全为正；
6、特征值全为正；
7、是某基的度量矩阵。

6、如何理解机器学习和统计中的AUC？，AUC计算：从定义方面理解它是FP（假阳率）、TP（真阳率）选择不同阈值画出的ROC曲线的面积；直观点的理解，它表示任取一对正例和负例，其中正例得分大于负例得分的概率，AUC越大，模型效果越好。所以它反映的是一种排序的能力，也就是正例排在负例前面。而且对于类别是否平衡不敏感，可用于评价不平衡数据集。
1、称预测类别为1的为Positive（阳性），预测类别为0的为Negative（阴性）。
2、预测正确的为True（真），预测错误的为False（伪）。
混淆矩阵：

FP、TP计算：

AUC和PR曲线区别：
**PR曲线的应用场景：**需要根据需求找到对应的precision和recall值。如果偏向precison，那就是在保证recall的情况下提升precision；如果偏向recall，那就是在保证precision的情况下提升recall。比如对于欺诈检测（Fraud Detection），如果要求预测出的潜在欺诈人群尽可能准确，那么就要提高precision；而如果要尽可能多地预测出潜在的欺诈人群，那么就是要提高recall。一般来说，提高二分类模型的分类阈值就能提高precision，降低分类阈值就能提高 recall，这时便可观察PR 曲线，根据自己的需要，找到最优的分类阈值（threshold）。
**ROC曲线和AUC的应用场景：**在二分类模型中正例和负例同等重要的时候，或者当测试数据中正负样本的分布随时间而变化时，需要比较模型的整体性能，适合用ROC曲线评价。
总结一下PR曲线和ROC曲线&AUC的区别：

PR曲线在正负样本比例比较悬殊时更能反映分类器的性能。当正负样本差距不大的情况下，ROC和PR的趋势是差不多的，但是当负样本很多的时候，两者就截然不同了，ROC效果依然看似很好，但是PR上反映效果一般。这就说明对于类别不平衡问题，ROC曲线通常会给出一个过于乐观的效果估计，此时还是用PR曲线更好。
ROC曲线由于兼顾正例与负例，适用于评估分类器的整体性能（通常是计算AUC，表示模型的排序性能）；PR曲线则完全聚焦于正例，因此如果我们主要关心的是正例，那么用PR曲线比较好。
ROC曲线不会随着类别分布的改变而改变。然而，这一特性在一定程度上也是其缺点。因此需要根据不用的场景进行选择：比如对于欺诈检测，每个月正例和负例的比例可能都不相同，这时候如果只想看一下分类器的整体性能是否稳定，则用ROC曲线比较合适，因为类别分布的改变可能使得PR曲线发生变化，这种时候难以进行模型性能的比较；反之，如果想测试不同的类别分布对分类器性能的影响，则用PR曲线比较合适。

7、机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？，理解 Bias 与 Variance 之间的权衡
从同一分布中取多个数据集，并分别训练模型，则所有模型预测样本x的值，对所有预测值求均值和方差，也就是Variance。显然Variance刻画的是模型忍受数据扰动的能力。另外样本x有着本身的真实标记，这个标记与前面的均值的方差就是Bias。显然Bias刻画的是模型的拟合能力。

但是通常情况下低Bias和低Variance不可同时所得。如左图（横坐标也可理解为训练程度），在模型训练初期，模型拟合能力不足，此时数据的扰动不足以使模型产生变化，也就是高Bias，低Variance；但随着训练的进行，模型的拟合能力加强，此时数据的些许扰动都能被模型学习到，也就是低Bias，高Variance。当模型过度学习时，此时模型连训练数据的局部特性都学习到，出现过拟合情况。如右图，模型在训练集上的error逐渐减小，代表在训练集上的拟合能力增强；但在测试集上的error却在减小后开始增大，代表模型过度拟合训练集，导致在测试集上出现较大error。

从上图红色表示真实标记，蓝色分布点表示不同数据集上模型，蓝色分布点越分散，表示Variance越高，模型稳定性不足，；而所有蓝色分布点距离红色越近表示模型的拟合能力越强。
如何理解K-fold与其关系？当K值大的时候，每个fold数据集样本数量少，模型训练不足，拟合能力差，我们会有更少的Bias(偏差), 更多的Variance。当K值小的时候，样本较多，模型拟合能力强，我们会有更多的Bias(偏差),更少的Variance。

8、决策树离散特征该如何处理：关于sklearn中的决策树是否应该用one-hot编码？，Decision Trees，机器学习算法中 GBDT 和 XGBOOST 的区别有哪些？GBDT和XGboost介绍结合原PPT理解

9、数据处理过程中的平滑：为何要进行数据平滑处理？，n-gram文法和数据平滑，NLP系列学习:数据平滑数据平滑更多的是将一个取值范围很大的数值压缩到一个较小的区域，方便模型的学习，模型也更容易调整到对应的数值，这跟归一化的作用有点类似。比如本来范围0-10000，模型为了预测到10000，就得需要很大的参数，但同时又得预测到0，又需要很小的参数。但如果我们将0-10000压缩到0-1，那么模型只需要很小的调整就能从0到1。NLP领域的平滑更多是为了解决0概率问题。

10、傅里叶分析之掐死教程、傅里叶变换

11、泰勒公式：如何通俗地解释泰勒公式？使用泰勒公式进行估算时，在不同点有啥区别？

12、举例说明极大似然与EM算法区别；
EM算法存在的意义是什么？；EM（ expectation-maximization，期望最大化）算法
13、详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解
14、最大公约数、最小公倍数，质数求解
15、拉格朗日乘数法
16、检索评估指标：MAP NDCG

机器学习中的小数学知识相关推荐

机器学习中的基本数学知识
注:本文的代码是使用Python 3写的. 机器学习中的基本数学知识线性代数(linear algebra) 第一公式矩阵的操作换位(transpose) 矩阵乘法矩阵的各种乘积内积外积 ...
总结：机器学习中的基本数学知识
注:本文的代码是使用Python 3写的. 机器学习中的基本数学知识线性代数(linear algebra) 第一公式矩阵的操作换位(transpose) 矩阵乘法矩阵的各种乘积内积外积 ...
干货丨一文介绍机器学习中基本的数学符号
在机器学习中,你永远都绕不过数学符号. 通常,只要有一个代数项或一个方程符号看不懂,你就完全看不懂整个过程是怎么回事了.这种境况非常令人沮丧,尤其是对于那些正在成长中的机器学习初学者来说更是如此. 如 ...
入门 | 一文介绍机器学习中基本的数学符号
本文介绍了机器学习中的基本数学符号.具体来说有算数符号,包括各种乘法.指数.平方根以及对数:数列和集合符号,包括索引.累加以及集合关系.此外,本文还给出了 5 个当你在理解数学符号遇到困难时可以应急的 ...
人工智能中的核心数学知识体系
下面讨论重要的问题:AI用到了数学体系中的哪些核心知识? 当你成为一个AI领域的熟手之后,每当遇到难以解决的问题时,其实最常见的问题多半是找不到解决当前问题的思路,即没有好的算法解决当前遇到的问题.有 ...
一文介绍机器学习中基本的数学符号
本文介绍了机器学习中的基本数学符号.具体来说有算数符号,包括各种乘法.指数.平方根以及对数:数列和集合符号,包括索引.累加以及集合关系.此外,本文还给出了 5 个当你在理解数学符号遇到困难时可以应急的 ...
Useful Things To Know About Machine Learning (机器学习中一些有用的知识)
Useful Things To Know About Machine Learning 原文作者:Jason Brownlee 原文地址:https://machinelearningmastery ...
机器学习所需要的数学知识
作者:Dahua 苦逼的数学啊~! 感觉数学似乎总是不够的.这些日子为了解决research中的一些问题,又在图书馆捧起了数学的教科书.从大学到现在,课堂上学的和自学的数学其实不算少了,可是在研究的过 ...
机器学习都需要有哪些数学知识？
随着科技的快速发展,人工智能的重要性日渐显现. 机器学习是一个异常丰富的研究领域,有大量未解决的问题:公正.可解释性.易用性.如同所有的学科一样,它的基本思想不是请求式的过程,而是需要耐心地用高级数学 ...

机器学习中的小数学知识

机器学习中的小数学知识相关推荐

最新文章

热门文章