机器学习基础知识详解！

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：胡联粤，Datawhale面经小组

⽼板给了你⼀个关于癌症检测的数据集，你构建了⼆分类器然后计算了准确率为 98%，你是否对这个模型满意？为什么？如果还不算理想，接下来该怎么做？

首先模型主要是找出患有癌症的患者，模型关注的实际是坏样本。其次一般来说癌症的数据集中坏样本比较少，正负样本不平衡。

准确率指的是分类正确的样本占总样本个数的比率

其中为正确分类样本的个数，为总样本分类的个数。

当好样本(未患病)的样本数占99%时，模型把所有的样本全部预测为好样本也可以获得99%的准确率，所以当正负样本非常不平衡时，准确率往往会偏向占比大的类别，因此这个模型使用准确率作为模型的评估方式并不合适。

鉴于模型关注的实际是坏样本，建议使用召回率(Recall)作为模型的评估函数。

Recall 是分类器所预测正确的正样本占所有正样本的比例，取值范围为[0,1]，取值越大，模型预测能力越好。

其次，使用类别不平衡的解决方案：

常见的处理数据不平衡的方法有：重采样、Tomek links、SMOTE、NearMiss等

除此之外：还可以使用模型处理：使用多种树模型算法，使用多种重采样的训练集，对少数样本预测错误增大惩罚，避免使用Accuracy，可以用confusion matrix，precision，recall，f1-score，AUC，ROC等指标。

怎么判断⼀个训练好的模型是否过拟合？如果判断成了过拟合，那通过什么办法可以解决过拟合问题？

模型在验证集合上和训练集合上表现都很好，而在测试集合上变现很差。

解决过拟合的办法：

特征降维
添加正则化，降低模型的复杂度
Dropout
Early stopping
交叉验证
决策树剪枝
选择合适的网络结构

对于线性回归，我们可以使⽤ Closed-Form Solution, 因为可以直接把导数设置为 0，并求出参数。在这个 Closed-Form ⾥涉及到了求逆矩阵的过程，什么时候不能求出其逆矩阵？这时候如何处理？

什么是闭式解(Closed-Form Solution)？

解析解(Analytical solution) 就是根据严格的公式推导，给出任意的自变量就可以求出其因变量，也就是问题的解，然后可以利用这些公式计算相应的问题。所谓的解析解是一种包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。用来求得解析解的方法称为解析法(Analytical techniques)，解析法即是常见的微积分技巧，例如分离变量法等。解析解是一个封闭形式(Closed-form) 的函数，因此对任一自变量，我们皆可将其带入解析函数求得正确的因变量。因此，解析解也被称为封闭解(Closed-form solution)。

数值解(Numerical solution) 是采用某种计算方法，如有限元法，数值逼近法，插值法等得到的解。别人只能利用数值计算的结果，而不能随意给出自变量并求出计算值。当无法藉由微积分技巧求得解析解时，这时便只能利用数值分析的方式来求得其数值解了。在数值分析的过程中，首先会将原方程加以简化，以利于后来的数值分析。例如，会先将微分符号改为差分（微分的离散形式）符号等，然后再用传统的代数方法将原方程改写成另一种方便求解的形式。这时的求解步骤就是将一自变量带入，求得因变量的近似解，因此利用此方法所求得的因变量为一个个离散的数值，不像解析解为一连续的分布，而且因为经过上述简化的操作，其正确性也不如解析法可靠。

简而言之，解析解就是给出解的具体函数形式，从解的表达式中就可以算出任何对应值；数值解就是用数值方法求出近似解，给出一系列对应的自变量和解。

参考：https://blog.csdn.net/weicao1990/article/details/90742414

什么时候不能求出其逆矩阵？

满秩矩阵或者方阵才有逆矩阵，当一个矩阵不满秩，在对角线上存在为0的特征值，求逆的时候无法计算从而不可逆，那我们给它加上一个单位矩阵，这样它就不为0了，

求解的时候加上单位矩阵其实就是对线性回归引入正则化的过程

参考：https://zhuanlan.zhihu.com/p/44612139

关于正则，我们⼀般采⽤ L2 或者 L1, 这两个正则之间有什么区别？什么时候需要⽤ L2，什么时候需要⽤ L1?

L1正则化（也叫Lasso回归）是在目标函数中加上与系数的绝对值相关的项，而L2正则化（也叫岭回归）则是在目标函数中加上与系数的平方相关的项。

Lasso 和岭回归系数估计是由椭圆和约束函数域的第一个交点给出的。因为岭回归的约束函数域没有尖角，所以这个交点一般不会产生在一个坐标轴上，也就是说岭回归的系数估计全都是非零的。然而，Lasso 约束函数域在每个轴上都有尖角，因此椭圆经常和约束函数域相交。发生这种情况时，其中一个系数就会等于 0。

L2正则化会使参数的绝对值变小，增强模型的稳定性（不会因为数据变化而产生很大的震荡）；而L1正则化会使一些参数为零,可以实现特征稀疏, 增强模型解释性。

参考：https://blog.csdn.net/zouxy09/article/details/24971995/

正则项是否是凸函数？请给出证明过程。

机器学习基础知识详解！相关推荐

R语言基础知识详解及概括
R语言基础知识详解及概括目录 R语言基础知识详解及概括 R数据可视化示例 R语言进行数据创建
R语言可视化绘图基础知识详解
R语言可视化绘图基础知识详解图形参数:字体.坐标.颜色.标签等: 图像符号和线条: 文本属性: 图像尺寸及边界: 坐标轴.图例自定义等: 图像的组合: #install.packages(c(&qu ...
计算机网络相关知识参考博客子网掩码怎么理解网关及网关的作用路由器基础知识详解
子网掩码怎么理解 https://blog.csdn.net/farmwang/article/details/64132723 网关及网关的作用 https://blog.csdn.net/zhao ...
RabbitMQ基础知识详解
RabbitMQ基础知识详解 2017年08月28日 20:42:57 dreamchasering 阅读数:41890 标签: RabbitMQ 什么是MQ? MQ全称为Message Queue, ...
Android随机点名器,Excel基础知识-详解随机点名器
说道制作个案例纯粹意外,我多少有点选择恐惧症,为了不在"选择"上纠结,就自己小玩了一下,就用了程序做了个选择器,其实很简单,就是有小时候玩的"点兵点将",稍微变 ...
Python基础知识详解从入门到精通（八）魔法方法
目录 Python基础知识详解从入门到精通(八)魔法方法什么是魔法方法基础魔法方法(较为常用) 比较操作符算数运算符反运算(类似于运算方法) 增量赋值运算一元操作符类型转换上下文管理( ...
网络管理之基础知识详解
网络管理之基础知识详解目录 3.1 网络的特征 3.2 拓扑结构 4.1 OSI简介 4.2 数据传输过程 4.3 分层作用 4.4 PDU 5.1 单播 5.2 多播 5.3 广播 5.4 三种通 ...
工业相机基础知识详解
工业相机基础知识详解工业相机是机器视觉系统的一个最关键的组件.他的功能很简单,就是将被检测的物体拍摄下来,然后转换成电脑可以识别的图像,以便以后进行图像处理,从而完成检测任务.工业相机俗称工业摄像机 ...
小白入门！网络安全基础知识详解（附知识问答）
小白入门!网络安全基础知识详解(附知识问答) 一.引论提到网络安全,一般人们将它看作是信息安全的一个分支,信息安全是更加广义的一个概念:防止对知识.事实.数据或能力非授权使用.误用.篡改或拒绝使用所 ...

机器学习基础知识详解！

机器学习基础知识详解！相关推荐

最新文章

热门文章