过拟合欠拟合

模型学习能力过强获取了特殊特征/学习能力低下

评估方法

引入测试集testing set，测试模型的评估能力，近似泛化误差。

将数据集拆分为训练集及测试集的常见方法

1.留出法(hold-out)

即将数据集拆分为互斥的两个集合，训练集比例在4/5~2/3 。

此外需要关注两个集合的数据类型分布比例要较为一致。

2.交叉验证法（cross validation）

将数据集分割为k个互斥的子集，且保证数据分布的一致性。取k-1个子集作为训练集，1个作为测试集。进行k次训练以及测试，返回结果的均值。也称k折交叉验证。 k 常取 10.

3.自助法（bootstrapping）

基于自助采样法。

对于包含m个样本的数据集D，进行m次有放回的随机取样copy，m次的copy结果形成数据集D1。

D中大约有0.368的样本不会出现在D1中。通常将D1作为训练集，将D-D1作为测试集。

故此可以有效的避免由于训练样本规模不同导致的误差。此法常用于小训练集。

性能度量

1.错误率

即错误分类的样本占据总样本的比例

2.精度

正确分类的样本占据总样本的比例

3.混淆矩阵（confusion mareix）

4.准确率（precision）

5.召回率（recall）

6.PR图

曲线的包含的面积越大越说明模型的pr值双高也就表明模型具有更好的性能。

7.平衡点（break-even point /BEP）

P=R时，取值较大的模型性能更优

8.F1度量

根据调和平均推导

此时对于PR的重要性，不做区分，认为两者一样重要

9.F $\beta$ 度量

此为F1的一般形式，考虑PR的重要性偏好。

β值反映的是偏好情况，当两者不具有偏好区别时，β = 1，退化为F1 。

β > 1,认为召回率R具有更大的偏好。

β < 1,认为精确率P具有更大的偏好。

10.宏微F1

存在多个混淆矩阵时，进行综合考察，有两种做法。

第一种，分别算出PR ，取平均，得到的是宏P R F1。（macro-P...）

第二种，求出所有混淆矩阵的元素平均值，如TP平均，再基于平均值计算P R F1。得到的是微P R F1。（micro-P...）

11.ROC以及AUC

ROC

ROC为受试者工作特征曲线（receiver operating characteristic)

曲线的横纵坐标分别是FPR（False Positive Rate）和TPR（True Positive Rate）

曲线的绘制方式是,将分类阈值遍历每个样例的预测值,穷尽分类结果,每次得到的混淆矩阵都可以在ROC图中对应一个坐标。曲线并不视作函数，每个点位可以理解为一种分类器。也就是把各种不同阈值的分类情况表征在一张图中。

AUC（area under ROC curve）

即ROC曲线下的面积。

其值越大，表征模型的分类能力越强。如AUC = 1 时，无论设置什么阈值都能够正确分类。（实际不太可能）

12.代价敏感

针对不同类型的分类错误给予不同代价。

例如二分类：

代价矩阵
真实类别	预测类别预测类别
真实类别	0类	1类
0类	0	cost01
1类	cost10	0

由此可以构造损失函数，此处效果考虑的是代价之间的比例而不是数值大小。

参考：

1.(215条消息) ROC曲线的含义以及画法_wenlish的博客-CSDN博客_roc曲线https://blog.csdn.net/m0_48520385/article/details/118636338?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166061353316782414966715%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=166061353316782414966715&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-118636338-null-null.142%5Ev40%5Econtrol,185%5Ev2%5Econtrol&utm_term=ROC&spm=1018.2226.3001.41872.《机器学习》（西瓜书）-周志华

机器学习 - 模型评估简单总结相关推荐

机器学习模型评估指标总结！
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货作者:太子长琴,Datawhale优秀学习者本文对机器学习模型评估指标 ...
机器学习模型评估与超参数调优详解
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货作者:李祖贤深圳大学,Datawhale高校群成员机器学习分为两类 ...
【机器学习基础】非常详细！机器学习模型评估指标总结！
作者:太子长琴,Datawhale优秀学习者本文对机器学习模型评估指标进行了完整总结.机器学习的数据集一般被划分为训练集和测试集,训练集用于训练模型,测试集则用于评估模型.针对不同的机器学习问题(分 ...
机器学习——模型评估，选择与验证
文章目录机器学习--模型评估,选择与验证训练集与测试集为什么要有训练集与测试集如何划分训练集与测试集欠拟合与过拟合欠拟合过拟合偏差与方差模型误差来源偏差与方差验证集与交叉验证为 ...
二、机器学习模型评估
二.机器学习模型评估 2.1 模型评估:基本概念错误率(Error Rate) 预测错误的样本数a占样本总数的比例m E = a m E=\frac{a}{m} E=ma 准确率(Accuracy ...
周志华机器学习--模型评估与选择
周志华机器学习–模型评估与选择第一章绪论第二章模型评估与选择第三章线性模型第四章决策树第五章支持向量机第六章神经网络第七章贝叶斯分类器第八章集成学习和聚类文章目录周 ...
【机器学习基础】机器学习模型评估教程！
译者:追风者,Datawhale成员如何在投入生产前评估机器学习模型性能? 想象一下,你训练了一个机器学习模型.也许,可以从中选几个候选方案. 你在测试集上运行它,得到了一些质量评估.模型没有过度拟 ...
机器学习模型评估与预测
模型评估与预测 1.1经验误差与过拟合 1.2 评估方法 1.2.1留出法(hold-out) 1.2.2交叉验证法 1.2.3 自助法 1.3性能度量 1.3.1 查准率,查全率,准确率 1.3.2 ...
机器学习模型评估与改进：网格化调参(grid search)
文章目录简单网格化搜索参数过拟合的风险网格搜索与交叉验证模型调参接口: GridSearchCV函数整体流程 GridSearchCV( )函数对交叉验证进一步分析不同核方法的情况网格 ...

机器学习 - 模型评估简单总结

目录

过拟合欠拟合

评估方法

将数据集拆分为训练集及测试集的常见方法

1.留出法(hold-out)

2.交叉验证法（cross validation）

3.自助法（bootstrapping）

性能度量

1.错误率

2.精度

3.混淆矩阵（confusion mareix）

4.准确率（precision）

5.召回率（recall）

6.PR图

7.平衡点（break-even point /BEP）

8.F1度量

9.F $\beta$ 度量

10.宏微F1

11.ROC以及AUC

12.代价敏感

参考：

机器学习 - 模型评估简单总结相关推荐

最新文章

热门文章

机器学习 - 模型评估 简单总结

目录

过拟合欠拟合

评估方法

将数据集拆分为训练集及测试集的常见方法

1.留出法(hold-out)

2.交叉验证法（cross validation）

3.自助法（bootstrapping）

性能度量

1.错误率

2.精度

3.混淆矩阵（confusion mareix）

4.准确率（precision）

5.召回率（recall）

6.PR图

7.平衡点（break-even point /BEP）

8.F1度量

9.F度量

10.宏微F1

11.ROC以及AUC

12.代价敏感

参考：

机器学习 - 模型评估 简单总结相关推荐

最新文章

热门文章

机器学习 - 模型评估简单总结

9.F $\beta$ 度量

机器学习 - 模型评估简单总结相关推荐