2.3 性能度量

前文已学习了如何划分Data set 以进行训练学习并测试,但光光这样是不够的,我们还需要确切可计算的参数来对一个模型,训练成果进行评估。this is performance measure.

2.3.0 均方误差

均方误差(mean squared error)  

在回归任务中,这是一种最为常用的度量。训练目标是企图使均方误差最小化。(它象征着点与点之间的距离 是二次项)

而这种使均方误差最小化 来建立模型的方法被称为 最小二乘法(least square method)

后文介绍分类任务的衡量指标。

2.3.1 错误率与精度

分类错误数 占样本总数的比例。 ACC=1-E

错误率定义:   G(k)为指示函数 if k: k=1  else: k=0

更一般的,对于数据分布D和概密函数p(·) 错误率定义为 

2.3.2 查准、查全与F1

很多时候 仅仅知道多少分错了这一信息是不够用的。以挑西瓜为例 更仔细的 我们想知道被挑出来的好瓜,有多少个是真正的好瓜?有多少坏瓜没被挑出来?

针对个体样本,设现实情况为 真true/假false;  而预测结果为 positive正例/negative反例

这样划分 我们得到了如下  二分类混淆矩阵

查准率(precision)的定义为: 所有pick出的正例中,选出真的比例

查全率(recall)的定义为:  全体真样本中,有多少被当做正例选出来了?

P、R是一对矛盾的度量。比如希望提高R: 希望挑出所有好瓜-->放宽好瓜约束-->的确选出很多好瓜,但也会pick出坏瓜-->P降低。反之亦然。。同时提高P、R仅仅可能出现在某些十分简单的case中

以R为x,P为y轴 可画出P-R图。若学习器A的P-R曲线完全包住学习器B的曲线,则表示A是性能更优越的学习器

但是 每次通过积分计算P-R曲线的所围面积并不方便。人们因此引入其他度量。

平衡点(Break-Even Point): 在P-R图取P=R(x=y),与学习器的学习曲线的交点,即为平衡点 BEP大则学习能力强

更常用的为度量F1:

应用中,P、R重要度往往不同,引入系数β( β>0)

β<1 查准率P更重要; β=1退化成标准F1; β>1查全率R更重要

当我们重复进行多次训练时,会得出多个二分类矩阵,那怎么确定该P、R呢?

针对每个矩阵求出各自P、R 再求均值,此法为宏 得到macro-P、macro-R、macro-F1

而针对所有矩阵的TP、TN、FP、FN 先求出这四个指标的均值得均值矩阵 再以此求出P、R此法为微 得micro-P、R

2.3.3 ROC与AUC

存在很多学习器 学习并预测值h 将之与阈值th比较。 h>th 归正类;h<th 归反类。这个预测值h的好坏 就决定了泛化性能的好坏。我们将测试样本排序: 最可能是正例的排前列,最不可能是正例的排最后。 以此,从中选一个截断点,之前为正类,之后为反类。ROC曲线是以这种角度出发的研究有力工具。

ROC(Receiver Operating Characteristic)全称是“受试者工作特征”曲线。

真正例率(True Positive Rate):    (所以成功预测的case中,包含多少正例?)

假正例率(False Positive Rate):   (所有预测失败的case中, 包含多少本假作真?)

以FPR为横,TPR为纵轴,生成ROC曲线。ROC曲线下围面积被记作AUC(Area Under ROC Curve)

通过比较AUC大小来衡量学习性能

2.3.4 代价敏感错误率和代价曲线

unequal cost: FP、FN 两部分同为学习器的犯错,但其权重明显不同(人没病判成有病会吃无用的要,而病人未被诊断出病则危及性命)  因此更新一下二分类矩阵,设置FN(假反例)权重为cost_01, FP(假正例)权重为cost_10

在这种非均等代价的情况下,我们希望总体代价越小越好。

以正例概率代价为横轴,归一化代价 取值[0,1] 为纵轴 生成代价曲线,p为样例正例概率

正例概率代价: 

归一化代价:

ROC曲线上每一个点对应代价平面上的一条线段,各线段和横轴围城的面积,即为期望总体代价

Machine Learning入门笔记(二) 模型评估与选择 (2)相关推荐

  1. 机器学习笔记(二)模型评估与选择

    2.模型评估与选择 2.1经验误差和过拟合 不同学习算法及其不同参数产生的不同模型,涉及到模型选择的问题,关系到两个指标性,就是经验误差和过拟合. 1)经验误差 错误率(errorrate):分类错误 ...

  2. 机器学习(学习笔记)二 模型评估与选择(上)

    模型评估与选择(上) 先画思维导图 一.经验误差与过拟合 误差:模型对样本的预测结果和样本的真实输出的差异称为 误差.给定一个数据集,将其分割为训练集和测试集 训练误差 (Training Error ...

  3. 西瓜书笔记之 模型评估与选择

    讲真,这书是越看觉得自己不会的越多,感觉好多概念,完全不是理工男喜欢的样子.. 首先了解一下NP问题,机器学习面临的问题多是NP完全问题(NP-C问题),号称世界七大数学难题之一. NP的英文全称是N ...

  4. 西瓜书~至臻笔记(二)——模型评估与选择(可直接享用)

    文章目录 第二章 模型评估与选择 2.1 经验误差与过拟合 2.2 评估方法 2.2.1 留出法 分层采样 数据集中样本的顺序 数据集的大小比例 2.2.2 交叉验证法 数据集的样本顺序 留一法 2. ...

  5. 西瓜书学习笔记第2章(模型评估与选择)

    西瓜书学习笔记第2章(模型评估与选择) 2.1经验误差与过拟合 2.2评估方法 2.2.1留出法(hold-out) 2.2.2交叉验证法(cross validation) 2.2.3自助法(boo ...

  6. 小吴的《机器学习 周志华》学习笔记 第二章 模型评估与选择

    小吴的<机器学习 周志华>学习笔记 第二章 模型评估与选择 上一周我们介绍了第一章的基础概念,这一次将带来第二章的前三节.后面的2.4 比较检验与2.5 偏差与方差,涉及概率论与数理统计概 ...

  7. MySql入门笔记二~悲催的用户

    这些是当年小弟的MySql学习笔记,木有多么复杂的结构操作,木有多炫丽的语句开发,木有...总之就是木有什么技术含量... 日复一日,彪悍的人生伴随着彪悍的健忘,运维操作为王,好记性不如烂笔头,山水有 ...

  8. 《机器学习》 —— 第二章:模型评估与选择 学习笔记

    2.1 经验误差与过拟合 把分类错误的样本数占样本总数的比例称为"错误率"(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m:相应的,1-a/m称为 ...

  9. 机器学习(周志华)- 第2章模型评估与选择笔记

    转自: https://samanthachen.github.io/2016/08/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0_%E5%91%A8%E5%BF%9 ...

最新文章

  1. 水冷超算平台落地北大,联想赋能行业智能化变革
  2. OFDM专题之子载波间干扰问题(一)
  3. pycharm 使用教程
  4. 双向队列(STL做法)
  5. Dubbo的SPI机制对比传统的SPI做了哪些改进?Dubbo的IOC和AOP
  6. CDN价格战外P2P重获关注,谁才是幕后推手
  7. 吴恩达机器学习【第三天】线性代数基础知识
  8. redis,memcache,mongodb对比
  9. 8086状态标志寄存器的英文含义(调试用
  10. 性能测试场景设计--混合业务场景下的脚本比例控制
  11. WCP源码分析 与SpringMVC学习资料
  12. 《JSP实用教程(第2版)/耿祥义》错误之非必要导入包
  13. Python中sys模块使用
  14. react-native-beacons-manager扫描beacons为空数组(android)--工作笔记
  15. 深度学习之文本摘要自动生成
  16. 借Kinect 扫描 软件 reconstructMe skanect ksan3d
  17. 磁盘性能分析Disk
  18. 渲染管线----通俗易懂向面试官介绍
  19. 组态王图素制作_组态王实例教程入门
  20. lotus domino服务器及oa系统,基于Lotus Domino OA系统的研究和实现

热门文章

  1. c语言用switch编写春夏秋冬,序章 - switch哆啦A梦大雄的牧场物语游戏攻略 第一年春夏秋冬秘籍图文攻略-游戏年轮...
  2. 【ubuntu】运行.py文件
  3. 杭州成为女性房东占比最高的中国城市,紧随其后的是上海、成都
  4. 最详细Struts2基础入门
  5. GIS中的数据(空间数据)
  6. 斯阔谷冬奥会首次使用计算机,冬奥会历史:第八届美国斯阔谷冬奥会
  7. IDEA mvn 报错GC overhead limit exceeded
  8. 详解元宇宙 6 大核心属性
  9. 【大三期末不挂科 速通方法】电气控制与PLC
  10. 数据库调优的几种方法