分类与预测模型效果评价
误差评价法:
通常通过绝对/相对误差、平均绝对误差、均方误差、均方根误差等指标来衡量模型的预测效果。
(1)绝对误差与相对误差
Y表示真实值,Y^表示预测值
E为绝对误差:E=Y-Y^
e为相对误差:e=(Y-Y^)/Y
(2)平均绝对误差(Mean Absolute Error)
误差有正有负,为了避免误差相互抵消故取误差绝对值的综合的平均值。
(3)均方误差(Mean Squared Error)
避免了正负误差抵消的问题,而且加强了数值大的误差在指标中的作用,从而提高了这个指标灵敏性。
(4)均方根误差(Root Mean Squared Error)
就是均方误差开根号。
(5)平均绝对百分误差(Mean Absolute Percentage Error)
一般认为MAPE小于 10%时,模型预测精度较高。
判定系数R2:
原数据和模型的估计值如下:
TSS(Total Sum of Squares):样本的总偏差平方和
RSS(Residual Sum of Squares):样本的残差平方和
R2:
现定义:
Kappa统计:
Kappa系数用于一致性检验,也可以用于衡量分类精度,但kappa系数的计算是基于混淆矩阵的。
根据真实值数据和预测值数据可绘制如下混淆矩阵:
Kappa系数公式如下:
其中:
Po是每一类正确分类的样本数量之和除以总样本数,就是总体分类精度,也被称为一致性单元的比例 。通过下式计算:
Pe被称为偶然性一致或期望的偶然一致的单元的比例。通过下式计算:
Kappa系数分析:
例:(根据上面的混淆矩阵计算Kappa系数)
因为k=0.82,所以模型的预测效果已经很好了。
查准率与查全率:
对于二分类问题,根据真实类别和预测类别的组合可以得到真正例(True positive)、假正例(False Positive)、真反例(True negative)、假反例(False negative)四种情形,如下表所示:
查准率(precision):
所有预测为正例的样本中预测正确的概率。
P=TP/(TP+FP)
查全率(recall):
所有实际为正例的样本中预测正确的概率。
R=TP/(TP+FN)
P-R曲线:
根据模型的预测结果对样本进行排序,排在前面的样本是模型认为“最可能”是正例的样本,排在最后面的样本是模型认为“最不可能”是正例的样本(也就是最可能是反例的样本)。相当于取了一个截断点,截断点之前的样本模型预测为正例,截断点之后的样本模型预测为反例。例如sigmoid函数,预测值大于0.5的标记为正例,预测值小于0.5标记为反例,此时0.5就是阈值。截断点就相当于阈值,不断的改变截断点,计算当前的查准率和查全率,以查准率为纵轴,以查全率为横轴,就得到了P-R曲线,如下图所示(多个模型的P-R曲线):
(1)当一个模型的P-R曲线被另一个模型的P-R曲线完全“包住”,则断言后者的性能优于前者。
(2)如果两个模型的P-R曲线发生了交叉,则可以比较P-R曲线下面积的大小,它在一定程度上表征了模型在查准率和查全率上取得“双高”的比例。
ROC曲线与AUC:
和绘制P-R曲线的方式相似,不断的改变截断点,计算当前的真正例率和假正例率,以真正例率(True Positive Rate)为纵轴,以假正例率(False Positive Rate)为横轴,就得到了ROC曲线。
TPR(真正例率):
所有实际标记为正例的样本中预测正确的概率。
TPR=TP/(TP+FN)
FPR(假正例率):
所有实际标记为反例的样本中预测错误的概率。
FPR=FP/(TN+FP)
ROC曲线:
(1)如果一个模型的ROC曲线被另一个模型的ROC曲线完全“包住”,则断言后者的性能优于前者。因为一个好的模型它必须要求TPR高而FPR低,所以该模型的ROC曲线的凸处必定靠近1.
(2)如果两个模型的ROC曲线发生交叉,则可比较ROC曲线下的面积,即AUC(Area Under ROC Curve)。
假定ROC曲线是由坐标为{(x1,y1),(x2,y2),…,(xm,ym)}的点按顺序连接而形成,其中x1=0,xm=1,则AUC可估算为:
分类与预测模型效果评价相关推荐
- rpn风险等级评价准则_2019一建经济学习重点:技术方案经济效果评价
2019年一级建造师备考正在进行中,你是在看教材还是在刷题呢?今天优路教育小编是来送干货的,教材太厚,知识点太乱,那就来看这里的考点总结吧.接下来小编带大家一起学习<工程经济>第一章工程经 ...
- K-Means聚类算法 — 算法原理、质心计算、距离度量、聚类效果评价及优缺点
分类知识 分类是根据样本某些属性或某类特征(可以融合多类特征),把样本类型归为已确定的某一类别中.机器学习中常见的分类算法有:SVM(支持向量机).KNN(最邻近法).Decision Tree( ...
- java毕业设计程序设计类课程的课堂教学效果评价系统Mybatis+系统+数据库+调试部署
java毕业设计程序设计类课程的课堂教学效果评价系统Mybatis+系统+数据库+调试部署 java毕业设计程序设计类课程的课堂教学效果评价系统Mybatis+系统+数据库+调试部署 本源码技术栈: ...
- MATLAB实战系列(三十六)-MATLAB 离散Hopfield神经网络的分类——高校科研能力评价
前言 离散型Hopfield神经网络不仅具有联想记忆的功能,还可以应用于解决分类问题. 文中涉及代码请参见 matlab神经网络源码集锦- 离散Hopfield神经网络的分类--高校科研能力评价 以下 ...
- 对计算机课评价,信息技术课教学效果评价
信息技术课教学效果评价 纪晓朋 吉林省梅河口市山城镇中心校 xp_ji1973@163.com [摘要]在信息技术教学中,根据不同的教学内容,选择相应的教学评价方式,不但可以培养学生的信息意识和信息素 ...
- 《炬丰科技-半导体工艺》柠檬酸清洗液对金属表面污染物去除效果评价
书籍:<炬丰科技-半导体工艺> 文章:柠檬酸清洗液对金属表面污染物去除效果评价 编号:JFKJ-21-190 作者:炬丰科技 摘要: 我们研究了基于柠檬酸的清洗液来去除金属污染物硅片表面. ...
- html仿写京东左侧,jQuery模仿京东/天猫商品左侧分类导航菜单效果
现在天猫或者京东商品分类模块的默认的效果是这样的: 当鼠标滑过任意一栏导航分类时,就会出现相关详细分类模块,例如: 当鼠标移出蓝色框以外的区域,就会恢复默认的效果显示!然而使用jQuery的鼠标滑过事 ...
- 培训效果评价技术(转载)
70 培训效果评价技术 70 培训效果评价技术 (1)培训效果评估的准则.正确评估培训效果是公司培训工作的一个必要环节.由于培训效果有些是有形的.有些是无形的,有些是直接的.有些是间接的,有些是短期的 ...
- 离散Hopfield神经网络的分类——高校科研能力评价
离散Hopfield网络 离散Hopfield网络是一种经典的神经网络模型,它的基本原理是利用离散化的神经元和离散化的权值矩阵来实现模式识别和模式恢复的功能.它最初由美国物理学家John Hopfie ...
- 分类效果评价(机器学习)
目录 准确率 精确率(precision) 召回率(recall,也称为查全率) 调回平均 对于一般分类问题,有训练误差.泛化误差.准确率.错误率等指标 对于常见的二分类问题,样本只有两种分类结果,将 ...
最新文章
- mysql 组复制和传统复制_MySQL的GTID复制与传统复制的相互切换
- nginx下rewrite规则中参数超过10 $10 解决方案
- 和cnn结合_写给小白的R-CNN介绍
- 安装python3 及virtual与virtualenvwrapper
- 【python】os.getcwd和getcwdu
- windows css,CSS (Windows) | Microsoft Docs
- android 图片跑马灯动画,ImageView 图片循环跑马灯的效果
- java中并不是任意多个接口都可以实现多实现
- php架在底部页面,页脚始终保持在页面底部的网页布局方法
- 快速生成Plugman中的lib-file、source-file的xml内容
- pycharm debug 单步调试太卡太慢解决方案
- 计算时间的20个常用代码段
- Mac设置鼠标滚轮方向
- 半导体器件制造封装材料和生产工艺流程(图文介绍)
- Nginx 的配置文件
- web前端面试的主要会问到哪些问题
- H3C交换机WEB管理时间_H3C 交换机之VLAN配置与VLAN间访问
- php 页面日历形式显示,日历页面展示-PHP制作阴阳历转换的日历插件-PHP中文网教程...
- AMR NB格式解析
- windows系统卸载VMware Workstation 并删除注册表残留信息