python机器学习案例系列教程——模型评估总结
全栈工程师开发手册 (作者:栾鹏)
python数据挖掘系列教程
回归评估指标
均方误差(MSE)
MSE (Mean Squared Error)叫做均方误差。看公式
1m∑i=1m(yi−f(xi))2\frac{1}{m}\sum_{i=1}^m(y_i-f(x_i))^2m1i=1∑m(yi−f(xi))2
均方根误差(RMSE)
RMSE(Root Mean Squard Error)均方根误差。
1m∑i=1m(yi−f(xi))2\sqrt{\frac{1}{m}\sum_{i=1}^m(y_i-f(x_i))^2}m1i=1∑m(yi−f(xi))2
这是MSE开个根号,其实实质是一样的。只不过用于数据更好的描述。
MAE
MAE(平均绝对误差)
1m∑i=1m∣yi−f(xi)∣\frac{1}{m}\sum_{i=1}^m|y_i-f(x_i)|m1i=1∑m∣yi−f(xi)∣
分类评估
1.1、 混淆矩阵
混淆矩阵用在分类器中,是对每一类样本的统计,包括正确分类和错误分类的个数。对于m类样本,可能的错误种类有m2−mm^2−mm2−m个。
用正元组P(Positive)表示我们感兴趣的分类。
用负元素N(Negative)表示我们不感兴趣的分类
用True表示样本被正确分类
用False表示样本被错误分类。
则
FN:False Negative,被错误判定为负样本,但事实上是正样本。
FP:False Positive,被错误判定为正样本,但事实上是负样本。
TN:True Negative,被正确判定为负样本,事实上也是负样本。
TP:True Positive,被正确判定为正样本,事实上也是正样本。
1.2、 准确率及误差率的度量
度量 | 公式 | 描述 |
---|---|---|
准确率、识别率 | TP+TNP+N\frac{TP+TN}{P+N}P+NTP+TN | 正确分类的样本数与检测样本总数的比值 |
错误率、误分类率 | FP+FNP+N\frac{FP+FN}{P+N}P+NFP+FN | 错误分类的样本数与检测样本总数的比值 |
敏感度、真正例率、召回率 | TPP\frac{TP}{P}PTP | 正元组中被准确预测的比例 |
特效率、真负例率 | TNN\frac{TN}{N}NTN | 负元组中被准确预测的比例 |
错误正例、假正率 | FNFN+TN\frac{FN}{FN+TN}FN+TNFN | 正元组被预测成负元组的样本数占预测结果为负元组样本数的比例 |
错误负例、假负率 | FPFP+TP\frac{FP}{FP+TP}FP+TPFP | 负元组被错误当成正元组的样本数占预测结果为正元组样本数的比例 |
精度 | TPTP+FP\frac{TP}{TP+FP}TP+FPTP | 在预测结果的正元组的集合里真实正元组的比例 |
F、F1F_1F1、F分数精度和召回率的调和均值 | 2∗精度∗召回率精度+召回率\frac{2*精度*召回率}{精度+召回率}精度+召回率2∗精度∗召回率 | |
FβF_βFβ | (1+β2)∗精度∗召回率β2∗精度+召回率\frac{(1+β^2)*精度*召回率}{β^2∗精度+召回率}β2∗精度+召回率(1+β2)∗精度∗召回率 | β=1退化为F1F_1F1;β>1召回率有更大影响;β<1精度有更大影响。 |
宏平均(macro-average):一般用在文本分类器,是先对每一个类统计指标值,然后在对所有类求算术平均值。宏平均指标相对微平均指标而言受小类别的影响更大。
微平均(micro-average):一般用在文本分类器,是对数据集中的每一个实例不分类别进行统计建立全局混淆矩阵,然后计算相应指标。
**平均准确率(Average Per-class Accuracy)
python机器学习案例系列教程——模型评估总结相关推荐
- python机器学习案例系列教程——推荐系统
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 主流的推荐系统算法大致分为两类: 基于用户行为数据的协同过滤算法 基于内容数据的过滤算法 大致而言,基于内容数据的算法适用于cold ...
- python机器学习案例系列教程——集成学习(Bagging、Boosting、随机森林RF、AdaBoost、GBDT、xgboost)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 可以通过聚集多个分类器的预测结果提高分类器的分类准确率,这一方法称为集成(Ensemble)学习或分类器组合(Classifier C ...
- python机器学习案例系列教程——K最近邻算法(KNN)、kd树
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 K最近邻简介 K最近邻属于一种估值或分类算法,他的解释很容易. 我们假设一个人的优秀成为设定为1.2.3.4.5.6.7.8.9.10 ...
- python机器学习案例系列教程——决策树(ID3、C4.5、CART)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 决策树简介 决策树算是最好理解的分类器了.决策树就是一个多层if-else函数,就是对对象属性进行多层if-else判断,获取目标属性 ...
- python机器学习案例系列教程——LightGBM算法
分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开 全栈工程师开发手册 (作者:栾鹏) python教程全解 安装 pip install li ...
- python机器学习案例系列教程——GBDT构建新特征
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 GBDT的算法参考:https://blog.csdn.net/luanpeng825485697/article/details/7 ...
- python机器学习案例系列教程——GBDT算法、XGBOOST算法
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 GBDT概述 GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同.回顾下Adaboost,我们 ...
- python机器学习案例系列教程——极大似然估计、EM算法
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 极大似然 极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法. 也就是求使得似然函数最大的代估参 ...
- python机器学习案例系列教程——逻辑分类/逻辑回归LR/一般线性回归(softmax回归)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 线性函数.线性回归 参考:http://blog.csdn.net/luanpeng825485697/article/details ...
最新文章
- 百度、谷歌理念对对碰
- 分享文章《控制情绪,享受人生》
- 转 linux常用查看硬件设备信息命令
- MySQL——MySQL的数据查询功能
- 若计算机内存的地址从00H,2003计算机科学导论课程试卷A
- 【视频技术解读】编解码的理论和实践
- 网页html好学嘛,javascript好学么?
- SDN的发展壮大确实在蚕食物理网络基础设施的阵地
- 一文看懂边缘云在广电行业的应用
- JavaWeb—作业【建立新闻数据库以及插入数据】
- Java Web(八) MVC和三层架构
- 计算机硬件的基本组成(计算机组成原理3)
- 第9章:多媒体基础知识
- echarts柱状图加上渐变色报错问题
- 关于tv app的一些想法
- np.array数组的切片
- 基于PaddleOCR的集装箱箱号检测识别
- 看保罗-艾伦的《我用微软改变世界》有感,谈中国原创发明创业的苦逼环境!操蛋的中国VC!
- 深入理解Linux操作系统守护进程的意义
- 员工考勤记录 java
热门文章
- python怎么使用-如何使用 Python 开始建立
- android 下拉刷新监听,说说在 Android 的 RecyclerView 中如何实现下拉刷新
- pythonsocket自定义协议_Python实现同时兼容老版和新版Socket协议的一个简单WebSocket服务器...
- 51单片机微波炉c语言程序,基于51单片机的微波炉控制C源程序.doc
- perl linux 独立运行,Perl脚本打包为独立执行程序
- mysql bin log 255_解析MYSQL BINLOG 二进制格式(4)--TABLE_MAP_EVENT
- js的事件循环机制,同步和异步,以及宏任务与微任务的执行顺序
- 【java笔记】of方法 JDK9对集合添加方法的优化
- 小米鸿蒙最新信息,小米新机将搭载鸿蒙系统?还得等鸿蒙进一步的消息!
- Markdown支持的语言