zz在Excel中作ROC曲线
Comment from Xinwei: 最近在帮高老师review一片PRL的论文,看到ROC曲线,查了一下Stentor的大作,觉得解释的很不错,特此转载!
分类模型尝试将各个实例(instance)划归到某个特定的类,而分类模型的结果一般是实数值,如逻辑回归,其结果是从0到1的实数值。这里就涉及到如何确定阈值(threshold value),使得模型结果大于这个值,划为一类,小于这个值,划归为另一类。
考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True positive),正类被预测成负类则为假负类(false negative)。
列联表如下表所示,1代表正类,0代表负类。
|
|
预测 |
|
|
|
|
1 |
0 |
合计 |
实际 |
1 |
True Positive(TP) |
False Negative(FN) |
Actual Positive(TP+FN) |
0 |
False Positive(FP) |
True Negative(TN) |
Actual Negative(FP+TN) |
|
合计 |
|
Predicted Positive(TP+FP) |
Predicted Negative(FN+TN) |
TP+FP+FN+TN |
从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR), 计算公式为TPR=TP / (TP + FN),刻画的是分类器所识别出的正实例占所有正实例的比例。另外一个是负正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率(True Negative Rate,TNR),也称为specificity,计算公式为TNR=TN / (FP + TN) = 1 − FPR。
在一个二分类模型中,对于所得到的连续结果,假设已确定一个阀值,比如说0.6,大于这个值的实例划归为正类,小于这个值则划到负类中。如果减小阀值,减到0.5,固然能识别出更多的正类,也就是提高了识别出的正例占所有正例的比类,即TPR,但同时也将更多的负实例当作了正实例,即提高了FPR。为了形象化这一变化,在此引入ROC。
Receiver Operating Characteristic,翻译为"接受者操作特性曲线",够拗口的。曲线是由两个变量的组合,1-specificity和Sensitivity. 由于1-specificity=FPR,即负正类率。Sensitivity即是真正类率,True positive rate,反映了正类覆盖程度。这个组合以1-specificity对sensitivity,即是以代价(costs)对收益(benefits)。
下表是一个逻辑回归得到的结果。将得到的实数值按大到小划分成10个个数相同的部分。
Percentile |
实例数 |
正例数 |
1-特异度(%) |
敏感度(%) |
10 |
6180 |
4879 |
2.73 |
34.64 |
20 |
6180 |
2804 |
9.80 |
54.55 |
30 |
6180 |
2165 |
18.22 |
69.92 |
40 |
6180 |
1506 |
28.01 |
80.62 |
50 |
6180 |
987 |
38.90 |
87.62 |
60 |
6180 |
529 |
50.74 |
91.38 |
70 |
6180 |
365 |
62.93 |
93.97 |
80 |
6180 |
294 |
75.26 |
96.06 |
90 |
6180 |
297 |
87.59 |
98.17 |
100 |
6177 |
258 |
100.00 |
100.00 |
其正例数为此部分里实际的正类数。也就是说,将逻辑回归得到的结果按从大到小排列,倘若以前10%的数值作为阀值,即将前10%的实例都划归为正类,6180个。其中,正确的个数为4879个,占所有正类的4879/14084*100%=34.64%,即敏感度;另外,有6180-4879=1301个负实例被错划为正类,占所有负类的1301/47713*100%=2.73%,即1-特异度。以这两组值分别作为x值和y值,在excel中作散点图。得到ROC曲线如下
对角线反映的是随机选择的结果,此对角线作为对照线。到底该怎样选择阀值呢,这涉及到了AUC(Area Under the ROC Curve,ROC曲线下的面积)。
zz from http://www.cnblogs.com/zgw21cn/archive/2009/02/14/1390683.html#commentform
转载于:https://www.cnblogs.com/ysjxw/archive/2010/07/16/1779081.html
zz在Excel中作ROC曲线相关推荐
- 理解逻辑回归中的ROC曲线和KS值
1.回归和分类任务 分类和回归都属于监督学习(训练样本带有信息标记,利用已有的训练样本信息学习数据的规律预测未知的新样本标签) 分类预测的结果是离散的(例如预测明天天气-阴,晴,雨) 回归预测的任务是 ...
- 数据挖掘中的指标--分类器中的ROC曲线及相关指标(ROC、AUC、ACC)
ROC又叫受试者工作特征曲线.它是用来验证一个二分类器模型的性能指标,也就是说,给出一个模型,输入一个模型,输入已知正负类的一组数据,并通过对比模型对改组数据进行的预测,衡量这个模型的性能. 相关内容 ...
- MATLAB中绘制ROC曲线
我们通常使用ROC曲线来评价分类结果的好坏,在MATLAB中绘制该曲线其实也十分容易.我们让label表示真实的类别,output表示预测的类别,那么调用: [XRF,YRF,TRF,AUCRF] = ...
- r roc函数_R语言中绘制ROC曲线
两种方法: 第一种,摘自别人的方法: ROC曲线,做分类时经常会用到的一种结果表现方法.诸如此类的工作,首选工具当然是R.在CRAN上搜了一下,找到一个叫ROCR的包.尽管这个包已经很久没更新了,但用 ...
- R语言中绘制ROC曲线方法一:ROCR包
文章目录 prediction() 用法 performance() 用法 实例 注意 prediction() 该函数用于创建一个prediction对象,用于随后的操作 用法 prediction ...
- Matlab中如何对曲线进行微分,Excel 微分(怎么用excel做一阶微分)
怎么用excel做一阶微分 PH值(设为A列),另数据V值(设为B列),再新建一列数据,先自定算公式 △PH/△V,具体应该是在C列C1输入 =(B2-B1)/(V2-V1),按下右下角" ...
- R语言ROC曲线下的面积 - 评估逻辑回归中的歧视
我们围绕ROC曲线技术进行一些咨询,帮助客户解决独特的业务问题.在讨论ROC曲线之前,首先让我们在逻辑回归的背景下考虑校准和区分之间的区别. 相关视频:R语言逻辑回归(Logistic回归)模型分类预 ...
- roc曲线的意义_【科研助手】ROC曲线在医学诊断类稿件中的应用
ROC曲线,即受试者工作特征曲线(receiver operating characteristic curve),是以灵敏度为纵坐标,1-特异度为横坐标绘制而成的曲线,其在临床医学诊断类稿件中受到人 ...
- ROC 曲线/准确率、覆盖率(召回)、命中率、Specificity(负例的覆盖率)
欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.ht ...
最新文章
- 长连接测试_如何选择好一根测试电缆组件?
- 【web安全】你的open_basedir安全吗?
- iOS开发--TableView详细解释
- 请编写程序编写前n个整数的全排列_26道基础算法题(请查收)
- Hadoop日志分析工具——White Elephant
- keil中函数变量定位方法
- 九世轮回篇电子计算机乐谱,mc九局九世轮回篇的歌词
- 简单的java实现分解质因数。
- 【Ceph】Ceph错误记录 Ceph 运维手册
- 【开源库推荐】go-linq 强大的语言集成查询库如,ORM一般丝滑处理内存数据
- WCF:学习Artech大哥的入门程序
- GetMessage PeekMessage SendMessage PostMessage
- Flink CDC 将MySQL的数据写入Hudi实践
- 为 27岁的自己立下一个flag
- 【报告分享】2021上半年全球手游广告变现报告-TopOn(附下载)
- 从凡客与好声音“闪婚”,剖析好声音的生意经
- JavaWeb - 仿小米商城网(2) 用户注册
- 弃用 Lambda,Twitter 启用 Kafka 和数据流新架构
- 电缆载流量试验方法 电线电缆载流量试验机
- 计算机论文读书报告怎么写,研读论文报告怎么写 怎样写学术论文和读书报告...
热门文章
- 高性能国产化信号处理平台国产DSP+FPGA+AI NPU安路紫光方案
- 工业网关下工业自动化设备远程监控解决方案
- 浅谈虚拟化软件再防泄密领域的表现如何
- 强大的电子书管理软件Calibre
- Homework 1 : Knowledge items of C++ (part 1)
- 想学CNC编程的一定要看过来
- 万户OA助力红豆集团信息化建设方案
- 2019计算机应用基础平时作业答案,2019年计算机应用基础作业一答案.docx
- Excel.Application组件使用方法 matlab可以参考使用
- 51单片机智能远程遥控温控PWM电风扇系统红外遥控温度速度定时关机