Comment from Xinwei: 最近在帮高老师review一片PRL的论文,看到ROC曲线,查了一下Stentor的大作,觉得解释的很不错,特此转载!

分类模型尝试将各个实例(instance)划归到某个特定的类,而分类模型的结果一般是实数值,如逻辑回归,其结果是从0到1的实数值。这里就涉及到如何确定阈值(threshold value),使得模型结果大于这个值,划为一类,小于这个值,划归为另一类。

考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True positive),正类被预测成负类则为假负类(false negative)。

列联表如下表所示,1代表正类,0代表负类。

 

 

预测

 

 

 

1

0

合计

实际

1

True Positive(TP)

False Negative(FN)

Actual Positive(TP+FN)

0

False Positive(FP)

True Negative(TN)

Actual Negative(FP+TN)

合计

 

Predicted Positive(TP+FP)

Predicted Negative(FN+TN)

 TP+FP+FN+TN

从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR), 计算公式为TPR=TP / (TP + FN),刻画的是分类器所识别出的正实例占所有正实例的比例。另外一个是负正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率(True Negative Rate,TNR),也称为specificity,计算公式为TNR=TN / (FP + TN) = 1 − FPR

在一个二分类模型中,对于所得到的连续结果,假设已确定一个阀值,比如说0.6,大于这个值的实例划归为正类,小于这个值则划到负类中。如果减小阀值,减到0.5,固然能识别出更多的正类,也就是提高了识别出的正例占所有正例的比类,即TPR,但同时也将更多的负实例当作了正实例,即提高了FPR。为了形象化这一变化,在此引入ROC。

Receiver Operating Characteristic,翻译为"接受者操作特性曲线",够拗口的。曲线是由两个变量的组合,1-specificity和Sensitivity. 由于1-specificity=FPR,即负正类率。Sensitivity即是真正类率,True positive rate,反映了正类覆盖程度。这个组合以1-specificity对sensitivity,即是以代价(costs)对收益(benefits)。

下表是一个逻辑回归得到的结果。将得到的实数值按大到小划分成10个个数相同的部分。

Percentile

实例数

正例数

1-特异度(%)

敏感度(%)

10

6180

4879

2.73

34.64

20

6180

2804

9.80

54.55

30

6180

2165

18.22

69.92

40

6180

1506

28.01

80.62

50

6180

987

38.90

87.62

60

6180

529

50.74

91.38

70

6180

365

62.93

93.97

80

6180

294

75.26

96.06

90

6180

297

87.59

98.17

100

6177

258

100.00

100.00

其正例数为此部分里实际的正类数。也就是说,将逻辑回归得到的结果按从大到小排列,倘若以前10%的数值作为阀值,即将前10%的实例都划归为正类,6180个。其中,正确的个数为4879个,占所有正类的4879/14084*100%=34.64%,即敏感度;另外,有6180-4879=1301个负实例被错划为正类,占所有负类的1301/47713*100%=2.73%,即1-特异度。以这两组值分别作为x值和y值,在excel中作散点图。得到ROC曲线如下

对角线反映的是随机选择的结果,此对角线作为对照线。到底该怎样选择阀值呢,这涉及到了AUC(Area Under the ROC Curve,ROC曲线下的面积)。

zz from http://www.cnblogs.com/zgw21cn/archive/2009/02/14/1390683.html#commentform

转载于:https://www.cnblogs.com/ysjxw/archive/2010/07/16/1779081.html

zz在Excel中作ROC曲线相关推荐

  1. 理解逻辑回归中的ROC曲线和KS值

    1.回归和分类任务 分类和回归都属于监督学习(训练样本带有信息标记,利用已有的训练样本信息学习数据的规律预测未知的新样本标签) 分类预测的结果是离散的(例如预测明天天气-阴,晴,雨) 回归预测的任务是 ...

  2. 数据挖掘中的指标--分类器中的ROC曲线及相关指标(ROC、AUC、ACC)

    ROC又叫受试者工作特征曲线.它是用来验证一个二分类器模型的性能指标,也就是说,给出一个模型,输入一个模型,输入已知正负类的一组数据,并通过对比模型对改组数据进行的预测,衡量这个模型的性能. 相关内容 ...

  3. MATLAB中绘制ROC曲线

    我们通常使用ROC曲线来评价分类结果的好坏,在MATLAB中绘制该曲线其实也十分容易.我们让label表示真实的类别,output表示预测的类别,那么调用: [XRF,YRF,TRF,AUCRF] = ...

  4. r roc函数_R语言中绘制ROC曲线

    两种方法: 第一种,摘自别人的方法: ROC曲线,做分类时经常会用到的一种结果表现方法.诸如此类的工作,首选工具当然是R.在CRAN上搜了一下,找到一个叫ROCR的包.尽管这个包已经很久没更新了,但用 ...

  5. R语言中绘制ROC曲线方法一:ROCR包

    文章目录 prediction() 用法 performance() 用法 实例 注意 prediction() 该函数用于创建一个prediction对象,用于随后的操作 用法 prediction ...

  6. Matlab中如何对曲线进行微分,Excel 微分(怎么用excel做一阶微分)

    怎么用excel做一阶微分 PH值(设为A列),另数据V值(设为B列),再新建一列数据,先自定算公式 △PH/△V,具体应该是在C列C1输入 =(B2-B1)/(V2-V1),按下右下角" ...

  7. R语言ROC曲线下的面积 - 评估逻辑回归中的歧视

    我们围绕ROC曲线技术进行一些咨询,帮助客户解决独特的业务问题.在讨论ROC曲线之前,首先让我们在逻辑回归的背景下考虑校准和区分之间的区别. 相关视频:R语言逻辑回归(Logistic回归)模型分类预 ...

  8. roc曲线的意义_【科研助手】ROC曲线在医学诊断类稿件中的应用

    ROC曲线,即受试者工作特征曲线(receiver operating characteristic curve),是以灵敏度为纵坐标,1-特异度为横坐标绘制而成的曲线,其在临床医学诊断类稿件中受到人 ...

  9. ROC 曲线/准确率、覆盖率(召回)、命中率、Specificity(负例的覆盖率)

      欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.ht ...

最新文章

  1. 长连接测试_如何选择好一根测试电缆组件?
  2. 【web安全】你的open_basedir安全吗?
  3. iOS开发--TableView详细解释
  4. 请编写程序编写前n个整数的全排列_26道基础算法题(请查收)
  5. Hadoop日志分析工具——White Elephant
  6. keil中函数变量定位方法
  7. 九世轮回篇电子计算机乐谱,mc九局九世轮回篇的歌词
  8. 简单的java实现分解质因数。
  9. 【Ceph】Ceph错误记录 Ceph 运维手册
  10. 【开源库推荐】go-linq 强大的语言集成查询库如,ORM一般丝滑处理内存数据
  11. WCF:学习Artech大哥的入门程序
  12. GetMessage PeekMessage SendMessage PostMessage
  13. Flink CDC 将MySQL的数据写入Hudi实践
  14. 为 27岁的自己立下一个flag
  15. 【报告分享】2021上半年全球手游广告变现报告-TopOn(附下载)
  16. 从凡客与好声音“闪婚”,剖析好声音的生意经
  17. JavaWeb - 仿小米商城网(2) 用户注册
  18. 弃用 Lambda,Twitter 启用 Kafka 和数据流新架构
  19. 电缆载流量试验方法 电线电缆载流量试验机
  20. 计算机论文读书报告怎么写,研读论文报告怎么写 怎样写学术论文和读书报告...

热门文章

  1. 高性能国产化信号处理平台国产DSP+FPGA+AI NPU安路紫光方案
  2. 工业网关下工业自动化设备远程监控解决方案
  3. 浅谈虚拟化软件再防泄密领域的表现如何
  4. 强大的电子书管理软件Calibre
  5. Homework 1 : Knowledge items of C++ (part 1)
  6. 想学CNC编程的一定要看过来
  7. 万户OA助力红豆集团信息化建设方案
  8. 2019计算机应用基础平时作业答案,2019年计算机应用基础作业一答案.docx
  9. Excel.Application组件使用方法 matlab可以参考使用
  10. 51单片机智能远程遥控温控PWM电风扇系统红外遥控温度速度定时关机