本文转自:决策曲线分析法(Decision Curve Analysis,DCA)

简介

评价一种诊断方法是否好用,一般是作ROC曲线,计算AUC。但是,ROC只是从该方法的特异性和敏感性考虑,追求的是准确。而临床上,准确就足够了吗?患者就一定受益吗?

比如我通过某个生物标志物预测患者是否患了某病,无论选取哪个值为临界值,都会遇到假阳性和假阴性的可能,有时候避免假阳性受益更大,有时候则更希望能避免假阴性。既然两种情况都无法避免,那我就想要找到一个净受益最大的办法。

2006年,MSKCC(纪念斯隆凯特琳癌症研究所)的AndrewVickers博士等人研究出另一种评价方法,叫决策曲线分析法(Decision Curve Analysis,DCA)。相对于二战时期诞生的ROC曲线,DCA还很年轻,也一直在完善之中,不过2012-2016年间,Ann InternMed.、JAMA、BMJ、J Clin Oncol等杂志都已陆续发文,推荐使用决策曲线分析法。

Lancet. 2016 Jun 4;387(10035):2302-11.

这是一个来自Lancet的例子,研究者为了评价房颤患者口服抗凝药的出血风险,开发了一种新的评价方法,即基于生物标志物的ABC出血风险评分(Age,Biomarkers,Clinicalhisory),让它和传统的ORBIT及HAS-BLED法比较。这种类型的研究,咱们通常就是作ROC曲线。但他们没有,而是采用了决策曲线分析法。

这幅图的横坐标为阈概率(ThresholdProbability)。当各种评价方法达到某个值时,患者i的出血风险概率记为Pi;当Pi达某个阈值(记为Pt),就界定为阳性,采取某种干预措施(比如更改抗凝方案)。

那么改了抗凝方案,自然就改变了出血与血栓形成之间的利弊平衡,纵坐标就是利减去弊之后的净获益率(Net Benefit, NB)。

可这幅图除了三种评价方法的曲线外,还有两条虛线,它们代表两种极端情况。横的那条表示,所有样本都是阴性(Pi < Pt),所有人都没干预,净获益为0。斜的那条表示所有样本都是阳性,所有人都接受了干预,净获益是个斜率为负值的反斜线(原理见后文)。其它的曲线就与它们相比较。

从图中可以看出,HAS-BLED曲线和两条极端曲线很接近,也就是说它没什么应用价值。而在一个很大的Pt区间范围内,ABC法和ORBIT法的获益都比极端曲线高,所以它们可选的Pt范围都比较大,相对安全。而ABC又比ORBIT好一些。

绘制决策曲线

毕竟这是新的算法嘛,传统的统计软件好像还木有跟上,R语言倒是跟得挺快。2016年,Kerr等人专为决策曲线制作了个名为DecisionCurve的R语言包。

这里有一份示例数据,是NHLBI(美国国家心肺血液研究所)的Framingham心脏研究专项数据集的一个子集,4000多个样本。

自变量分别为性别(sex)、收缩压(sbp)、舒张压(dbp)、血清胆固醇(scl)、年龄(age)、身体质量指数(bmi)等,因变量为冠心病相关死亡事件(chdfate)。因变量必须是二元变量,随访时间内死亡为1,未死亡为0。

下面建立两个模型,来演示怎样画出DCA曲线。一个是简单模型,以血清胆固醇值为预测方法(predictor),死亡事件为结果(outcome);另一个是复合模型,联合性别、年龄、BMI、血清胆固醇、收缩压、舒张压为预测方法,死亡事件为结果。

准备工作

//#library(DecisionCurve) # 注:DecisionCurve包已经不再维护,更名为rmda
library(rmda)
setwd('D:\\DCA')
Data<- read.csv('2.20.Framingham.csv',sep = ',')

DCA运算

simple<- decision_curve(chdfate~scl,data = Data, family = binomial(link ='logit'),
thresholds= seq(0,1, by = 0.01),
confidence.intervals =0.95,study.design = 'case-control',
population.prevalence = 0.3)

#decision_curve()函数中,family =binomial(link = ‘logit’)是使用logistic回归来拟合模型。threshold设置横坐标阈概率的范围,一般是0 ~ 1;但如果有某种具体情况,大家一致认为Pt达到某个值以上,比如40%,则必须采取干预措施,那么0.4以后的研究就没什么意义了,可以设为0 ~ 0.4。by是指每隔多少距离计算一个数据点。

# Study.design可设置研究类型,是cohort还是case-control,当研究类型为case-control时,还应加上患病率population.prevalance参数。
complex<- decision_curve(chdfate~scl+sbp+dbp+age+bmi+sex,data = Data,
family = binomial(link ='logit'), thresholds = seq(0,1, by = 0.01),
confidence.intervals= 0.95,study.design = 'case-control',
population.prevalence= 0.3)
# 基本和simple相同,就是那几个联合应用的变量之间用个+号连接起来。
List<- list(simple,complex)
#把刚才计算的simple和complex两个对象合成一个list,命名为List。

DCA曲线绘制

plot_decision_curve(List,curve.names= c('simple','complex'),
cost.benefit.axis =FALSE,col = c('red','blue'),
confidence.intervals =FALSE,standardize = FALSE)

#plot_decision_curve()函数的对象就是刚才的List,如果只画一根曲线,就不需要合成的那步,直接把List替换成simple或complex就好了。

# curve.names是出图时,图例上每条曲线的名字,书写顺序要跟上面合成list时一致。cost.benefit.axis是另外附加的一条横坐标轴,损失收益比,默认值是TRUE,所在不需要时要记得设为FALSE。col就是颜色。confidence.intervals设置是否画出曲线的置信区间,standardize设置是否对净受益率(NB)使用患病率进行校正。

好了,这样就得到如下曲线:

可见,在Pt约为0.1~0.5范围内,复合评价模型的净受益率都比简单模型高。

然后可用summary(complex,measure= 'NB')查看complex模型曲线上的各数据点,当然,NB也可以改成sNB,表示经过患病率的标准化:

接下来的一个函数,就是Kerr等人对DCA算法的进一步发展了,即绘制临床影响曲线(Clinical Impact Curve):

plot_clinical_impact(simple,population.size = 1000,cost.benefit.axis = T,n.cost.benefits= 8,col = c('red','blue'),confidence.intervals= T)

# 使用simple模型预测1000人的风险分层,显示“损失:受益”坐标轴,赋以8个刻度,显示置信区间,得到下图:

红色曲线(Numberhigh risk)表示,在各个阈概率下,被simple模型划分为阳性(高风险)的人数;蓝色曲线(Number high risk with outcome)为各个阈概率下真阳性的人数。意义一目了然吧。

DCA算法的设计原理

其实了解到上面的也够了,再了解下面的就锦上添花啦~

它相当于在回归预测分析的基础上,引入了损失函数。先简单定义几个概念:

P:给真阳性患者施加干预的受益值(比如用某生化指标预测某患者有癌症,实际也有,予活检,达到了确诊的目的);

L:给假阳性患者施加干预的损失值(比如预测有癌症,给做了活检,原来只是个增生,白白受了一刀);

Pi:患者i有癌症的概率,当Pi > Pt时为阳性,给予干预。

所以较为合理的干预的时机是,当且仅当Pi × P >(1 – Pi) × L,即预期的受益高于预期的损失。推导一下可得,Pi > L / ( P + L )即为合理的干预时机,于是把L / ( P + L )定义为Pi的阈值,即Pt。

但对二元的预测指标来说,如果结果是阳性,则强制Pi=1,阴性则Pi = 0。这样,二元和其他类型的指标就有了可比性。

然后我们还可用这些参数来定义真阳性(A)、假阳性(B)、假阴性(C)、真阴性(D),即:

A:Pi ≥ Pt,实际患病;

B:Pi ≥ Pt,实际不患病;

C:Pi < Pt,实际患病;

D:Pi < Pt,实际不患病。

我们有一个随机抽样的样本,A、B、C、D分别为这四类个体在样本中的比例,则A+B+C+D = 1。那么,患病率(π)就是A + C了。

在这个样本中,如果所有Pi ≥ Pt 的人我们都给做了活检,那么就会有人确诊,有人白白被拉了一刀,那么净受益率NB = A × P – B × L。

但Vickers认为,知道P和L的确切值并没有什么实际意义,人们可能更关心L/P的比值,所以将上面的公式强行除以P,变成NB = A – B × L/P。根据Pt定义公式可推导出:NB = A – B × Pt / ( 1 – Pt )。以Pt为横坐标,U为纵坐标,画出来的曲线就是决策曲线。

若使用患病率进行校正,则U = A ×π– B ×(1 –π) × Pt / ( 1 – Pt )。

那么两个极端情况的曲线也很好推导了。当所有样本都是阴性(Pi < Pt),所有人都没干预,那么A = B = 0,所以NB = 0。当所有样本都是阳性,所有人都接受干预,那么C = D = 0,A = π,B = 1 –π(因为A+B+C+D=1),则NB = π– ( 1 –π )Pt / ( 1 – Pt ),所以它斜率为负值(

当然实际上,由这个表达式可知,阳性极端线不是直线,而是曲线)。

以上是分类模型中的决策曲线。生存模型也是有决策曲线的,具体请参考:mskcc/decision-curve-analysis

参考资料:

1.Decision curve analysis: anovel method for evaluating prediction models

2.Decision curve analysisrevisited: overall net benefit, relationships to ROC curve analysis, andapplication to case-control studies

3.Assessing the Clinical Impactof Risk Prediction Models With Decision Curves: Guidance for CorrectInterpretation and Appropriate Use

决策曲线 Decision Curve相关推荐

  1. 临床模型评价:C指数(C-Index)、校正曲线(Calibration plot)、决策分析曲线(Decision Curve Analysis, DCA)、NRI指数

    临床模型评价:C指数(C-Index).校正曲线(Calibration plot).决策分析曲线(Decision Curve Analysis, DCA).NRI指数 目录

  2. R语言自定义变成进行决策曲线分析DCA曲线绘制(Decision Curve Analysis)

    R语言自定义变成进行决策曲线分析DCA曲线绘制(Decision Curve Analysis) 我们可能使用别的语言获得了机器学习模型以及对应的预测概率和标签,我们想直接使用这些信息进行DCA曲线的 ...

  3. R计算获取决策曲线数据(Decision Curve Analysis,DCA)并使用python进行可视化

    R计算获取决策曲线数据(Decision Curve Analysis,DCA)并使用python进行可视化 目录 R计算获取决策曲线数据(Decision Curve Analysis,DCA)并使 ...

  4. Python - matplotlib - 决策曲线分析(Decision Curve Analysis)

    文章目录 一.决策曲线分析概念 1. 阈值概率 2. 净获益 二.matplotlib实现 1. 计算模型带来的净获益 2. 计算treat all策略带来的净获益 3. 绘制决策曲线 三.完整代码 ...

  5. R语言使用for循环绘制多个模型的DCA(Decision Curve Analysis)曲线并保存特定分辨率的DCA曲线的结果文件

    R语言使用for循环绘制多个模型的DCA(Decision Curve Analysis)曲线并保存特定分辨率的DCA曲线的结果文件 目录

  6. 通过构建DCA(Decision Curve Analysis)模型、获取模型数据并使用python进行绘图

    通过构建DCA(Decision Curve Analysis)模型.获取模型数据并使用python进行绘图 关于DCA(Decision Curve Analysis)的基本概念以及绘图方法参考 在 ...

  7. (DCA)Decision Curve Analysis画图及意义

    问题1:已经有了ROC和AUC了为什么还还需要DCA(Decision Curve Analysis)分析,绘制DCA曲线? 问题2:DCA曲线如何解读? 先上图: 纵轴:计算出的收益 横轴:取不同的 ...

  8. DCA决策曲线的解读和代码实现

    0.决策曲线 决策曲线分析法(Decision Curve Analysis,DCA)是个与ROC曲线相提并论的相对比较新的模型评价方法. 关于它的原理,长篇大论的医学统计学知识解读实在不是我的强项, ...

  9. 手把手教你使用stata制作临床决策曲线

    DCA(Decision Curve Analysis)临床决策曲线是一种用于评价诊断模型诊断准确性的方法,在2006年由AndrewVickers博士创建,我们通常判断一个疾病喜欢使用ROC曲线的A ...

最新文章

  1. python怎么控制while循环_Python流程控制之while循环怎么学呢?老男孩Python
  2. 其利断金前一句是什么_绍兴晚报丨裘亚黎说|围城外的灵魂拷问:人为什么要结婚?...
  3. 第十三节、SURF特征提取算法
  4. 操作分布式文件之三:如何访问和操作远程文件
  5. C#关闭子窗口而不释放子窗口对象的问题解决
  6. python代替mathematica_在 Mathematica 里与 Python 交互
  7. 【MySql】Navicat Premium 15 无限试用脚本
  8. SSD1306 芯片 手册官方网址
  9. GrapeCity Documents for PDF[GcPDF]
  10. FIRST集和 FOLLOW集的计算
  11. springboot+REST
  12. Airtest IDE 连接 夜游神模拟器 自动化UI测试
  13. Ubuntu下显示Git仓库分支信息
  14. 金蝶KIS商贸版实现'条码标签打印'功能进行商品条码打印
  15. win10网线传文件_Win10升级失败常见问题及错误代码解决方法汇总
  16. echarts折线图 折现下方显示阴影
  17. python天天向上每十天休息一天_LeetCode刷题——第十天(python)
  18. 转载:flash加密解密的相关知识
  19. php正则字母大小写,php 常见email,url,英文大小写,字母数字组合等正则表达式详解...
  20. 不想打扰你,只这样静静地看着就足矣

热门文章

  1. 浅谈游戏《艾迪芬奇的记忆》
  2. OpenCV的Rect 常用函数
  3. 一分钟学会canvas镂空文本小动画
  4. 数据归一化 normlization.m 及 Z-score(bsxfun)与mapminmax区分
  5. 书上得来终觉浅,绝知此事要躬行-以太坊平台实战篇
  6. 学习stm32单片机,必备工具和软件,你知道几个?
  7. 人工智能和区块链是什么关系?
  8. java毕业设计基地信息可视化mybatis+源码+调试部署+系统+数据库+lw
  9. 【STM32F407的DSP教程】第33章 STM32F407不限制点数FFT实现
  10. 网页对话框showModalDialog()