系列文章目录

【第一周】吴恩达团队AI for Medical Diagnosis课程笔记_十三豆腐脑的博客-CSDN博客

【第一周】吴恩达团队AI for Medical Diagnosis课程实验_十三豆腐脑的博客-CSDN博客

【第一周】吴恩达团队AI for Medical Diagnosis大作业_十三豆腐脑的博客-CSDN博客


目录

系列文章目录

前言

1.敏感性、特异性和评价指标

2.条件概率方面的准确性

3.敏感性、特异性和患病率

4.PPV(阳性预测值)、NPV(阴性预测值)

5.混淆矩阵

6.根据敏感性、特异性和患病率计算 PPV

二、阈值和评价指标

1.ROC曲线和阈值

2.调整阈值

三、正确地解释置信区间

1.从总人口中抽样

2.置信区间

3.95% 置信区间

总结


前言

第二周课程内容


一、重要的评价指标

1.敏感性、特异性和评价指标

本周我们将进一步深入研究医学深度学习模型的评估。在医学领域,由于决策影响很大,我们关心的是准确了解模型何时对患者有效,何时无效。您将了解包括敏感性、特异性、预测值和 ROC 曲线在内的指标,它们是在医疗环境中评估模型的关键要素。在本课中,我们将讨论准确性作为度量标准的缺点。从准确性出发,我们将研究如何获得对医学评估核心概念的敏感性和特异性。在本课的第二部分,我们将讨论预测值,它可以帮助医疗专业人员进行临床决策。

为了回答模型有多好这个问题,我们将从准确性开始。在计算测试集的准确率时,我们会查看模型正确分类的总样本的比例。让我们用一个例子来说明准确性的计算。这里我们有一个包含 10 个示例的测试集。其中八个具有正常的真实值,两个具有疾病的真实值。假设我们有一个模型对所有 10 名患者都输出阴性结果。这里的负数表示模型正在输出正常的预测。这当然不是一个有用的模型,但请注意它可以正确处理所有正常示例。因此,它在 10 个示例中得到了 8 个正确,因此准确度为 0.8,与模型 2 进行比较。模型 2 正确预测了此处的两个疾病示例为阳性,并且还称其中两个正常示例为阳性。现在我们可以计算模型 2 的准确度,如果我们通过这个计算,我们会再次发现,我们在模型 2 的 10 个示例中得到了 8 个,准确度为 0.8。所以我们有两个精度为 0.8 的模型。虽然我们还没有正式确定这一点,但我们感觉到模型 2 可能比模型 1 做的事情更有用,因为它至少试图区分健康和疾病患者。

2.条件概率方面的准确性

让我们进一步了解准确度指标。我们将看到如何使用准确性来推导其他有用的评估指标,例如敏感性和特异性。我们首先将准确性解释为正确的概率。我们可以将这个正确的概率分解为两个概率之和。模型正确且患者患有疾病的概率加上模型正确且患者正常的概率。条件概率定律允许我们进一步扩展这一点。提醒一下,条件概率定律说 A ∩ B 的概率是给定 B 的 A 的概率乘以 B 的概率。我们可以将其应用于第一项以将其扩展,并应用于第二项以扩展它在这里。这允许我们做的是在这里解释这些术语。鉴于患者患有疾病,正确的概率意味着我们预测为阳性。因此,我们可以用假设患者患有疾病的情况下预测为阳性的概率来代替它。同样,当患者正常时正确的概率意味着我们预测为阴性,因此我们可以用在患者正常的情况下预测为阴性的概率来代替。

3.敏感性、特异性和患病率

从这个表达式中会弹出两个非常重要的量,它们是评估医学的基础,即敏感性和特异性。这些术语也称为真阳性率和真阴性率,它们指的是相同的两个量。

敏感性是模型将患者分类为患有疾病的概率,因为他们患有疾病。特异性是模型将患者分类为正常的概率,因为他们是正常的。因此,我们已经将我们的全球准确性衡量标准分解为有用的敏感性和特异性量。另一个有用的术语是这里的剩余术语。患者在人群中患病的概率称为患病率。正常的概率只是一减去患病的概率或一减去患病率。因此,我们可以根据敏感性、特异性和普遍性来写出准确性。为什么这很有用?这个等式使我们能够将准确性视为敏感性和特异性的加权平均值。与敏感性相关的权重是患病率,与特异性相关的权重是一减去患病率。这个方程还允许我们在给定其他三个量的情况下找出这些量中的任何一个。让我们用一个例子来看看。首先,我们计算灵敏度。敏感性可以计算为也是阳性的疾病示例的分数。因此,在分母中,我们有疾病示例的数量,即 1、2、3,而在分子中,我们有阳性和疾病示例的数量。所以这将是 1,这不会是另一个 1,这将是 2。所以我们有 3 分之 2 或 0.67。然后我们计算特异性。特异性可以计算为也为负的正常示例的分数。所以在分母中,正常示例的数量将是 7,而在分子中,负样本和正常示例的数量将是 1、2、3、4、5,而不是 6、6 ,这是 6 比 7 得到 0.86。这就是敏感性和特异性的计算。现在让我们看看这组疾病的流行情况。这只是疾病示例的分数,计算为疾病示例的数量与示例总数的比,即 3 比 10 或 0.3。现在,利用敏感性、特异性和患病率之间的关系,我们也可以得到准确度。所以这将等于 0.67 乘以流行率 0.3,加上特异性 0.86,乘以 1 减去流行率,所以 1 减去 0.3 是 0.7,结果是 0.8。我们可以通过简单计算我们得到正确的分数来确认准确度确实是 0.8。因此,我们已经涵盖了两个可用于评估诊断 AI 模型的指标,包括敏感性和特异性,并且我们已经了解了它们现在与准确性的关系。

4.PPV(阳性预测值)、NPV(阴性预测值)

敏感性告诉我们,已知患者患有疾病,模型预测为阳性的概率是多少?在诊所中,使用 AI 模型的医生可能对不同的问题感兴趣。鉴于模型预测患者呈阳性,他们实际患有这种疾病的概率是多少?这称为模型的阳性预测值或 PPV。

同样,虽然特异性询问,假设患者正常,模型预测为阴性的概率是多少?鉴于模型预测是否定的,医生可能有兴趣了解患者正常的概率。这称为模型的负预测值或 NPV。让我们计算一个示例的 PPV 和 NPV。再一次,我们有十个示例,模型对其进行了预测。首先,让我们计算 PPV。 PPV 可以计算为也是疾病的正样本的分数。所以在分母中,我们将得到正数,即一二,三四。而在分子中,是阳性和疾病的数字。所以这是一个,这是两个,我们只有两个,所以 2 比 4,或 0.5。现在让我们看看 NPV。 NPV 可以计算为也是正态的负样本的比例。所以在分母中,我们正在查看模型预测是否为负的所有地方,即一、二、三、四、五、六。在分子中,所有地方都是负数,而基本事实是正常的。所以那是一,那是二,那是三,那是四,那是五,所以这个 5 比 6,或 0.83。现在我们已经了解了 PPV 和 NPV,除了敏感性和特异性,让我们看看它们之间的关系。

5.混淆矩阵

要查看它们的关系,我们将使用混淆矩阵。混淆矩阵可用于以表格的形式查看分类器的性能。行对应于基本事实,列对应于模型预测或模型输出。表中的单元格对应于每个真实模型预测组合对应的元素数量。例如,在这个单元格中,我们将获得具有疾病基本事实的计数,同时模型输出为阳性。看这里,我们有这个,然后是这个例子,所以这是两个例子。这四个单元格的总和应该是样本总数,即 10。这四个计数更普遍地称为真阳性、假阳性、假阴性和真阴性。我们已经看到了计算每个指标的计数公式。请注意,它们直接对应于混淆矩阵中的单元格。例如,PPV 在这里处理左上角单元格的计数,除以分母,这里的这一列给出了做出正面预测的示例总数。另一个度量特异性是在这里查看负数和正常数,它对应于此处右下角​​的单元格和此处底行中的总数的分母,因此查看所有基本事实正常的示例。所以我们可以用这四个术语来表示所有这些指标。所以这里是公式的转换,以使用混淆矩阵中的术语。例如,PPV 现在是真阳性除以真阳性加假阳性。因此,混淆矩阵可用于导出我们已经研究过的所有这四个指标,以评估模型的性能。

6.根据敏感性、特异性和患病率计算 PPV

二、阈值和评价指标

1.ROC曲线和阈值

在本课中,我们将了解评估医学模型最有用的工具之一,即 ROC 曲线。我们将看到 ROC 曲线如何让我们在不同的决策阈值下直观地绘制模型的敏感性与模型的特异性。胸部 X 射线分类模型输出给定 X 射线的疾病概率。该输出可以使用阈值或操作点转换为诊断。当概率高于阈值时,我们将其解释为阳性或说患者患有疾病。当概率低于阈值时,我们将其解释为否定或说患者没有疾病。例如,如果我们的分数是 0.7,阈值是 0.5,那么我们会将这个示例归类为正例。但是如果我们的分数是 0.2 并且我们的阈值是 0.5,我们会将这个示例归类为负数。我们对阈值的选择会影响我们迄今为止所研究的指标。例如,如果我们的阈值 t 为 0,那么我们会将所有内容分类为正数。所以我们的敏感性是一,而我们的特异性是零。同样,如果我们选择阈值 1,我们会将所有内容归类为阴性,因此我们的特异性将为 1,而我们的敏感性为零。让我们进一步探讨我们选择的阈值(也称为操作点)如何影响这些数量。

2.调整阈值

假设我们有一个包含 15 张胸部 X 光片的测试集,我们通过我们的模型运行它以获得每个输出概率或分数。我们可以在 0 和 1 之间的数线上绘制这 15 个输出分数。现在,这些 X 射线中的一些将具有疾病的基本事实,而另一些将是正常的。因此,让我们相应地为它们着色。这里疾病是红色的,正常是蓝色的。我们可以选择一个小的阈值 t,当我们将阈值右侧的所有内容分类为正面时,将阈值右侧的所有内容设置为阈值,将阈值左侧的所有内容设置为负面。现在请注意,我们可以计算模型的敏感性和特异性。在这里,敏感性的分母是疾病样本的总数,我们可以算作红色的总数,这将是七个。分子是其中有多少是正数,或者换句话说,在阈值的右侧。这是所有的,除了一个是六个。所以我们的敏感度是七比六,即 0.85。同样,特异性的分母是正常示例的总数,也就是这里的蓝色圆圈的总数,也就是八。分子是其中有多少是负数,或者换句话说,在阈值的左侧。这是除了两个之外的所有,所以这是六个。所以我们的特异性是六比八或 0.75。假设我们现在将阈值更改为更高。我们现在期望,我们将较少的示例分类为正面,将更多的示例分类为负面。我们现在可以重新计算敏感性和特异性。请注意,敏感性下降了,我们的分子下降了,而特异性上升了,我们的分子增加了,因为我们现在正确地分类了更多的正常患者,而错误地分类了更多的疾病患者。我们可以将其发挥到极致,并将阈值设置为 1。在这种情况下,敏感性将为零,因为没有示例被归类为阳性,而特异性将为一,因为所有示例都被归类为阴性。

三、正确地解释置信区间

1.从总人口中抽样

在本课中,我们将研究评估医学模型的另一个非常重要的方面,即报告我们估计的可变性。我们将研究如何使用置信区间来显示这种可变性。假设一家医院有 50,000 名患者,我们想找出我们的胸部 X 光模型对在医院接受胸部 X 光检查的每个人的准确性。如果我们能够运行该模型并获得所有患者的基本事实,我们将能够获得该模型在整个人群中的表现。例如,假设我们正在查看准确性,但这可能是任何其他指标。我们发现模型对所有 50,000 名患者的准确度为 0.78。这称为总体准确度,这里的 p 很小。

实际上,我们不想在整个人群中测试模型,因为这样做根本不可行。因此,总体准确度 p 是未知的。问题是,我们能否通过使用一小部分患者样本来了解该模型在该人群中的表现如何?假设我们从医院抽取了 100 名患者。现在我们发现模型在集合上的准确度为 0.8。我们能说一下总体准确度 p 的范围吗?

2.置信区间

置信区间让我们可以说,使用我们的样本,我们有 95% 的把握总体准确度 p 在 0.72、0.88 区间内。 0.72 称为下限,0.88 称为此区间的上限。这些置信区间的计算超出了本课程的范围,但理解它们的解释很重要。当我们报告样本模型的准确性时,我们会用均值和置信区间来报告它。这里的 95% 置信区间允许我们说,在 95% 的置信度下,p 在 0.72、0.88 区间内。我们还没有看到 95% 的自信意味着什么。 95% 的置信度并不是说 p 有 95% 的概率位于区间内。它也没有说 95% 的样本准确度在这个区间内。对 95% 置信度的解释更加细致入微,需要我们考虑制作重复样本。让我们深入研究一下。假设我们能够从人群中多次重复抽样 100 名患者。每次我们得到不同的样本,因此样本精度也不同。我们还可以计算与每个样本相关的置信区间。我们可以在图上查看这些样本。对于这些样本中的每一个,我们可以绘制样本准确度(此处由圆圈表示)以及样本置信区间的下限和上限。在此图上,我们还将真实的总体准确度绘制为虚线。这是未观察到的。请注意,这些样本中的大多数都包含总体准确度,即这条垂直线。在这里,七个中有六个包含它,一个错过了它。事实上,当我们有 95% 的置信区间时,95% 的样本将包含总体准确度。95% 就是所谓的置信水平。因此,对 95% 置信度的解释是,在重复抽样中,此方法产生的区间包括大约 95% 样本的总体准确度。

3.95% 置信区间

在实践中,我们不计算许多样本的置信区间。我们只在一个样本上计算我们的模型性能。对于我们的样本,计算的置信区间可能包含也可能不包含 p。但是,我们可以有 95% 的把握做到这一点。影响置信区间宽度的因素之一(由这些数字的接近程度决定)是样本量。假设我们从人群中抽取了另一个样本,但这次是 500 名患者。这是我们之前样本的 5 倍。我们可以预期,我们将使用更大的样本更好地估计总体准确度。我们可以看到,即使模型在两个样本上的准确度都为 0.8,但请注意,较大样本的置信区间更窄,而较小样本的置信区间更宽。因此,更大的样本可以让我们更好地估计总体准确度,因为这些数字更接近。总而言之,置信区间很有用,因为即使我们无法在整个总体上运行模型,我们至少可以使用样本上的测试结果来表达我们非常确定总体准确度所在的范围。


总结

恭喜本周完成模型评估。如您所见,我们需要的不仅仅是准确性,才能正确评估医学模型,因为我们关心的是准确了解模型何时对患者有效,何时无效。在本周的作业中,您将能够应用这些想法更全面地评估您的胸部 X 光模型。

下周,我们将从医学图像分类跳到医学图像分割,您将从 MRI 数据构建脑肿瘤分割模型。回头见。

【第二周】吴恩达团队AI for Medical Diagnosis课程笔记相关推荐

  1. 【第一周】吴恩达团队AI for Medical Diagnosis课程笔记

    系列文章目录 目录 系列文章目录 文章目录 前言 一.欢迎(大概就是课程的简介) 1.AI for Medicine专项课程以及AI for Medical Diagnosis课程介绍 2.AI fo ...

  2. Coursera吴恩达《优化深度神经网络》课程笔记(3)-- 超参数调试、Batch正则化和编程框架

    红色石头的个人网站:redstonewill.com 上节课我们主要介绍了深度神经网络的优化算法.包括对原始数据集进行分割,使用mini-batch gradient descent.然后介绍了指数加 ...

  3. 吴恩达团队AI诊断心律失常研究:准确率超人类医生

    2019年,吴恩达团队在AI医疗领域实现了一项革命性的突破,他们成功地让AI诊断心律失常,其准确率高达83.7%,超过了人类心脏病医生的78.0%.这项研究成果已经发表在了知名期刊Nature Med ...

  4. Coursera吴恩达《优化深度神经网络》课程笔记(1)-- 深度学习的实用层面

    红色石头的个人网站:redstonewill.com Andrew Ng的深度学习专项课程的第一门课<Neural Networks and Deep Learning>的5份笔记我已经整 ...

  5. 【吴恩达团队】TensorFlow2.0中的自然语言处理

    视频地址:[吴恩达团队Tensorflow2.0实践系列课程第三课]TensorFlow2.0中的自然语言处理 Tokenizer 本阶段完成的工作: 构建语料库词典:{word:integer}\{ ...

  6. 吴恩达deeplearning.ai系列课程笔记+编程作业(6)第二课 改善深层神经网络-第二周:优化算法 (Optimization algorithms)

    第二门课 改善深层神经网络:超参数调试.正则化以及优化(Improving Deep Neural Networks:Hyperparameter tuning, Regularization and ...

  7. 吴恩达deeplearning.ai系列课程笔记+编程作业(11)第四课 卷积神经网络-第二周 深度卷积网络:实例探究(Deep convolutional models: case studies)

    第四门课 卷积神经网络(Convolutional Neural Networks) 第二周 深度卷积网络:实例探究(Deep convolutional models: case studies) ...

  8. 吴恩达deeplearning.ai系列课程笔记+编程作业(14)序列模型(Sequence Models)-第二周 自然语言处理与词嵌入

    第五门课 序列模型(Sequence Models) 第二周 自然语言处理与词嵌入(Natural Language Processing and Word Embeddings) 文章目录 第五门课 ...

  9. 吴恩达deeplearning.ai系列课程笔记+编程作业(15)序列模型(Sequence Models)-第三周 序列模型和注意力机制

    第五门课 序列模型(Sequence Models) 第三周 序列模型和注意力机制(Sequence models & Attention mechanism) 文章目录 第五门课 序列模型( ...

  10. 吴恩达deeplearning.ai系列课程笔记+编程作业(13)序列模型(Sequence Models)-第一周 循环序列模型(Recurrent Neural Networks)

    第五门课 序列模型(Sequence Models) 第一周 循环序列模型(Recurrent Neural Networks) 文章目录 第五门课 序列模型(Sequence Models) 第一周 ...

最新文章

  1. 20165218 2017-2018-1 《Java程序设计》第四周学习总结
  2. 【Linux 内核】Linux 内核源码几个重要的入口源文件及函数介绍 ( 系统初始化 | 内存管理 | 虚拟文件系统 | 网络管理 )
  3. Java随机数控制范围
  4. outdated: 3.Adding Color
  5. C++ 11 深度学习(一)auto、头文件防卫、引用、常量
  6. MySQL常见的两种存储引擎:MyISAM与InnoDB的爱恨情仇
  7. linux 磁盘扩容_记录一次ESXi Linux在线扩容,不重启系统
  8. JDBC初学者的basedao工具类
  9. 【css】适配iphoneX
  10. C ++ 类 | 构造函数w参数_6
  11. 计算机多媒体技术视差估计,立体视觉中视差估计算法研究
  12. GetModuleFileNameA函数与GetCurrentDirectoryA函数
  13. phpstom怎样导出数据库_详解mysql数据库sql优化技巧总结
  14. Java并发编程实战_《Java并发编程实战》PDF版本下载
  15. 一名「数据分析师」职业思考与规划
  16. 了解计算机病毒及杀毒方式,最简易的计算机病毒查杀方法
  17. 2016上半年高项项目经理考试培训考试感想
  18. 元宇宙三巨头Animoca Brands、Yuga Labs、Gala多维度对比,谁才是未来?
  19. 智慧城市的背后是大数据的深度挖掘和利用
  20. 电子商务网站建设策划书_竞赛解析 | 全国大学生电子商务“创新、创意及创业”挑战赛...

热门文章

  1. php怎么获取图片信息,PHP 获取图片信息exif
  2. 苹果计算机散热维修,手把手教你拆机MacBook Pro,作清灰散热处理,助你的Mac在夏天火力全开!...
  3. 漫画戏说:如何破解MD5加密算法
  4. Scala语言会取代Java的吗?
  5. 2021年末爆发 Log4j 的史诗级Bug漏洞?5分钟教你如何手把手实现
  6. picgo图片上传踩坑
  7. RTSP协议与G711 AAC
  8. Python里面这些点,据说80%的新手都会一脸懵逼
  9. 《Real-Time Rendering 4th Edition》读书笔记--简单粗糙翻译 第三章 图形处理单元 The Graphics Processing Unit
  10. 【菜鸟小屁的成长日记】之ElasticSearch中的TimeStamp时间戳篇