在医学数据集的训练算法期间面临的许多问题中,以下三个是最常见:

  1. 类别不均衡

  2. 多任务

  3. 数据集大小

对于这些问题,本文将分享一些解决的方法。

类别不均衡挑战

在现实世界中,我们看到的健康人远远比患病的人要多得多,这也反映了在医学数据集中,健康和患病类别的样本数量是不平均。在医疗数据集和信用卡欺诈数据集中,你可能会看到正样本的数量是负样本的一百倍。

所以模型训练的结果往往被误认为是表现出色的,然而实际上却并非如此。如果使用accuracy_score准确度这样的简单度量,就会发生这种情况。准确度对于这类数据集来说不是一个很好的度量标准,因为标签严重倾斜,所以一个只输出正常标签的神经网络的准确率甚至还能略高于90%。

解决方案:

终上所述,我们可以定义更有用的指标,例如F1度量或"精确度/召回率"。精确度定义为"真正例个数/(真正例个数+假正例个数)",在假正例很多的情况下,这是一个很好的度量;另一方面,召回率定义为"真正例个数/(真正例个数+假反例个数)",在假反例本很多的情况下,这是一个很好的度量。医疗领域的大多数模型是这种情况,但是我们也经常需要同时考虑假正例个数和假反例个数,这就是F1度量的功能,它在精确度(Precision)和召回率(Recall)之间取得均衡,由公式2 * ((Precision*Recall) / (Precision+Recall))给出。

处理类不均衡的另一种流行技术是"重采样",这是从多数类(样本过多的那一类)中删除样本(称为欠采样)或在少数类中添加样本(称为过采样)来在这两个类之间取得均衡的行为。尽管它们可以通过使用复杂的重采样技术来解决,但它们具有自己的缺点,如信息丢失和过拟合。

多任务挑战

在现实世界中,通常仅预测健康或患病是不够的,我们经常需要将医疗数据分为多个类别或标签,例如,仅从心律中检测出心律失常并没有什么市场,对患者进行分析判断得到哪种心律失常更有价值,例如病状可能是房颤,室上性心动过速或任何其他类型。

从理论上讲,可以为需要分类的每个标签训练单独的神经网络模型,但是这对于写代码来说是非常不切实际的,如果我们可以将所有这些分类模型组合到一个返回多个预测的单个深度神经网络中,就比较有价值。

解决方案:

我们可以使用一种称为"多类别分类"或"多标签分类"的方法来应对这一挑战。这两种方法略有不同,在多类别中,数据样本的类别是互斥的,而在多标签中,数据样本可以属于多个类别。在医学领域,我们通常使用多标签分类,因为如果患者被诊断为肺不张(肺的膨胀不全),则并不意味着他/她就不会有心脏肥大。我们将模型最后一层的分数再传递给Sigmoid激活函数,这会把最后一层的每个分数转换为0到1之间的值,而与其他分数无关。

对于多标签分类,我们选择的损失函数变为binary_crossentropy,其中由于我们使用了Sigmoid激活函数,因此每个标签都被视为独立的伯努利分布。在需要多类的情况下,可以用损失函数设置为categorical_crossentropy的softmax激活函数来替换Sigmoid激活函数。

数据集大小挑战

另外一个处理医学数据集的挑战为数据集的大小。大型训练数据集除了具有良好的体系结构外,还对模型的性能起着重要的作用,但可用于疾病的患者数据数量往往不够。低数据集大小会导致高偏差和高方差,这些原因导致模型的推广和优化困难。

解决方案:

为了解决模型优化的困难,我们可以使用一种称为"迁移学习"的方法,其中我们使用从相关网络较低层中学习来训练较高层,而无需它们从头开始学习。由于先前的训练,较低的图层可以用作良好的特征提取器,因此我们可以根据数据集对其进行微调,该技术优化速度更快,并减少了训练新模型所需的数据量。

为了解决模型泛化的困难,我们可以使用一种称为"数据增强"的技术,将数据提供给模型之前,可以对样本进行一些随机转换,这样我们可以使模型对于大小或亮度等微小变化保持不变。诸如水平或垂直翻转图像,更改图像的亮度或对比度,将图像旋转或缩放到一定程度之类的做法都有助于数据扩充。此技术在小型数据集中避免过度拟合非常有用。

参考链接:https://medium.com/aiformedicine/challenges-of-training-models-on-medical-data-7ecc03db2d65

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

训练医学模型的相关挑战汇总相关推荐

  1. 数字医学影像工作站相关资料汇总

    引言: 计算机及信息技术的飞速发展,使医学诊断.治疗模式发生了巨大的改变,使医疗活动从过去经验主导模式逐渐向更加科学.精确的数字化模式转变.医学影像工作站的发展与应用就是其中的一个突出表现.它通过对医 ...

  2. LLMs:ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)、RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→​​​

    LLMs:ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集).RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→推理量 ...

  3. 遥感资源大放送(上):用开源代码,训练土地分类模型

    教程传送门 遥感资源大放送(下)| 11 个经典遥感数据集 遥感影像是开展测绘地理信息工作的重要数据,对于地理国情监测.地理信息数据库更新等意义重大,在军事.商业.民生等领域发挥了越来越重要的作用. ...

  4. 【数据资源】遥感资源大放送(上):用开源代码,训练土地分类模型

    内容概要:土地分类是遥感影像的重要应用场景之一,本文介绍了土地分类的几个常用方法,并利用开源语义分割代码,打造了一个土地分类模型. 关键词:遥感数据集   语义分割   机器视觉 遥感影像是开展测绘地 ...

  5. 【时间序列】ICML 2021丨时间序列相关研究汇总

    ICML(International Conference on Machine Learning, ICML)是由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,是推动机器学习领域发展的 ...

  6. 超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

    文章简介 本文从视觉问答(VQA)任务出发,讲述了 2015 年任务的定义开始,接踵出现的各种多模态技术.从无注意力机制的深度学习模型,发展到天然适合注意力机制的多模态场景的模型,再到基于 Trans ...

  7. 机器学习实战4-sklearn训练线性回归模型(鸢尾花iris数据集分类)

    不贴图都没人看系列.... 线性回归推导: 上图求导部分有误,少些一个转置符号,更正为: 逻辑回归推导: (公式中"ln"和"log"表示一个意思,都是以&qu ...

  8. 使用Stratasys创建3D打印医学模型的工作流程

    数十年来,在医学界,外科医生及其专业支持团队在执行术前计划方法时一直依靠X射线,计算机断层扫描(CT)扫描和磁共振成像(MRI)数据.这些诊断工具实际上是救生员,但是这些图像的分辨率和2D透视图使确定 ...

  9. CVPR2020 ReID(1)——相关论文汇总及解读

    CVPR 2020相关的论文出来了,最近刚好在做一些和Reid相关的工作,所以决定把这部分的论文整理整理,与人方便自己方便.欢迎大家交流指正. (1)Camera On-boarding for Pe ...

最新文章

  1. golang 命令行_如何使用Golang编写快速有趣的命令行应用程序
  2. pytorch 图像归一化
  3. chrome web获取mac地址_老鬼傻瓜式讲解网络知识:网络设备如何通过IP地址获取设备MAC地址...
  4. webstorm 设置jsp支持
  5. 腾讯副总裁姚星:腾讯AI Lab将致力打造通往AGI之路
  6. C# WinForm开发系列 - ToolBar/OutlookBar/Tab/Wizard(转载)
  7. Effective C++ ------- virtual
  8. 计算机操作系统同步互斥
  9. 今日测试:javascript笔试最常见的一道题
  10. 百度NLP“十年十人”重磅亮相,推出全球最大中文NLP数据共建计划“千言”
  11. C#中英文逗号之间的相互转化
  12. 广西电力职业技术学院计算机应用,广西电力职业技术学院电子与信息工程系
  13. Ant-编译构建(1)-HelloWorld
  14. Unity2020打包ARCore项目apk
  15. 原型工具Axure:常用效果制作(选中、淘宝网导航、轮播图、toast效果、呼出键盘、省市二级联动、步进器、订单详情案例、中继器)
  16. cisco路由器进入rommon模式
  17. 色彩空间(一):色彩空间基础
  18. 汉语语法和英语语法的区别
  19. samba服务器介绍
  20. 【bzoj4292】 [PA2015]Równanie 乱搞

热门文章

  1. MNE读取竞赛数据集gdf格式脑电数据,并简单可视化
  2. Spring2.5+Struts2+Hibernate3整合之五
  3. 字幕剪切视频神器AutoCut的安装和使用
  4. nsis制作新版迅雷安装界面
  5. Filter的使用技巧
  6. VUE学习(二十)、插槽
  7. 《推理的迷宫》读书笔记之三
  8. 自考电子科大计算机考研,四川自考生考研的看过来,圈重点了
  9. arch linux忘记密码,ArchLinux 无密码Samba 配置
  10. kaldi中文资料最后一章在线解码器遇到的问题及解决方案