本文转载自新智元。

编辑:元子、白峰

【导读】胸部计算机断层扫描(CT)图像在对新冠肺炎(COVID-19)提供准确、快速、廉价的筛查和检测方面很有前景。在本文中,研究团队构建了一个开源的COVID-CT数据集,其中包含275个COVID-19检测呈阳性的CT图像,有助于使用深度学习方法分析病人的CT图像并预测其是否患有新冠的相关研究和发展。

胸部计算机断层扫描(CT)图像在对新冠肺炎(COVID-19)提供准确、快速、廉价的筛查和检测方面很有前景。

在本文中,研究者构建了一个开源的COVID-CT数据集,其中包含275个COVID-19检测呈阳性的CT图像,有助于使用深度学习方法分析病人的CT图像并预测其是否患有新冠的相关研究和发展。

研究者在该数据集上训练了一个深度卷积神经网络,F1值达到0.85,这个结果达到了研究团队的期待,但仍需进一步改进。

相关数据和代码:
https://github.com/UCSD-AI4H/COVID-CT

核酸检测的最大问题:速度慢且稀缺,追不上新冠肺炎的传播速度

截至2020年3月30日,在全世界范围内已有775306人感染新冠肺炎,37083人死亡。对此疾病检测的低效和缺乏成为控制其传播的主要障碍。

目前的检测主要基于逆转录聚合酶链反应(RT-PCR),需要4到6个小时才能获得结果。与新冠肺炎可怕的传播速度相比,这远不够快。除了效率低下之外,RT-PCR检测试剂盒也非常短缺。

这促使研究团队去研究替代的检测方式。这些方式可能更快,比RT-PCR便宜,更容易获得,但与RT-PCR一样准确。在众多可能性中,研究团队对CT图像尤其感兴趣。

有几篇著作研究了CT图像在筛选和检测新冠肺炎时的效果,结果鼓舞人心。然而,出于对隐私的保护,这些研究中所使用的CT图像并不会公之于众,这极大地阻碍了基于CT图像的精准检测新冠肺炎先进人工智能方法的研发。

构建COVID-CT数据集,训练深度学习模型诊断新冠肺炎

为了解决这个问题,研究团队构建了一个COVID-CT数据集,其中包含275个新冠肺炎检测呈阳性的CT图像,并向公众开放,以助于基于CT图像的新冠肺炎检测的研发。

研究团队从760个关于新冠肺炎的medRxiv和bioRxiv预印本中提取了 CT图像,并通过阅读这些图像的标题人工筛选出具有新冠肺炎临床病症的图像。基于183个新冠肺炎 CT图像和146个非新冠肺炎 CT图像,研究团队训练了一个深度学习模型,以预测一个CT图像是否呈新冠肺炎阳性。

在35个新冠肺炎 CT图像和34个非新冠肺炎 CT图像上进行了测试,研究团队的模型F1值为0.85。结果表明,CT扫描有望用于筛选和检测新冠肺炎,然而还需要更先进的方法来进一步提高准确性。

确诊新冠肺炎的患者入院时的CT图像。

A,2020年2月2日,一名39岁男性的胸部CT扫描结果,显示双侧毛玻璃混浊。
B,2020年2月6日,一名45岁男性的胸部CT扫描结果,显示双侧毛玻璃混浊。
C,2020年1月27日,一名48岁男性(在治疗后第9天出院)的胸部CT扫描结果,显示斑片状阴影。
D,2020年1月23日,一名34岁男性(在治疗后第11天出院)的胸部CT扫描结果,显示斑片状阴影。

图1:对于包含多个CT子图像的图像,研究团队将其手动拆分为单个CT图像。

如何创建数据集

在本节中,研究团队描述了如何构建COVID-CT数据集。研究团队首先收集了760个于1月19日 至3月25日期间在medRxiv1和bioRxiv2上发布的的关于新冠肺炎的预印本。

这些预印本中有许多报告了新冠患者病例并且其中一些展示了患者的CT图像。

这些 CT图像附有描述其临床病症的标题。研究团队使用了PyMuPDF3提取预印本PDF文件的底层结构信息并定位到所有嵌入的图表。这些图表的质量(包括分辨率,大小等)大都保存完好。

根据结构信息,研究团队还识别出所有图表的标题。基于提取的图表和标题,研究团队首先手动选出所有CT扫描图像。

然后对于每个CT图像,阅读其对应的标题从而判断它对新冠肺炎是否呈阳性。如果无法通过标题判断,则在预印本中找到分析此图的文字以做出决定。对于包含多个CT子图像的图像,研究团队将其手动拆分为单个CT图像,如图1所示。

最后,研究团队获得了27个CT扫描图像,标记为新冠肺炎阳性。这些图像大小不同,最小,平均和最大高度分别为153、491和1853;最小,平均和最大宽度分别为124、383和1485。这些扫描来自143例患者。图2 显示了新冠肺炎CT扫描图像的一些示例。

图2:新冠肺炎阳性的CT扫描图像示例

两种方式:迁移学习和数据扩充

研究团队基于这个数据集开发了一个基线方法,希望有兴趣的学者可以对其进行基准测试。

尽管研究团队所使用的关于新冠肺炎的CT图像数据集是目前最大的公开可使用的CT图像数据集,然而它依旧较难达到训练模型所需的数据量。

因为在如此小的数据集上训练深度学习模型十分容易导致过度拟合:模型在训练数据上表现良好,但是在测试数据上泛化不理想。因此,研究团队采用了两种不同的方法来解决这个问题:迁移学习和数据扩充。

其中,迁移学习的目的是利用来自相关领域的大量数据来辅助模型的训练与学习。具体来说,研究团队使用大量的胸部X光图像来预先训练一个深度卷积神经网络,然后在COVID-CT数据集上对训练好的网络进行微调。

数据扩充的目的是组合近似正确的图像-标签组,例如,在大多数组合的图像标签组中,标签是对图像的正确注释。

迁移学习

为了解决训练数据不足的问题,研究团队采用了迁移学习的方法。具体来讲,研究团队使用NIH发布的ChestX-ray14 数据集来预训练DenseNet,然后在COVID-CT数据集上对预训练后的DenseNet进行微调。

数据扩充

另一种解决数据不足的方法是数据扩充:即从有限的训练数据中,创建新的图像-标签组,并将合成后的组添加到原本的训练集中。在创建新的组时,研究团队采用了随机仿射变换、随机裁剪和翻转来扩充每个训练图像。随机仿射变换包括平移和旋转(角度依次为5,15,25)。

实验设计以及结果

研究团队收集了195个检测新冠肺炎呈阴性的CT扫描数据,来训练一个二分类模型用于预测一个CT图像是新冠阳性还是阴性。

其中,研究团队根据患者数据将其分为训练集,检验集和测试集,图表1总结了每个数据集中新冠阳性和新冠阴性图像的数量,每个CT图像的大小都调整为224*224,并通过验证集对超参数进行调优。

再者,通过使用学习率为0.0001,余弦调度和最小批处理大小为4的Adam,研究团队对网络中的权重参数进行了优化。最后,研究团队使用五个指标来评估研究团队的方法:(1)准确性; (2)精度; (3)召回率; (4)F1指数; (5)ROC曲线面积(AUC)。对于这些指标,越高越好。

上图展示了这个基线方法的准确度、精密度、召回率、F1指数和AUC。尽管精度较高,然而召回率的结果并不令人满意,因此,需要使用更先进的方法来提高召回率。

总结

研究团队建立了一个关于新冠肺炎的公开CT扫描数据集,来促进通过读取CT图像进而筛选和检测新冠肺炎患者的AI技术的发展。

此数据集包含275个CT扫描结果为阳性的新冠肺炎患者的CT图像。

研究团队使用该数据集训练了一个深度学习模型,并获得了0.85的F1值。下一步,研究团队将继续改进方法以达到更好的精度。

论文链接:

https://arxiv.org/abs/2003.13865

END

备注:数据

数据标注与增广交流群

数据标注工具、数据增广等最新技术,

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

美国高校开源迄今为止最大新冠肺炎CT数据集相关推荐

  1. 美国高校开源迄今为止最大新冠肺炎CT数据集!

    点击上方"视学算法",选择"星标" 快速获得最新干货   本文转载自:新智元   编辑:元子.白峰 [导读]胸部计算机断层扫描(CT)图像在对新冠肺炎(COVI ...

  2. 新冠肺炎CT图像识别

    ★★★ 本文源自AlStudio社区精品项目,[点击此处]查看更多精品内容 >>> 项目背景 新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19) ...

  3. 【AI达人创造营第二期】基于PaddleClas的新冠肺炎CT影像的分类

    转自AI Studio,原文链接:[AI达人创造营第二期]基于PaddleClas的新冠肺炎CT影像的分类 - 飞桨AI Studio 一.项目背景 新近爆发的2019新型冠状病毒(SARS-CoV- ...

  4. 新冠肺炎CT识别COVID-CT(一):新冠肺炎CT识别方法与CT数据集

    前言   前几天浏览器突然给我推送了一个文章,是介绍加州大学圣地亚哥分校.Petuum 的研究者构建了一个开源的 COVID-CT 数据集的.我看了一下代码其开源的代码,比较适合我们这种新手学习,当做 ...

  5. 【openVINO+paddle】CPU部署新冠肺炎CT图像分类识别与病害分割

    [openVINO+paddle]CPU部署新冠肺炎CT图像分类识别与病害分割 在这个项目中是我在看到一位大佬代码生成器的项目文章时想要尝试开发的一个项目.主要是想要在飞桨上通过Cla与Seg(分类和 ...

  6. pytorch:ResNet50做新冠肺炎CT照片是否确诊分类

    完整项目代码:https://github.com/SPECTRELWF/pytorch-cnn-study 个人主页:liuweifeng.top:8090 ResNet网络结构 ResNet是何恺 ...

  7. PYTORCH:DenseNet做新冠肺炎CT照片是否确诊分类

    完整项目代码:https://github.com/SPECTRELWF/pytorch-cnn-study DenseNet网络结构 DenseNet是清华大学的黄高教授在CVPR的工作,在resn ...

  8. 【Python】2020年美国新冠肺炎疫情数据分析

    2020年美国新冠肺炎疫情数据分析 一. 需求描述 二. 环境介绍 三. 数据来源描述 四. 数据上传及上传结果查看 五.数据处理过程描述 1.数据集下载 2.格式转换 3.启动Hadoop集群 4. ...

  9. 依图胸部CT新冠肺炎智能评价系统:三大智能功能精准辅助医学分析|百万人学AI评选

    2020 无疑是特殊的一年,而 AI 在开年的这场"战疫"中表现出了惊人的力量.站在"新十年"的起点上,CSDN[百万人学AI]评选活动正式启动.本届评选活动在 ...

最新文章

  1. 基于Android5.0的Camera Framework源码分析 (三)
  2. Smartforms常见的问题
  3. 程序语言python循环_《python语言程序设计》_第5章_循环
  4. Android—MVC、MVP、MVVM
  5. tomcat jsp导入java_[导入]Tomcat JSP Web 开发中的乱码问题小姐
  6. 小程序背景图满屏_竞赛答题小程序
  7. java集合系列_Java集合系列01-Java集合概述
  8. 程序win10_win10该文件没有与之关联的程序来执行操作
  9. 27个澳洲年轻人,重演了少年马云的一段奇遇
  10. OpenCV之基础图像容器Mat(2)
  11. Linux系统内核正式进入5.0版本时代
  12. ZJ-在线取色器的使用(RGB值转HSV值)
  13. html js实现分页代码,js分页代码示例
  14. 调试 STM32F429 + USB3300
  15. Python之统计英文字符的个数
  16. 数据分析案例--淘宝用户行为分析
  17. (DES)Single-Shot Object Detection with Enriched Semantics
  18. 《Photoshop七大核心技术》—第1课Photoshop七大核心技术
  19. 一个页面两个或多个swiper vue中一个页面多个swiper互相干扰 swiper轮播冲突
  20. VisualStdio调试出现0xC00000FD:Stack overflow原因及解决方法

热门文章

  1. P2820 局域网(最小生成树)
  2. WEBGL的测试网站和基础知识
  3. [shell][001] [advanced]定制化自己的shell命令
  4. vm的红帽linux怎样安装教程,vmware10怎么安装linux_redhat7系统安装教程
  5. 关于计算机设计的英语作文,一篇关于计算机的看法的英语作文
  6. C语言开定时器做呼吸灯程序,简单的基于51单片机定时器上呼吸灯程序
  7. 实车采集的数据重建场景_避障、探测、采样......华理这套系统让无人小车“身手非凡”...
  8. linux 自定义键盘布局,Ubuntu自定义键位xmodmap
  9. 寄存器地址和内存地址_通俗易懂和你聊聊寄存器那些事(精美图文)
  10. set集合判断集合中是否有无元素_Python入门教程笔记(五)集合(set)及函数