点击上方“视学算法”,选择“星标”

快速获得最新干货


  本文转载自:新智元  

编辑:元子、白峰

【导读】胸部计算机断层扫描(CT)图像在对新冠肺炎(COVID-19)提供准确、快速、廉价的筛查和检测方面很有前景。在本文中,研究团队构建了一个开源的COVID-CT数据集,其中包含275个COVID-19检测呈阳性的CT图像,有助于使用深度学习方法分析病人的CT图像并预测其是否患有新冠的相关研究和发展。

胸部计算机断层扫描(CT)图像在对新冠肺炎(COVID-19)提供准确、快速、廉价的筛查和检测方面很有前景。

在本文中,研究者构建了一个开源的COVID-CT数据集,其中包含275个COVID-19检测呈阳性的CT图像,有助于使用深度学习方法分析病人的CT图像并预测其是否患有新冠的相关研究和发展。

研究者在该数据集上训练了一个深度卷积神经网络,F1值达到0.85,这个结果达到了研究团队的期待,但仍需进一步改进。

相关数据和代码:
https://github.com/UCSD-AI4H/COVID-CT

核酸检测的最大问题:速度慢且稀缺,追不上新冠肺炎的传播速度

截至2020年3月30日,在全世界范围内已有775306人感染新冠肺炎,37083人死亡。对此疾病检测的低效和缺乏成为控制其传播的主要障碍。

目前的检测主要基于逆转录聚合酶链反应(RT-PCR),需要4到6个小时才能获得结果。与新冠肺炎可怕的传播速度相比,这远不够快。除了效率低下之外,RT-PCR检测试剂盒也非常短缺。

这促使研究团队去研究替代的检测方式。这些方式可能更快,比RT-PCR便宜,更容易获得,但与RT-PCR一样准确。在众多可能性中,研究团队对CT图像尤其感兴趣。

有几篇著作研究了CT图像在筛选和检测新冠肺炎时的效果,结果鼓舞人心。然而,出于对隐私的保护,这些研究中所使用的CT图像并不会公之于众,这极大地阻碍了基于CT图像的精准检测新冠肺炎先进人工智能方法的研发。

构建COVID-CT数据集,训练深度学习模型诊断新冠肺炎

为了解决这个问题,研究团队构建了一个COVID-CT数据集,其中包含275个新冠肺炎检测呈阳性的CT图像,并向公众开放,以助于基于CT图像的新冠肺炎检测的研发。

研究团队从760个关于新冠肺炎的medRxiv和bioRxiv预印本中提取了 CT图像,并通过阅读这些图像的标题人工筛选出具有新冠肺炎临床病症的图像。基于183个新冠肺炎 CT图像和146个非新冠肺炎 CT图像,研究团队训练了一个深度学习模型,以预测一个CT图像是否呈新冠肺炎阳性。

在35个新冠肺炎 CT图像和34个非新冠肺炎 CT图像上进行了测试,研究团队的模型F1值为0.85。结果表明,CT扫描有望用于筛选和检测新冠肺炎,然而还需要更先进的方法来进一步提高准确性。

确诊新冠肺炎的患者入院时的CT图像。

A,2020年2月2日,一名39岁男性的胸部CT扫描结果,显示双侧毛玻璃混浊。
B,2020年2月6日,一名45岁男性的胸部CT扫描结果,显示双侧毛玻璃混浊。
C,2020年1月27日,一名48岁男性(在治疗后第9天出院)的胸部CT扫描结果,显示斑片状阴影。
D,2020年1月23日,一名34岁男性(在治疗后第11天出院)的胸部CT扫描结果,显示斑片状阴影。

图1:对于包含多个CT子图像的图像,研究团队将其手动拆分为单个CT图像。

如何创建数据集

在本节中,研究团队描述了如何构建COVID-CT数据集。研究团队首先收集了760个于1月19日 至3月25日期间在medRxiv1和bioRxiv2上发布的的关于新冠肺炎的预印本。

这些预印本中有许多报告了新冠患者病例并且其中一些展示了患者的CT图像。

这些 CT图像附有描述其临床病症的标题。研究团队使用了PyMuPDF3提取预印本PDF文件的底层结构信息并定位到所有嵌入的图表。这些图表的质量(包括分辨率,大小等)大都保存完好。

根据结构信息,研究团队还识别出所有图表的标题。基于提取的图表和标题,研究团队首先手动选出所有CT扫描图像。

然后对于每个CT图像,阅读其对应的标题从而判断它对新冠肺炎是否呈阳性。如果无法通过标题判断,则在预印本中找到分析此图的文字以做出决定。对于包含多个CT子图像的图像,研究团队将其手动拆分为单个CT图像,如图1所示。

最后,研究团队获得了27个CT扫描图像,标记为新冠肺炎阳性。这些图像大小不同,最小,平均和最大高度分别为153、491和1853;最小,平均和最大宽度分别为124、383和1485。这些扫描来自143例患者。图2 显示了新冠肺炎CT扫描图像的一些示例。

图2:新冠肺炎阳性的CT扫描图像示例

两种方式:迁移学习和数据扩充

研究团队基于这个数据集开发了一个基线方法,希望有兴趣的学者可以对其进行基准测试。

尽管研究团队所使用的关于新冠肺炎的CT图像数据集是目前最大的公开可使用的CT图像数据集,然而它依旧较难达到训练模型所需的数据量。

因为在如此小的数据集上训练深度学习模型十分容易导致过度拟合:模型在训练数据上表现良好,但是在测试数据上泛化不理想。因此,研究团队采用了两种不同的方法来解决这个问题:迁移学习和数据扩充。

其中,迁移学习的目的是利用来自相关领域的大量数据来辅助模型的训练与学习。具体来说,研究团队使用大量的胸部X光图像来预先训练一个深度卷积神经网络,然后在COVID-CT数据集上对训练好的网络进行微调。

数据扩充的目的是组合近似正确的图像-标签组,例如,在大多数组合的图像标签组中,标签是对图像的正确注释。

迁移学习

为了解决训练数据不足的问题,研究团队采用了迁移学习的方法。具体来讲,研究团队使用NIH发布的ChestX-ray14 数据集来预训练DenseNet,然后在COVID-CT数据集上对预训练后的DenseNet进行微调。

数据扩充

另一种解决数据不足的方法是数据扩充:即从有限的训练数据中,创建新的图像-标签组,并将合成后的组添加到原本的训练集中。在创建新的组时,研究团队采用了随机仿射变换、随机裁剪和翻转来扩充每个训练图像。随机仿射变换包括平移和旋转(角度依次为5,15,25)。

实验设计以及结果

研究团队收集了195个检测新冠肺炎呈阴性的CT扫描数据,来训练一个二分类模型用于预测一个CT图像是新冠阳性还是阴性。

其中,研究团队根据患者数据将其分为训练集,检验集和测试集,图表1总结了每个数据集中新冠阳性和新冠阴性图像的数量,每个CT图像的大小都调整为224*224,并通过验证集对超参数进行调优。

再者,通过使用学习率为0.0001,余弦调度和最小批处理大小为4的Adam,研究团队对网络中的权重参数进行了优化。最后,研究团队使用五个指标来评估研究团队的方法:(1)准确性; (2)精度; (3)召回率; (4)F1指数; (5)ROC曲线面积(AUC)。对于这些指标,越高越好。

上图展示了这个基线方法的准确度、精密度、召回率、F1指数和AUC。尽管精度较高,然而召回率的结果并不令人满意,因此,需要使用更先进的方法来提高召回率。

总结

研究团队建立了一个关于新冠肺炎的公开CT扫描数据集,来促进通过读取CT图像进而筛选和检测新冠肺炎患者的AI技术的发展。

此数据集包含275个CT扫描结果为阳性的新冠肺炎患者的CT图像。

研究团队使用该数据集训练了一个深度学习模型,并获得了0.85的F1值。下一步,研究团队将继续改进方法以达到更好的精度。

论文链接:

https://arxiv.org/abs/2003.13865

数据集:

https://github.com/UCSD-AI4H/COVID-CT

美国高校开源迄今为止最大新冠肺炎CT数据集!相关推荐

  1. 美国高校开源迄今为止最大新冠肺炎CT数据集

    本文转载自新智元. 编辑:元子.白峰 [导读]胸部计算机断层扫描(CT)图像在对新冠肺炎(COVID-19)提供准确.快速.廉价的筛查和检测方面很有前景.在本文中,研究团队构建了一个开源的COVID- ...

  2. 新冠肺炎CT图像识别

    ★★★ 本文源自AlStudio社区精品项目,[点击此处]查看更多精品内容 >>> 项目背景 新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19) ...

  3. 【AI达人创造营第二期】基于PaddleClas的新冠肺炎CT影像的分类

    转自AI Studio,原文链接:[AI达人创造营第二期]基于PaddleClas的新冠肺炎CT影像的分类 - 飞桨AI Studio 一.项目背景 新近爆发的2019新型冠状病毒(SARS-CoV- ...

  4. 新冠肺炎CT识别COVID-CT(一):新冠肺炎CT识别方法与CT数据集

    前言   前几天浏览器突然给我推送了一个文章,是介绍加州大学圣地亚哥分校.Petuum 的研究者构建了一个开源的 COVID-CT 数据集的.我看了一下代码其开源的代码,比较适合我们这种新手学习,当做 ...

  5. 【openVINO+paddle】CPU部署新冠肺炎CT图像分类识别与病害分割

    [openVINO+paddle]CPU部署新冠肺炎CT图像分类识别与病害分割 在这个项目中是我在看到一位大佬代码生成器的项目文章时想要尝试开发的一个项目.主要是想要在飞桨上通过Cla与Seg(分类和 ...

  6. pytorch:ResNet50做新冠肺炎CT照片是否确诊分类

    完整项目代码:https://github.com/SPECTRELWF/pytorch-cnn-study 个人主页:liuweifeng.top:8090 ResNet网络结构 ResNet是何恺 ...

  7. PYTORCH:DenseNet做新冠肺炎CT照片是否确诊分类

    完整项目代码:https://github.com/SPECTRELWF/pytorch-cnn-study DenseNet网络结构 DenseNet是清华大学的黄高教授在CVPR的工作,在resn ...

  8. 【Python】2020年美国新冠肺炎疫情数据分析

    2020年美国新冠肺炎疫情数据分析 一. 需求描述 二. 环境介绍 三. 数据来源描述 四. 数据上传及上传结果查看 五.数据处理过程描述 1.数据集下载 2.格式转换 3.启动Hadoop集群 4. ...

  9. 依图胸部CT新冠肺炎智能评价系统:三大智能功能精准辅助医学分析|百万人学AI评选

    2020 无疑是特殊的一年,而 AI 在开年的这场"战疫"中表现出了惊人的力量.站在"新十年"的起点上,CSDN[百万人学AI]评选活动正式启动.本届评选活动在 ...

最新文章

  1. python向字典中添加值
  2. JavaScript window
  3. NHibernate之旅(10):探索父子(一对多)关联查询
  4. C# delegate and event
  5. 可靠性测试设备技术含量_电子产品可靠性测试及设备
  6. Pandas中文官档~基础用法2
  7. 织梦guestbook.php漏洞,DEDE:织梦漏洞修复(含任意文件上传漏洞与注入漏洞)
  8. iTunes备份注意
  9. HiveJDBC与其他JDBC一起使用时出现java.lang.IllegalArgumentException: Bad URL format
  10. [原创] GSM/GPRS 以及CDMA区分以及相关模块选型
  11. sql.xml大于小于号处理的方法
  12. 获取华为云课程内嵌的课件pdf文件
  13. 数仓建设保姆级5W字教程,离线实时一网打尽(理论+实战)
  14. 生活常用的塑料材质1到7
  15. mldonkey系列之三──Ini文件[zt]
  16. 基于PHP的旅游资讯管理系统
  17. Python爬虫爬下IT之家图片
  18. AES加密/解密报错,Input length must be multiple of 16 when decrypting with padded cipher
  19. 计算1+2+3+...+99+100的总和
  20. miflash 刷机超过1000s还未完成

热门文章

  1. 在IDEA 中为Maven 配置阿里云镜像源
  2. 英特尔第三代 Ice Lake 发布正面与 AMD EPYC PK,结果令人大跌眼镜!
  3. 唏嘘!程序员,你的年底KPI完不成的原因找到了!
  4. 如何度过二十多岁这段又穷又迷茫的岁月?
  5. 算法鼻祖高德纳,82 岁仍在写《计算机程序设计的艺术》
  6. GPT-2仅是“反刍”知识,真正理解语言还要改弦更张
  7. “不会Linux,怎么干程序员?”骨灰级工程师:干啥都不行!
  8. 无需成对示例、无监督训练,CycleGAN生成图像简直不要太简单
  9. 程序员转型人工智能工程师,如何在百忙之中不走岔路
  10. Google发布机器学习术语表 (中英对照)