数栗子 发自 凹非寺
量子位 报道 | 公众号 QbitAI

最近,吴恩达的斯坦福团队发布了一个叫做CheXpert大型数据集,论文中选了AAAI 2019

它包含了224,316张标注好的胸部X光片,以及放射科医师为每张胸片写的病理报告。

虽然,像从前NIH发布的ChestX-ray14数据集那样,CheXpert也是根据医师的报告,自动标注肺水肿、心脏肥大等各种病症的;

但团队说,新的数据集更适合做Benchmark,因为测试集上的标签,是经过 (持证上岗的) 放射科医师验证的标签。

团队便是用这个数据集做Benchmark,举行了一场5种疾病的识别比赛。

数据集是怎样炼成的

这22万张胸片,都是2002年10月到2017年7月之间,斯坦福医院做过的X光检查,来自65,240个就诊的人类。

有哪些标签

每张胸片有14个标签要贴,其中12个,是表明患者是否存在心脏肥大 (Cardiomegaly) 、肺部病变 (Lung Lesion) 等12种疾病特征

另外两个标签,一个是无发现 (No Finding) ,另一个是辅助器具 (Support Devices) 。

14个标签,都分为 (Negative) 、 (Positive) 以及不确定 (Uncertain) 这三种选项。

因为,并不是所有问题,都能从胸片上得到确定的答案。如果不能做出明确的判断,就不可以贸然输出阴或阳。

自动标注工具

有了14个标签要贴,吴恩达团队开发了一种自动贴标签的算法:从医师每张胸片做的报告文本里,找到和每个标签相对应的信息。

算法分三步:

一是提取文中提及的信息 (Mention Extraction) ,得出一个列表;

二是为提及的信息做分类 (Mention Classification) ,分成阴、阳、不确定这三类;

三是把提及的信息聚合起来 (Mention Aggregation) ,得出最终结论,标注完成。

团队已经把标注工具开源了:

https://github.com/stanfordmlgroup/chexpert-labeler

人类医师验证一下

数据集要成为合格的Benchmark,测试集给的标准答案就要有说服力。

团队找到8位持证的放射科医师,让他们独立去标注500张胸片的测试集。然后,把5位医师给出的主流答案作为Ground Truth;至于,另外3位医师的答案,后面有其他用途。

这样一来,各路诊断模型都可以在一个相对有效的标准之下接受评估。

对比一下,从前的ChestX-Ray14数据集里,测试集是自动标注,并没有经过人类医师的鉴定。团队认为,CheXpert更加适合做Benchmark

你也来比赛吧

既然提供了新的Benchmark,就可以拿来比赛。

吴恩达老师发推宣布,一场疾病识别比赛已经开始了,欢迎大家带着自己的模型去参加。

比赛内容涉及5种疾病的识别:

· 肺不张 (Atelectasis)

· 心脏肥大 (Cardiomegaly)

· 肺实变 (Consolidation)

· 肺水肿 (Edema)

· 胸腔积液 (Pleural Effusion)

为了鼓励小伙伴们前去参与,团队祭出了自家模型里成绩最好的一只:

用500张胸片的测试集来比,这个模型在心脏肥大、肺水肿以及胸腔积液这三项上,超越了前面提到的“另外3位人类医师”

若以粗暴的五局三胜为规则,AI已经赢了。

有兴趣的同学,可以去试试看自己的模型能不能超越斯坦福的AI。数据集和参赛方法都在这里啦:

CheXpert数据集传送门:
https://stanfordmlgroup.github.io/competitions/chexpert/
(注册一下,就会收到下载链接)

CheXpert论文 (AAAI 2019) 传送门:
https://arxiv.org/pdf/1901.07031.pdf

比赛参加方法传送门:
https://worksheets.codalab.org/worksheets/0x693b0063ee504702b21f94ffb2d99c6d/

作者系网易新闻·网易号“各有态度”签约作者

2018中国人工智能领航企业

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

吴恩达发布了大型X光数据集,斯坦福AI诊断部分超越人类 | AAAI 2019相关推荐

  1. x光肺部分割数据集_吴恩达发布了大型X光数据集,斯坦福AI诊断部分超越人类 | AAAI 2019...

    数栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,吴恩达的斯坦福团队发布了一个叫做CheXpert的大型数据集,论文中选了AAAI 2019. 它包含了224,316张标注好的胸部X ...

  2. 调侃吴恩达,Diss特斯拉,吐槽OpenAI…《AI寒冬将至》作者点评2019“AI小丑秀”...

    作者 | Piekniewski 编译 | 夕颜 出品 | AI科技大本营(ID: rgznai100) 导读:去年,一篇<AI寒冬将至>的文章在AI圈爆红,作者观点鲜明地指出AI领域出现 ...

  3. 吴恩达、Jeff Dean、Bengio对话:如何用机器学习应对气候变化 | NeurIPS 2019

    十三 发自 凹非寺  量子位 编译 | 公众号 QbitAI 机器学习该如何加入应对气候变化这场硬仗? 在今年的NeurIPS会议上,机器学习大神们聚集在一起,讨论了人工智能如何应对气候变化对地球生命 ...

  4. 斯坦福吴恩达团队公布最大医学影像数据集

    原作 Jackie Snow Root 编译自 MIT Technology Review 量子位 出品 | 公众号 QbitAI 据报道,全球现在超过17亿人的肌肉骨骼都出毛病,每年大概有3千万的急 ...

  5. 【ML吴恩达】1 机器学习和深度学习和AI的区别

    目录 1 What is machine learning? 2 How machine learning works ? 3 Examples of machine learning 4 Major ...

  6. 吴恩达朋友圈宣布“喜讯”:AI专家王冬岩加入Landing AI...

    未来,王冬岩主要负责Landing AI的客户对接及战略伙伴合作. 25日消息,吴恩达发布一则朋友圈消息,宣布AI专家王冬岩将作为VP AI Transformations加入Landing AI,负 ...

  7. 360题带你走进深度学习!吴恩达深度学习课程测试题中英对照版发布

    吴恩达的深度学习课程(deepLearning.ai)是公认的入门深度学习的宝典,本站将课程的课后测试题进行了翻译,建议初学者学习.所有题目都翻译完毕,适合英文不好的同学学习. 主要翻译者:黄海广 内 ...

  8. 吴恩达:2020 年,这些 AI 大事件让我无法忘怀...

    作者:吴恩达 编译:陈大鑫.贝爽 编辑:青暮 转自:AI科技评论 日前,吴恩达在圣诞节之际回顾了2020年AI的一些重大事件,包括AI应对新冠疫情.数据集存在种族偏见.对抗虚假信息算法.AlphaFo ...

  9. 吴恩达深度学习课程值不值得学?四晚学完的高手给你建议

    8 月 8 日,吴恩达发布了自己的深度学习在线课程,来自全球的 AI 爱好者再次围在这位人工智能专家身边,希望能从这门课里学到更多知识,正在看这篇文章的你或许也想报名参加,先别忙,有位大神花了四个晚上 ...

最新文章

  1. 一般使用机器学习算法遵循的步骤
  2. leetcode算法题--二进制中1的个数
  3. Run application
  4. js中在表格中增加一列的方法_Excel表格中需要提取一列内容末尾的数字,同事分分钟完成...
  5. 腾讯视频下载格式_怎么下载腾讯视频
  6. 在Scala中评估val,var,lazy val和def构造时
  7. 操作系统的进程和线程的相关知识的理解
  8. python之深浅copy与id
  9. android 7.0添加菜单,Android 7.0 settings中添加/删除菜单
  10. Adobe reader 闪退处理办法
  11. VMware搭建linux集群
  12. 手游修改平台服务器代码,怎么把手游代码放在云服务器
  13. java 无领导小组面试,无领导小组讨论面试前的准备不包括:( )
  14. 初学者关于贝叶斯纳什均衡各类符号的一点理解
  15. docker安装gamit_Ubuntu下安装gamit
  16. Android应用 开机自启动
  17. [NEO解题报告]《Leetcode》00 - 汇总
  18. 苹果换原装电池_苹果手机换电池客户必看!苹果原装电池科普鉴别!
  19. 利用Excel Power Query获取基金历史净值、估值和日增长率等信息
  20. 关于TP-Link和水星、迅捷三角关系的传闻~~

热门文章

  1. 学习 Python 这么多年,掉过的那些安全漏洞
  2. qt web混合编程_VS2017+QT 混合编程-在VS控制台程序配置QT
  3. 幸亏有这本623页的微服务框架实战笔记,面试篇
  4. 计算机软件保护问题研究,计算机软件专利保护问题-研究.pdf
  5. python字符串筛选输出_「每日一练」巧用Python对字符串进行筛选
  6. php连接mysql地址_PHP连接mysql
  7. 分析reduce()的原理
  8. php定时备份mysql,Windows服务器中PHP+MySQL设置定时备份
  9. mysql通用mapper_SpringBoot集成tk.mapper通用mapper,针对特殊业务也可写xml文件sql
  10. java long 内存溢出_JAVA内存区域与内存溢出异常