文:贾伟

使用AI技术来检测乳腺癌,如今已有诸多研究,但大多是基于磁共振、乳腺X线影像进行预测。而超声是中国女性乳腺癌筛查的主要方式。如何利用好超声影像,进行乳腺癌筛查,并对乳腺癌做分子亚型分类,是中国AI医疗领域一个重要且有待拓展的方向。

清华大学、北京智源人工智能研究院以及北京协和医院的研究团队在这一方向进行合作,在2020年 6月份曾发布一项基于VGG模型,对超声影像进行良/恶性检测 及分子亚型分类的深度神经网络模型SonoBreast,当时模型在乳腺癌分子分型上的准确率为56.3%,F1 Score为45.8%。

研究团队经过数月对数据集预处理算法和训练模型的改进,根据近期公布结果,这一模型的分子分型准确率提升了近20个点,达到 76%;而在二分类问题上可以达到93%的准确率。

从临床的角度来看,这些结果距离使用还有很远的距离,但却代表了几个新颖的研究路径:

  • 尝试使用超声图像,由于超声检查具有无创、简便、动态等优点,能让模型更简便、具有普遍适用性;

  • 进行分子亚型检测而非仅仅良/恶检测。分子亚型的检测,使用肉眼往往是无法分辨的,但对于乳腺癌治疗方案却有重要的指导价值,以往只能通过活检手段才能进行判断;

  • 使用联邦学习技术,将多家医院的数据进行结合,做到数据不出本地,但训练效果共享。

01

当前乳腺癌检测所遇到的困难

女性乳腺是由皮肤、纤维组织、乳腺腺体和脂肪组成的,来源于乳腺导管和小叶上皮的恶性肿瘤是最常见的乳腺恶性肿瘤。

正如我们所知道的大多数癌症一样,原位乳腺癌(不会转移),并不致命;但一旦乳腺癌细胞丧失正常细胞的特性,细胞之间连接松散,游离的癌细胞就可以随血液或淋巴液播散全身,形成转移,危及生命。

根据世界卫生组织(WHO)的报告,2018 年全球新增 209 万乳腺癌病例,其中 62.7 万为死亡病例, 中国每年有近 4 万多女性死于本病。

早发现、早诊断,是提高乳腺癌疗效的关键所在。当下对乳腺癌的检测包括乳腺 X 线摄影、超声(US),必要时则进行乳腺磁共振检查(MRI)。

乳腺 X 线摄影

乳腺超声

乳腺磁共振

乳腺 X 线摄影是近年来国际上推荐的乳腺癌筛查中的主要方法,这种方法较适用于乳腺密度相对较低的女性,而乳腺超声则相对比较适合于致密性乳腺。

亚洲女性的乳腺密度相对致密,对于致密型乳腺,超声相较于乳腺X线有较高的敏感性,且对人体没有辐射伤害。因此在中国,大多体检会偏向于使用 超声。中国也是目前世界范围内乳腺癌超声数据最为丰富的国家。”

当然通过这种方式,医生仅能得出一个良/恶的初步判断,对于乳腺癌的分子亚型,人眼是无法察觉的。

由于乳腺癌在治疗效果、药物反应、预后等方面存在异质性,而这些,根据目前的临床认识,乳腺癌的分子亚型是患者治疗方式选择的重要依据。乳腺癌的分子分型分为Luminal A 型,Lunimal B型,HER-2过表达型和三阴(TN)型四种。其中三阴型乳腺癌具有更强的侵略性,且预后最差。

因此即使已知是乳腺癌,若想做出最佳的治疗方案,还需要判定其分子亚型。目前的医疗手段一般是,通过活检(穿刺等)获取病灶组织进行免疫组化检测,从而获得乳腺癌的亚型类型。

这种手段的缺点在于:

  • 检测成本高,并非所有国家和地方都能够提供相应的医疗条件;

  • 活检或手术属于侵入性方法,具有一定风险;

  • 前置时间较长,一般需要数周或数月;

  • 更为严重的是,肿瘤具有异质性,因此在肿瘤中取样出的组织可能不能代表整个肿瘤的分子亚型,由此可能会导致不佳的治疗决定和不准确的预后。

显然,针对检测这种高成本、长周期、有损伤,且局部非代表性的问题,最佳的取代手段就是 AI 。

02

端到端:输入超声图像,输出分子亚型结果

正如前面提到的,尽管国际上 AI 乳腺癌检测的方法大部分集中于磁共振和乳腺X线,但针对国内群体,最佳的检测数据应是超声图像。

这也正是 SonoBreast 研究项目的重要意义的体现。研究人员毕明杰表示,“目前有许多从遗传学、分子、细胞层面对乳腺癌分子亚型进行研究的,但使用超声做分子亚型检测,似乎还没有人做。”

遗传学、分子、细胞层面的检测,是在活检之后,无法避免刚才提到的诸多缺点。

乳腺癌超声图像预测

而作为对比,SonoBreast,只需要将一张超声图片输入,便可以在几秒钟之内获得分子亚型的分类结果。目前,研究团队已经发布了Web端接口(open.baai.ac.cn/sonobreast),任何人都可以上传超声图像,从而获得一个可借鉴的预测结果,这个结果包含了对每种亚型的预测置信度。

这种方案的关键点在于将超声图像与分子亚型之间建立相关性,从而准确预测患者的预后,通过无创且全局的方式协助临床上医生做出医疗决策。

例如:

  • 复发性乳腺癌的分子亚型可能会发生变化,SonoBreast采用超声图像端到端的预测方式,有望避免因为需要额外亚型评估而重复活检。

  • 对于晚期乳腺癌,SonoBreast有望让这部分患者避免活检和手术,通过无创准确的术前评估方式提供患者的分子亚型信息,辅助医生更快速准确地制定治疗方案。

  • 如果在手术之前能预测出乳腺癌的亚型为三阴型,那么可能会选择更为激进的治疗方式,例如做全乳切除而非保乳。

03

数据更为重要

SonoBreast 模型使用了卷积神经网络 VGG-19进行特征提取,然后将特征送入到全连接层进行二分类(这里采用标准的二分类方法),并将所有层从头开始训练。

这里没有采用ImageNet 的任何预训练,因为,据模型的设计者毕明杰介绍,“ImageNet 中都是一些自然图片,这与超声的特征差别很大,ImageNet 的预训练模型并不会带来任何好处。”

毕明杰,法国留中学者,师从清华大学唐杰教授

事实上,实验人员表示,“目前来看,具体使用哪种模型影响并不是很大,我们也尝试了DenseNet 121 和 ResNet 152结果差不多,起关键作用的还是数据。”

研究人员的数据主要来源于协和医院。在这次合作中,协和医院提供了750例乳腺癌病例,其中包括5000多张乳腺癌超声影像,并且对分子分型进行了标注。

与半年前的版本不同的是,最新版本的模型性能的提升很大程度上依赖于模型训练前期中对图像的处理。据毕明杰介绍,数据在输入到CNN模型之前,首先会使用一个被称为“自适应直方图均衡”的方法对特殊的图像进行变换,然后采用一个自主研发的切分算法对超声波图像中的不相关边界信息进行过滤和切除,这种边界的去除意义非常大,也是性能提升近 20%的关键点之一。

另一方面,研究团队表示,目前正在进行更多数据的可能性探讨,例如将数据再增加10000张乳腺癌超声影像,以其能够进一步提升模型性能。

为了进一步扩大数据集,研究团队也与智源研究院的数据中心进行合作,希望通过联邦学习的技术,将多家医院的超声影像进行联合训练,从而提升模型效果。联邦学习,作为一种新型的人工智能基础技术,它能够保证数据不出本地(例如不出医院的数据库)的同时,让多个单位的数据进行协同训练,从而保证了在数据效果叠加的基础上,还能够确保各单位的数据隐私。

当然,技术的本质在于对社会产生价值。毕明杰表示,

“我们随后将提供乳腺癌超声影像数据,从而sonobreast.ai上举行一些公开的机器学习竞赛,让大家共同来推动中国在乳腺癌领域的研究;

另一方面,我们希望能够将SonoBreast 免费提供给每一个医生和病人,建立个案管理,进行病例的上传和管理,从而更加有效地设计治疗方案。”


点击左下角“阅读原文”,了解更多!

免费开放!清华、智源、协和联合开发乳腺癌AI诊断工具,可预测分子亚型,准确率高达76%...相关推荐

  1. 智源-知乎联合发布大规模用户关系数据集,同步开启10万元竞赛

    2019 年 9 月,北京智源人工智能研究院联合知名的综合性社区平台知乎.数据评测平台 biendata,共同发布了近 200 万用户和 1000 万邀请数据的 Link prediction 大型数 ...

  2. 这个“1句话生成视频”AI爆火:支持中文输入,分辨率达到480×480,清华智源出品...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 一周不到,AI ...

  3. 6位图灵奖得主,10多位院士,19个分论坛:北京智源大会邀你共同探索AI下一个十年...

    长按上图或点击「阅读原文」免费注册参会 2020年,是一个十年的结束,也是下一个十年的开始. 过去十年,人工智能在深度学习算法.大规模算力和新型芯片.互联网收集的海量数据等因素的共同驱动下,经历了波澜 ...

  4. “双轮驱动”突破瓶颈,智源研究院发布“自然语言处理”重大研究方向,携手京东打造联合实验室...

    2019年10月8日,北京智源人工智能研究院(以下简称"智源研究院")在清华大学FIT楼举行了"自然语言处理"重大研究方向暨"北京智源-京东跨媒体对话 ...

  5. 研究院正式启动“智源学者计划”,公布候选人名单,并发布首个联合实验室...

    4月16日,北京智源人工智能研究院在北京会议中心召开"智源学者计划启动暨联合实验室发布会".北京市科委副主任张光连.海淀区委常委.副区长李俊杰.北京科技创新投资管理有限公司董事长刘 ...

  6. 强强联合!智源x清华AIR,共启 AI 健康研究新篇章

    北京智源人工智能研究院 清华大学智能产业研究院(AIR) 两所极具代表性的创新型 AI 研究院,强强联手成立「清华(AIR)- 智源健康计算联合研究中心」 ,马维英任联合中心主任. 中心将致力于通过人 ...

  7. 47万实例数据集,智源联合旷视发布2020 CrowdHuman人体检测大赛

    2020 年 5 月,北京智源人工智能研究院联合旷视科技共同开启了2020 CrowdHuman人体检测大赛,并同步发布了大规模人体检测数据集.本次比赛的训练集和验证集共有470,000个人类实例,平 ...

  8. 360、美团、快手等公司携手智源研究院共建AI开放实验室

    "360人工智能算法服务每天被调用数十亿次,支持数亿用户的互联网服务.未来,这些AI能力都将投入到多模态大数据开放实验室的共建中."近日,在智源研究院举办的北京国家新一代人工智能创 ...

  9. 活动 | 智源学者计划启动暨联合实验室发布会(4月16日)

    Conference 智源发布会 /// 智源学者计划启动 & 联合实验室 4月16日14:00-16:00 北京会议中心·东会议厅 北京智源人工智能研究院自2018年11月成立以来,按照&l ...

最新文章

  1. Android开发之大位图二次采样压缩处理(源代码分享)
  2. golang TCP Socket编程
  3. layer.js 使用
  4. 使用文本挖掘实现站点个性化推荐
  5. [linux]ps结果计算行数
  6. useReducer使用和原理
  7. 苹果mac视频音频格式转换软件:Permute
  8. 视易精通收银服务器自动关机,视易精通量贩式收银系统操作手册3.0
  9. win7文件共享服务器搭建,Win7下搭建web服务器实现数据共享的简单步骤
  10. 用于视力恢复的脑机接口综述(一)
  11. poj1386 Paly onWords
  12. 【此间乐,不思蜀】 大一不想咸鱼的暑假7.17
  13. android直播流渲染,Android手机直播之处理技术分析
  14. linux firefox 背景色,火狐Firefox 72浏览器滚动条将自适应网页背景色
  15. 滴滴出行app——网约车出行的背后(上)
  16. what is VC维
  17. 如何设计出用户喜爱的API
  18. 产业分析:科技产业投资新风向
  19. 可编程 USB 转串口适配器开发板专用工具 S2STool 介绍
  20. java万年历设计报告_JAVA《万年历系统》课程设计报告附源码.doc

热门文章

  1. python中如何判断输入的是英文字母_python如何判断一个字符是否为汉字,英文字母,数字,空还是其他...
  2. 如何判断模糊图像_图像翻译三部曲:pix2pix, pix2pixHD, vid2vid
  3. 将一维数组的值逆序输出
  4. 编写程序判断等腰、等边或者普通三角形
  5. 【c语言】蓝桥杯算法提高 P0101
  6. java thread通知_JAVA 多线程(6):等待、通知 (1)
  7. ack strom 保证只有一次_Storm容错机制(一):ACK机制
  8. 如何用excle制作黑人拉馆_家居DIY带你学习如何用塑料勺制作壁挂!
  9. mn之间的回文数c语言,c语言描述回文数的三种算法
  10. css BEM书写规范