在刚刚结束的 NIPS Challenge on Predicting the Genetic Variants to Enable Precision Medicine (organized by MSKCC)中,康奈尔大学威尔医学院助理教授王飞所带领的实验室在1300多个参赛队伍中脱颖而出,获得前三的成绩。王飞教授特为新智元撰写此文,介绍研究成果。

2017年11月8日,国家会议中心,王飞教授将在AI WORLD 2017世界人工智能大会AI Industry论坛进行以《人工智能与智慧医疗》为题的主题演讲。

一年一度的神经信息处理大会(NIPS)将于今年12月在加州长滩召开。由于近些年来机器学习以及人工智能的兴起,NIPS更是成为了一年一度相关方向学者不容错过的盛会。今年的NIPS更是门票早早便已售罄,连赞助商的席位也都已经soldout。

NIPS Competition是今年新增的环节,旨在吸引众多的机器学习爱好者来用他们所知道的方法来解决实际问题。由于我本人从事医疗健康方面的研究,就鼓励我实验室的人员参加其中的基因变异分类(Classifying Clinically Actionable Genetic Mutations)挑战。经过调研,大家也都感兴趣,所以一拍即合,一做就是四个月。

该挑战是由著名的Memorial Sloan Kattering Cancer Center (MSKCC)组织。众所周知在强调精准医疗的今天,理解不同的基因变异是一个核心问题。这个挑战就是根据基因的名字以及其出现的变异来预测该基因变异所属的类别,在竞赛中一共有9类,但并没有对这9类有明确的描述。也就是说,我们只有类别代号,没有类别信息。除此之外,对于每一个基因和对应的变异,还有一篇相应的学术文章,正是该学术文章提到了这个特定的基因变异对。

因此这个挑战实际上是一个9个类别的多分类问题,可以用到的信息有基因名字,变异描述以及提到的文章。在实际当中,对基因变异的分类由分子病理(MolecularPathologist)学家完成,这通常需要长时间的专业训练。即便如此,他们也经常会有不同的意见,从而有分类不一致的现象,因此这是一个非常困难的问题。挑战的组织者将竞赛设成两个阶段,第一阶段有大约三个月,而第二阶段只有一周。第一阶段与第二阶段的测试数据完全不一致。竞赛的组织者为了获得第二阶段的数据,重新组织了专家进行标注,而且这些专家与第一阶段的略有不同。并且第二阶段有新的变异出现,这些变异从未在第一阶段的数据中出现过。这是一个费时费力的过程,两个月之内只能得到150个新的标注。

显然该挑战涉及自然语言处理和机器学习,但又有些独特的挑战。比如竞赛数据中包含的文章通常都很长,是整片的学术文章,而其中只有很小一部分提到基因和变异。这就使得训练数据中有大量的噪声。不仅如此,基因和变异还有有别名,我们试图在文章中匹配基因和变异时经常匹配不上。还有就是一篇文章中经常会多次提到不同的基因和不同的变异,这给预测带来了更多的难度。

为了解决这一问题,我们提出了如下图所示的框架。输入包括基因以及变异本身的名字以及相应的文章。我们从中提取三个级别的特征,第一是它们的名字本身,第二是提到它们的整篇文章,第三是从整篇文章中提取的包含提到基因和变异的句子。这些特征中既包括了相对直接的特征,例如文本长度以及某些关键词的词频,又包括间接特征,例如通过LatentDirichlet Allocation (LDA)以及非负矩阵分解(NMF)降维得到的特征,以及通过词嵌入(word2vec)和文本嵌入(Doc2Vec)得到的特征。我们花费了非常大的功夫在特征工程上,测试了各种深度学习和非深度学习的方法,最终确定了20类特征(如表格中所示)。随后这些特征通过不同的组合输入到分类器当中,我们也测试了很多种分类器,最终根据效果选定了GradientBoosting Decision Tree (GDBT)。不同分类器的预测结果又被集成(Ensemble)起来,从而得到最终的预测。在特征工程的过程中,为了解决别名的问题,我们还利用了额外的数据,包括PubMed上相关文章的题目和摘要,以及一些额外的基因和变异的名称库。我们后面会写一篇学术文章详细介绍各个环节。

该竞赛吸引了全球超过1300个队伍参赛,最终我们的方法被选为最顶尖的解决方案之一,并获邀在NIPS的Competition Workshop上进行报告。我们会通过这个竞赛建立与MSKCC的合作,从而继续完善我们的方法并希望能最终应用在临床医学当中,为医学研究作出贡献。

AI World 2017 世界人工智能大会(11月8日,北京国家会议中心)上,我们邀请到了本文作者、康奈尔大学威尔医学院助理教授王飞,为我们现场解读人工智能技术在医疗应用中的常见误区及挑战,并展望发展趋势。

王飞,博士,康奈尔大学威尔医学院助理教授,IBM沃森研究中心顾问,法国液空集团研究顾问。曾任职于康涅狄格大学以及IBM沃森研究中心。他于2008年在清华大学自动化系获得博士学位,其博士学位论文“图上的半监督学习算法研究”获得了2011年全国优秀博士论文奖。主要研究方向包括数据挖掘,机器学习技术在医疗信息学中的应用。王飞博士已经在相关方向的顶级国际会议和杂志上发表了近190篇学术论文,引用超过5000次,H指数39。

原文发布时间为:2017-11-4

本文作者:王飞

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【NIPS挑战赛优胜解】用机器学习判断基因变异所属类别

【NIPS挑战赛优胜解】用机器学习判断基因变异所属类别相关推荐

  1. html计算平均分,Calculate phastCon Score for a gene —- 计算基因的phastCon平均分,判断基因保守型...

    Calculate phastCon Score for a gene -- 计算基因的phastCon平均分,判断基因保守型 PhastCon socre is the score from 0 t ...

  2. JZOJ 100047. 【NOIP2017提高A组模拟7.14】基因变异

    Description 21 世纪是生物学的世纪,以遗传与进化为代表的现代生物理论越来越多的 进入了我们的视野. 如同大家所熟知的,基因是遗传因子,它记录了生命的基本构造和性能. 因此生物进化与基因的 ...

  3. JZOJ100047.基因变异 (Standard IO)

    \[Description\] 21 世纪是生物学的世纪,以遗传与进化为代表的现代生物理论越来越多的 进入了我们的视野. 如同大家所熟知的,基因是遗传因子,它记录了生命的基本构造和性能. 因此生物进化 ...

  4. UOJ #577. 基因变异

    [题目描述]:21 世纪是生物学的世纪,以遗传与进化为代表的现代生物理论越来越多的进入了我们的视野.如同大家所熟知的,基因是遗传因子,它记录了生命的基本构造和性能.因此生物进化与基因的变异息息相关,考 ...

  5. signature=d363d26bda212f777fef81d270ecd42b,基于DNA-pooling全基因组重测序初步筛查CAD易感基因变异位点...

    摘要: 目的:应用DNApooling全基因组重测序技术初步筛查CAD易感基因变异位点并进行功能分析.方法:分别收集CAD病例组血液样本和正常对照组血液样本各100例.提取病例组和对照组DNA,制作D ...

  6. VarCards网址变更: 人类重大疾病基因变异解读数据库及分析平台

    ⌈ 医见生信 ⌋ 是中南大学"医学生物信息学课题组"运营的公众号,本研究团队立足于帕金森病和孤独症为代表的神经精神类疾病,利用计算生物学.生物信息学和医学遗传学的方法探究疾病发生发 ...

  7. 强迫症相关人类基因变异找到

    2019独角兽企业重金招聘Python工程师标准>>> 英国<自然·通讯>杂志近日在线发表的一篇遗传学论文报告称,科学家成功鉴别出与强迫症(OCD)相关的人类基因变异,找 ...

  8. mLife | 刘星吟等肠道菌群、基因变异和饮食互作介导孤独症的发生

    南京医科大学基础医学院刘星吟教授的观点文章"The interaction of gut microbiota, genetic variation and diet in Autism S ...

  9. Python工程能力进阶、数学基础、经典机器学习模型实战、深度学习理论基础和模型调优技巧……胜任机器学习工程师岗位需要学习什么?...

    咱不敢谈人工智能时代咋样咋样之类的空话,就我自己来看,只要是个营收超过 5 亿的互联网公司,基本都需要具备机器学习的能力.因为大部分公司盈利模式基本都会围绕搜索.推荐和广告而去. 就比如极客时间,他的 ...

  10. 易优cms if 条件判断标签使用方法

    [基础用法] 标签:if 描述:条件判断,比switch判断标签更灵活些,视个人习惯而用. 用法: {eyou:if condition='($eyou.field.has_children > ...

最新文章

  1. Java实现双向链表
  2. 跟我学 Java 8 新特性之 Stream 流(二)关键知识点
  3. @Value(${xxxx})注解的配置及使用
  4. php-fpm配置文件,指定session保存目录
  5. 动态规划之0-1背包问题
  6. 关于使用easyUI遇到过的一些坑
  7. WinAPI: midiOutSetVolume - 设置 MIDI 输出设备的音量
  8. 达内android 代码,【达内唯一总部】Android实现获取系统应用列表-达内Android分享...
  9. 网络编程实战之在线电子词典
  10. python学生信息管理系统课程设计实验报告_学生信息管理系统课程设计报告.docx...
  11. Codepen 每日精选(2018-3-26)
  12. idear怎么设置自动导包
  13. 用VB操作注册表 [转]
  14. 南卡的电容笔对比倍思哪个好?南卡和倍思电容笔测评
  15. 国外大学网上免费课程
  16. FIR 线性相位系统 最小相位系统 滤波器延迟
  17. 人事管理系统是什么?HR系统有什么用?
  18. ko 绑定html,WeX5的正确打开方式(3)——绑定机制
  19. Word另存为PDF时出现“错误!未找到引用源”的解决
  20. html5语音闹钟代码,HTML5+CSS3闹钟动画特效源码

热门文章

  1. scrapy爬取彼岸图网照片(搜索关键字,去重)
  2. Vmware中桥接无法获取IP
  3. Python实现简繁体转换,现在的人玩得老花了
  4. Excel VBA打开IE浏览器的网页
  5. 使用Java将中文转化为拼音
  6. 我是路人甲,请你为我祝福
  7. 苹果笔记本电脑怎么编辑html,苹果笔记本电脑怎么操作 苹果笔记本电脑操作方法【详解】...
  8. 浅谈交互设计师的未来
  9. ReadyState的五种状态详解
  10. 怎么给PDF文档加页码,PDF文档加页码的方法