与5位图灵奖得主和100多位专家

共同探讨人工智能的下一个十年

北京智源大会倒计时:2


只有大胆求真的学者,才敢于在四十岁的年龄,在业已成名之际,开启一个完全陌生的研究方向。

MIT 教授 Regina Barzilay 便是这样的学者。

2014年,43岁的她开启了学术的第二生命。作为自然语言处理学者,Regina Barzilay在自动文摘生成、古语言解析等方面享有盛誉。然而在这一年,她却被告知自己罹患了乳腺癌。正当事业辉煌,却遭此噩运,Barzilay经历了一段极为暗淡的时光,随后她重拾勇气,向癌症进军;数年之后,Regina Barzilay 已然成为智慧医疗领域的领军人物。

二排左四。6月22日,MIT 教授 Regina Barzilay 将作为特邀嘉宾在第二届智源大会做主题报告《Learning Molecular Representation》。长按图片免费报名

 作者:智源编辑 贾伟

一、 NLP 巅峰之路

Regina Barzilay,以色列裔美国人,本、硕毕业于以色列 本-古里安大学,随后前往哥伦比亚大学读博,师从著名NLP学者Kathleen McKeown。

Kathleen 是哥大历史上首位女性计算机系主任,其导师为ACL终身成就奖获得者Aravind Joshi。

来到哥大后,Barzilay 选择了自动文本摘要的研究方向。自动文本摘要的历史可以追溯到上世纪 50 年代。然而直到上世纪90年代,基于统计的机器学习方法在NLP领域得到广泛应用后,自动文本摘要的研究才真正兴盛起来。

1997年,Barzilay在ACL上发表了自己的第一篇论文《使用词汇链进行文本摘要》,这篇论文提出了一种摘要融合的技术,这种技术不需要完整语义解释,而是依赖从词法链衍生的文本主题发展模型。这奠定了她在随后多年的研究方向,也引导着她逐步成为该领域的领军人物。

2001年,911事件的发生让Kathleen 和Barzilay产生了将研究应用于实际环境的念头。在当时,几乎所有的媒体都在关注恐怖袭击的事件,每天产生大量新闻,但是追根溯源,会发现这些新闻内容大同小异,对于读者,不得不从大量新闻中获取信息。在Kathleen的支持下(此时Barzilay还是博士生),Barzilay启动了一个新的项目,称为 Newsblaster。这个项目试图将多个在线新闻源的内容进行融合,并生成简洁的摘要,从而减少新闻冗余。Newsblaster 从各种信息源(例如Yahoo、CNN、路透社、华盛顿邮报、今日美国、有线新闻等)寻找相似主题,针对每一个主题,Newsblaster 会在摘要中生成一个句子,并根据解析找出重复短语,然后通过剪切、粘贴等方式,生成该主题新闻事件的摘要。其准确性很高,根据用户调查,其中88%的新闻摘要被认为是可以接受的。

2003年,Regina Barzilay在其博士论文《Information Fusion for Multidocument Summarization: Paraphrasing and Generation》中对这些研究进展做了全面总结,这也成为多文档自动摘要的基石。

博士毕业后,Regina Barzilay去到康奈尔大学,做了为期一年的博士后研究员,随后加入MIT。在此期间,除了继续在文本摘要方面发力外,在计算语言学领域,Barzilay 也创造了一种算法,可以从常用语言(例如英语)中学习注释,从而分析人们理解较少的语言。

次年,Barzilay 便获得了NAACL 2004的最佳论文奖,并于同年入选“2004年科技研究进展榜”;2005年,获得NSF事业奖,同年入选“MIT TR 35”;2006年,又获得IEEE智能系统的“AI Ten to Watch”、微软研究奖、Ross 事业发展教授奖等。

作为一名冉冉升起的新星,Regina 在NLP领域逐渐成为备受关注的焦点人物。

随后,Regina 又先后获得了ACL 2009、SLT 2010、EMNLP2016 的最佳论文奖,NAACL 2014 的最佳学生论文奖,EMNLP 2015的最佳论文提名奖。拿奖拿到手软,此之谓也。但凡资深一些的 NLP 研究者,谁人不识 Barzilay。

二、罹患乳腺癌

一个人可能一条直线、没有波澜地走完一生,也有一些人人到中年却迎来第二次生命——直面生死之后的重生。

2014年,Barzilay仍继续着往年十多篇顶会/顶刊论文的节奏,甚至还获得了NAACL 2014 的最佳学生论文奖。

然而,43岁的 Barzilay 迎来了一个晴天霹雳:她被确诊患有乳腺癌。

“我当时已经43岁,但却是人生中第一次意识到我会死去。”

Barzilay 拿着诊断通知单,走回MIT,走回家里。像所有类似情景中的人一样,她有一种不真实的感觉,怀疑会不会出现了误诊,也抱怨为什么这种事情偏偏出现在自己身上。

阴霾笼罩着这位正处于研究巅峰时期的NLP学者,看着实验室的忙忙碌碌,却无心工作,她常常不知道自己身处何方。那种感觉,突然觉得自己距离这个世界如此遥远。

站在世界的彼岸去反观世界,站在人生的终点去反观人生。如果人有两次生命的话,那么第一次生命是站在生的起点充满期待,而第二次则是站在生的终点重估一切。

在MIT实验室里,Barzilay看到忙碌的学生们。

“OK,他们真的想写论文,这是他们的工作,他们需要继续做他们的事情,这很棒。”

在医院或加入的各种病友圈,Barzilay看到许多病友们或悲观或乐观的生活,他们有的在愁苦终日,有的在放声大笑。

“然而,对我来说,真正重要的事情是什么呢?”

她回顾了自己十多年的科研岁月,设想了自己接下来可能的生活。

“在有限的生命里,我们应当充分利用我们拥有的才华,把它们转化为有用的东西。”

在后来回顾自己的这段经历时,Barzilay提到,当时的她正如十几年前初次站在科学的殿堂面前一样,迷茫,她不知道自己接下来要做什么。

面对生活种种困厄,依然能“扼住命运的喉咙”者,为英雄。Regina Barzilay 无疑是这类英雄。

这时有一个契机。对比Barzilay在 2012 年和 2013 年的乳腺X射线照片,专业的医生根本看不出任何问题;然而到2014年,她的乳腺X射线照片中却“突然”出现了癌细胞。她明白,这种“突然”并非突然,而是因为过于细微,人眼无法分辨;作为一名计算机专家,特别是人工智能专家,Barzilay设想:是否可以用机器学习的方法来提前检测出癌症的发生呢?

所谓“上医医未病”,如果能够提前几年,在治愈率较高的早期阶段检测出癌症的征兆,或许能够让更多人免遭癌症之苦。

机器善于做出预测——“为什么不把所有关于乳腺癌患者的信息都扔进模型中呢?"

三、利用机器学习检测乳腺癌

用机器学习技术做癌症检测,现在已经屡见不鲜。然而在2014年,却还是新的事物。

从沮丧情绪中走出的 Regina Barzilay 开始雄心勃勃地致力于癌症检测的革命性努力,她依靠的是在肿瘤学界基本未被认可的,但对她来说却非常熟悉的工具:机器学习。

正如应用机器学习的其他领域,数据(特别是好的数据)至关重要。

Barzilay 找到了马萨诸塞州综合医院乳腺成像科主任Constance Lehman、Avon综合乳腺评估中心联合主任 Kevin Hughes、乳腺放射肿瘤科主任  Taghian Alphonse。

Barzilay 擅长的领域是NLP。她以及她的学生利用NLP技术,从医院提供的108000份临床报告中提取了关键信息,并创建了一个准确率在98%以上的数据集。

在此基础上,Barzilay联合 Lehman 等人开发了一套基于“随机森林分类器(random-forest classifier)”的机器学习模型,并使用600个病患数据进行训练,在综合家族遗传史、人口统计、以及过往的组织活检和病理报告等信息之后,该模型对 335 个数据(最终升级为癌症的病患)进行测试,结果诊断乳腺癌的准确率达到97%,而传统方法只有79%。

这项研究结果表明:将机器学习模型引入常规诊断,超过30%的良性病灶切除术是可以避免的。

而另一方面,该技术的工作速度比人工检查快100倍——医生需要50-70个小时来分析50名乳腺癌患者,而该使用机器学习方法只需要30分钟。

2016年,Regina Barzilay等人发布了利用机器学习分析乳腺癌的权威报告《Using Machine Learning to Parse Breast Pathology Reports》,这份报告奠定了Barzilay在智能医疗领域的地位。

相关的研究仍在继续,Barzilay的传奇仍在继续。

2017年,获得麦克阿瑟奖;(这个奖项还有另一个说法,即“天才奖”,奖励那些做出巨大创新的人)

2017年,入选ACL Fellow;

2018年,入选AAAI Fellow;

2019年,入选“药物发现和先进医疗领域 Top 100 的 AI 领导者“。

……

四、使命  

Barzilay 的研究并非仅仅局限于乳腺癌检测。

NLP 研究仍在继续,延续往年,每年仍有十多篇顶会论文。2015年获得EMNLP最佳论文提名奖,2016年则获得 EMNLP 最佳论文奖;最近,他们更提出了一种自动破译已消失语言的神经方法,正确翻译率达到67.3%。

此外,从癌症检测出发,Barzilay也逐渐过渡到药物发现领域,今年 2月份她在Cell上发表了封面文章《A Deep Learning Approach to Antibiotic Discovery》,类似于之前向癌症检测进军的总结,这篇文章也是Barzilay教授向药物发现领域进军的盘点。

Barzilay 与 Tommi Jaakkola 等人合作 MIT 6.036 (机器学习入门)也曾火爆全网,成为入门人工智能的“必修课”之一。

在接受MIT知名学者 Lex Fridman 的采访中,Regina提到:

我们每个人都有自己认为最重要的事情,然而现实中我们却忙于实现各种各样的目标,忙于倾听他人的声音,努力成为人群中的一部分,却很少有时间去正视自己的那一部分。

我们应该抽出一些时间来了解我们自己的个人任务。我们要确保,即使在同时处理一万件事情,也要把所有的资源投入到自己使命的实现上。

回顾我自己的过往。在我年轻时,我的大部分任务都是受外部刺激而做的;而现在,我要为我的使命负责。但不管是哪种方式,对我而言,最重要的是忠实于我认为对的事情。

参考资料:

[1]http://people.csail.mit.edu/regina/

[2]MIT教授罹患乳腺癌,用NLP甄别患者胸前“定时炸弹”,

https://www.leiphone.com/news/201702/p8v6bxeqe99bKlie.html

[3]Putting data in the hands of doctors,https://news.mit.edu/2017/putting-data-in-the-hands-of-doctors-regina-barzilay-0216

[4]三位女科学家用AI算法将乳腺癌筛查速度提高100倍,

http://www.techwalker.com/2017/1023/3099554.shtml

[5]https://www.aminer.cn/profile/regina-barzilay/53f4567bdabfaeee22a34751

[6]Cell | 利用深度学习发现新型抗生素, https://www.sohu.com/a/374703970_650136

[7]Regina Barzilay: Deep Learning for Cancer Diagnosis and Treatment | Artificial Intelligence Podcast, https://www.youtube.com/watch?v=x0-zGdlpTeg

- 点击阅读原文或长按图片,内行盛会,首次免费注册-

MIT教授Regina Barzilay:用机器学习扼住命运的喉咙相关推荐

  1. 线性代数与数据学习:MIT教授Gilbert Strang帮你打下坚实的数学基础

    机器之心编辑,作者:思源.刘晓坤. MIT 教授 Gilbert Strang 最新书籍<线性代数与数据学习>(Linear Algebra and Learning from Data) ...

  2. PyTorch核心加速技术涉嫌抄袭?MIT教授创业公司将Facebook告上法庭

    点击"开发者技术前线",选择"星标????" 在看|星标|留言,  真爱 机器之心报道 PyTorch 今天已经成为全球最主流的深度学习框架之一,然而其开源的一 ...

  3. MIT教授: 世界就是《黑客帝国》,人类在模拟游戏中扮演角色

      转载于 新智元   编辑:元子 MIT教授认为我们目前有50%-100%的概率生活在<黑客帝国>那样的计算机模拟世界中,所谓现实可能不过是一种幻觉.而距离我们创建自己的模拟世界,最多需 ...

  4. 盘点丨MIT教授Poggio:过去23年,机器学习取得了哪些进步

    <麻省理工科技评论>新兴科技峰会EmTech China今日于北京正式召开.麻省理工大学计算机科学&人工智能实验室教授Tomaso Poggio出席并做主题演讲. 以下是Poggi ...

  5. 86岁还在录网课:MIT教授Gilbert Strang最新「线性代数」课程上线

    机器之心报道 参与:张倩.Jamin.Raccon X 讲 MIT 线性代数经典课程的 Gilbert Strang 教授已经 86 岁高龄了.他的书被清华选作教材,课程吸引了国内外大批学子.如今疫情 ...

  6. MIT教授Tomaso Poggio演讲与专访:智能背后的科学与工程 | 腾讯AI Lab学术论坛

    来源:腾讯AI实验室 腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗.游戏.多媒体内容.人机交互等四大领域的跨界研究与应用.全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与 ...

  7. 86岁还在录网课:MIT教授Gilbert Strang最新「线性代数」课程上线,被清华选作教材...

    转自:机器之心 参与:张倩.Jamin.Raccon X 讲 MIT 线性代数经典课程的 Gilbert Strang 教授已经 86 岁高龄了.他的书被清华选作教材,课程吸引了国内外大批学子.如今疫 ...

  8. MIT | 数据分析、信号处理和机器学习中的矩阵方法 笔记系列 Lecture 6 Singular Value Decomposition (SVD)

    本系列为MIT Gilbert Strang教授的"数据分析.信号处理和机器学习中的矩阵方法"的学习笔记. Gilbert Strang & Sarah Hansen | ...

  9. 量子态太「脆弱」如何纠错?MIT教授Peter Shor多年研究得到验证

    # 机器之心 量子计算的一个目标就是以指数级倍数超过传统经典计算机的速度,但是在量子计算机中,量子比特比较脆弱,因为每个量子比特都处于 0 和 1 的混合状态,任何检测它们的方式都会直接破坏数据.来自 ...

最新文章

  1. 年后跳槽BAT必看:10种数据结构、算法和编程课助你面试通关
  2. 重大合同实为旧事 数据港信披被上交所问询
  3. 活动目录最佳实践分析器
  4. struts2 中文乱码问题
  5. No module named ‘sklearn.utils.linear_assignment_‘
  6. [学习笔记]51单片机
  7. windows 10 内置bash 安装32位支持
  8. java打出三角形乘法表_Java 练习(输出三角形,九九乘法表, 100以内的质数)
  9. assistant字体_如何使用Google Assistant设置和致电家庭联系人
  10. matlab title多个标题_MATLAB中的直方图处理及均衡化
  11. 第十章 动态选路协议
  12. 【完美解决方案】module ‘cv2.cv2‘ has no attribute ‘xfeatures2d‘
  13. 乐玩自动化测试模块_五大测试框架介绍,附带全套黑马自动化测试视频教程(完结)...
  14. 人脸识别主要算法原理
  15. 计算机专业核心期刊好发吗,计算机核心期刊容易发吗
  16. 面试中单例模式有几种写法
  17. Alphabetic Removals详解(特殊算法巧解)
  18. FME会员期刊(2012冬季版)
  19. 考公 | 粉笔网课笔记——数量 刘凯
  20. 大数据技术之Spark Streaming概述

热门文章

  1. jdbc mysql查询整行信息_JDBC获取数据库各种信息
  2. 示波器_你真的懂示波器嘛?面试中会用到的示波器知识
  3. c++ 界面交互影响处理代码执行速度_原创 | 某SCADA的远程代码执行漏洞挖掘与利用...
  4. 监控摄像头服务器维护要多久,监控摄像机如何维护 这几点要牢记
  5. 设计一个user类(Java)
  6. 【c语言】蓝桥杯算法训练 大小写转换
  7. python电影情感评论分析_Kaggle电影评论情感分析
  8. 怎么重置mysql密码是多少钱_mysql怎么重置密码
  9. Android端访问服务器核心代码
  10. Alchemy环境的搭建