MIT教授Regina Barzilay：用机器学习扼住命运的喉咙

与5位图灵奖得主和100多位专家

共同探讨人工智能的下一个十年

北京智源大会倒计时：2天

只有大胆求真的学者，才敢于在四十岁的年龄，在业已成名之际，开启一个完全陌生的研究方向。

MIT 教授 Regina Barzilay 便是这样的学者。

2014年，43岁的她开启了学术的第二生命。作为自然语言处理学者，Regina Barzilay在自动文摘生成、古语言解析等方面享有盛誉。然而在这一年，她却被告知自己罹患了乳腺癌。正当事业辉煌，却遭此噩运，Barzilay经历了一段极为暗淡的时光，随后她重拾勇气，向癌症进军；数年之后，Regina Barzilay 已然成为智慧医疗领域的领军人物。

二排左四。6月22日，MIT 教授 Regina Barzilay 将作为特邀嘉宾在第二届智源大会做主题报告《Learning Molecular Representation》。长按图片免费报名

作者：智源编辑贾伟

一、 NLP 巅峰之路

Regina Barzilay，以色列裔美国人，本、硕毕业于以色列本-古里安大学，随后前往哥伦比亚大学读博，师从著名NLP学者Kathleen McKeown。

Kathleen 是哥大历史上首位女性计算机系主任，其导师为ACL终身成就奖获得者Aravind Joshi。

来到哥大后，Barzilay 选择了自动文本摘要的研究方向。自动文本摘要的历史可以追溯到上世纪 50 年代。然而直到上世纪90年代，基于统计的机器学习方法在NLP领域得到广泛应用后，自动文本摘要的研究才真正兴盛起来。

1997年，Barzilay在ACL上发表了自己的第一篇论文《使用词汇链进行文本摘要》，这篇论文提出了一种摘要融合的技术，这种技术不需要完整语义解释，而是依赖从词法链衍生的文本主题发展模型。这奠定了她在随后多年的研究方向，也引导着她逐步成为该领域的领军人物。

2001年，911事件的发生让Kathleen 和Barzilay产生了将研究应用于实际环境的念头。在当时，几乎所有的媒体都在关注恐怖袭击的事件，每天产生大量新闻，但是追根溯源，会发现这些新闻内容大同小异，对于读者，不得不从大量新闻中获取信息。在Kathleen的支持下（此时Barzilay还是博士生），Barzilay启动了一个新的项目，称为 Newsblaster。这个项目试图将多个在线新闻源的内容进行融合，并生成简洁的摘要，从而减少新闻冗余。Newsblaster 从各种信息源（例如Yahoo、CNN、路透社、华盛顿邮报、今日美国、有线新闻等）寻找相似主题，针对每一个主题，Newsblaster 会在摘要中生成一个句子，并根据解析找出重复短语，然后通过剪切、粘贴等方式，生成该主题新闻事件的摘要。其准确性很高，根据用户调查，其中88%的新闻摘要被认为是可以接受的。

2003年，Regina Barzilay在其博士论文《Information Fusion for Multidocument Summarization: Paraphrasing and Generation》中对这些研究进展做了全面总结，这也成为多文档自动摘要的基石。

博士毕业后，Regina Barzilay去到康奈尔大学，做了为期一年的博士后研究员，随后加入MIT。在此期间，除了继续在文本摘要方面发力外，在计算语言学领域，Barzilay 也创造了一种算法，可以从常用语言（例如英语）中学习注释，从而分析人们理解较少的语言。

次年，Barzilay 便获得了NAACL 2004的最佳论文奖，并于同年入选“2004年科技研究进展榜”；2005年，获得NSF事业奖，同年入选“MIT TR 35”；2006年，又获得IEEE智能系统的“AI Ten to Watch”、微软研究奖、Ross 事业发展教授奖等。

作为一名冉冉升起的新星，Regina 在NLP领域逐渐成为备受关注的焦点人物。

随后，Regina 又先后获得了ACL 2009、SLT 2010、EMNLP2016 的最佳论文奖，NAACL 2014 的最佳学生论文奖，EMNLP 2015的最佳论文提名奖。拿奖拿到手软，此之谓也。但凡资深一些的 NLP 研究者，谁人不识 Barzilay。

二、罹患乳腺癌

一个人可能一条直线、没有波澜地走完一生，也有一些人人到中年却迎来第二次生命——直面生死之后的重生。

2014年，Barzilay仍继续着往年十多篇顶会/顶刊论文的节奏，甚至还获得了NAACL 2014 的最佳学生论文奖。

然而，43岁的 Barzilay 迎来了一个晴天霹雳：她被确诊患有乳腺癌。

“我当时已经43岁，但却是人生中第一次意识到我会死去。”

Barzilay 拿着诊断通知单，走回MIT，走回家里。像所有类似情景中的人一样，她有一种不真实的感觉，怀疑会不会出现了误诊，也抱怨为什么这种事情偏偏出现在自己身上。

阴霾笼罩着这位正处于研究巅峰时期的NLP学者，看着实验室的忙忙碌碌，却无心工作，她常常不知道自己身处何方。那种感觉，突然觉得自己距离这个世界如此遥远。

站在世界的彼岸去反观世界，站在人生的终点去反观人生。如果人有两次生命的话，那么第一次生命是站在生的起点充满期待，而第二次则是站在生的终点重估一切。

在MIT实验室里，Barzilay看到忙碌的学生们。

“OK，他们真的想写论文，这是他们的工作，他们需要继续做他们的事情，这很棒。”

在医院或加入的各种病友圈，Barzilay看到许多病友们或悲观或乐观的生活，他们有的在愁苦终日，有的在放声大笑。

“然而，对我来说，真正重要的事情是什么呢？”

她回顾了自己十多年的科研岁月，设想了自己接下来可能的生活。

“在有限的生命里，我们应当充分利用我们拥有的才华，把它们转化为有用的东西。”

在后来回顾自己的这段经历时，Barzilay提到，当时的她正如十几年前初次站在科学的殿堂面前一样，迷茫，她不知道自己接下来要做什么。

面对生活种种困厄，依然能“扼住命运的喉咙”者，为英雄。Regina Barzilay 无疑是这类英雄。

这时有一个契机。对比Barzilay在 2012 年和 2013 年的乳腺X射线照片，专业的医生根本看不出任何问题；然而到2014年，她的乳腺X射线照片中却“突然”出现了癌细胞。她明白，这种“突然”并非突然，而是因为过于细微，人眼无法分辨；作为一名计算机专家，特别是人工智能专家，Barzilay设想：是否可以用机器学习的方法来提前检测出癌症的发生呢？

所谓“上医医未病”，如果能够提前几年，在治愈率较高的早期阶段检测出癌症的征兆，或许能够让更多人免遭癌症之苦。

机器善于做出预测——“为什么不把所有关于乳腺癌患者的信息都扔进模型中呢？"

三、利用机器学习检测乳腺癌

用机器学习技术做癌症检测，现在已经屡见不鲜。然而在2014年，却还是新的事物。

从沮丧情绪中走出的 Regina Barzilay 开始雄心勃勃地致力于癌症检测的革命性努力，她依靠的是在肿瘤学界基本未被认可的，但对她来说却非常熟悉的工具：机器学习。

正如应用机器学习的其他领域，数据（特别是好的数据）至关重要。

Barzilay 找到了马萨诸塞州综合医院乳腺成像科主任Constance Lehman、Avon综合乳腺评估中心联合主任 Kevin Hughes、乳腺放射肿瘤科主任 Taghian Alphonse。

Barzilay 擅长的领域是NLP。她以及她的学生利用NLP技术，从医院提供的108000份临床报告中提取了关键信息，并创建了一个准确率在98%以上的数据集。

在此基础上，Barzilay联合 Lehman 等人开发了一套基于“随机森林分类器（random-forest classifier）”的机器学习模型，并使用600个病患数据进行训练，在综合家族遗传史、人口统计、以及过往的组织活检和病理报告等信息之后，该模型对 335 个数据（最终升级为癌症的病患）进行测试，结果诊断乳腺癌的准确率达到97%，而传统方法只有79%。

这项研究结果表明：将机器学习模型引入常规诊断，超过30%的良性病灶切除术是可以避免的。

而另一方面，该技术的工作速度比人工检查快100倍——医生需要50-70个小时来分析50名乳腺癌患者，而该使用机器学习方法只需要30分钟。

2016年，Regina Barzilay等人发布了利用机器学习分析乳腺癌的权威报告《Using Machine Learning to Parse Breast Pathology Reports》，这份报告奠定了Barzilay在智能医疗领域的地位。

相关的研究仍在继续，Barzilay的传奇仍在继续。

2017年，获得麦克阿瑟奖；（这个奖项还有另一个说法，即“天才奖”，奖励那些做出巨大创新的人）

2017年，入选ACL Fellow；

2018年，入选AAAI Fellow；

2019年，入选“药物发现和先进医疗领域 Top 100 的 AI 领导者“。

……

四、使命

Barzilay 的研究并非仅仅局限于乳腺癌检测。

NLP 研究仍在继续，延续往年，每年仍有十多篇顶会论文。2015年获得EMNLP最佳论文提名奖，2016年则获得 EMNLP 最佳论文奖；最近，他们更提出了一种自动破译已消失语言的神经方法，正确翻译率达到67.3%。

此外，从癌症检测出发，Barzilay也逐渐过渡到药物发现领域，今年 2月份她在Cell上发表了封面文章《A Deep Learning Approach to Antibiotic Discovery》，类似于之前向癌症检测进军的总结，这篇文章也是Barzilay教授向药物发现领域进军的盘点。

Barzilay 与 Tommi Jaakkola 等人合作 MIT 6.036 （机器学习入门）也曾火爆全网，成为入门人工智能的“必修课”之一。

在接受MIT知名学者 Lex Fridman 的采访中，Regina提到：

我们每个人都有自己认为最重要的事情，然而现实中我们却忙于实现各种各样的目标，忙于倾听他人的声音，努力成为人群中的一部分，却很少有时间去正视自己的那一部分。

我们应该抽出一些时间来了解我们自己的个人任务。我们要确保，即使在同时处理一万件事情，也要把所有的资源投入到自己使命的实现上。

回顾我自己的过往。在我年轻时，我的大部分任务都是受外部刺激而做的；而现在，我要为我的使命负责。但不管是哪种方式，对我而言，最重要的是忠实于我认为对的事情。

参考资料：

[1]http://people.csail.mit.edu/regina/

[2]MIT教授罹患乳腺癌，用NLP甄别患者胸前“定时炸弹”,

https://www.leiphone.com/news/201702/p8v6bxeqe99bKlie.html

[3]Putting data in the hands of doctors,https://news.mit.edu/2017/putting-data-in-the-hands-of-doctors-regina-barzilay-0216

[4]三位女科学家用AI算法将乳腺癌筛查速度提高100倍,

http://www.techwalker.com/2017/1023/3099554.shtml

[5]https://www.aminer.cn/profile/regina-barzilay/53f4567bdabfaeee22a34751

[6]Cell | 利用深度学习发现新型抗生素, https://www.sohu.com/a/374703970_650136

[7]Regina Barzilay: Deep Learning for Cancer Diagnosis and Treatment | Artificial Intelligence Podcast, https://www.youtube.com/watch?v=x0-zGdlpTeg

- 点击阅读原文或长按图片，内行盛会，首次免费注册-

MIT教授Regina Barzilay：用机器学习扼住命运的喉咙相关推荐

线性代数与数据学习：MIT教授Gilbert Strang帮你打下坚实的数学基础
机器之心编辑,作者:思源.刘晓坤. MIT 教授 Gilbert Strang 最新书籍<线性代数与数据学习>(Linear Algebra and Learning from Data) ...
PyTorch核心加速技术涉嫌抄袭？MIT教授创业公司将Facebook告上法庭
点击"开发者技术前线",选择"星标????" 在看|星标|留言, 真爱机器之心报道 PyTorch 今天已经成为全球最主流的深度学习框架之一,然而其开源的一 ...
MIT教授：世界就是《黑客帝国》，人类在模拟游戏中扮演角色
转载于新智元编辑:元子 MIT教授认为我们目前有50%-100%的概率生活在<黑客帝国>那样的计算机模拟世界中,所谓现实可能不过是一种幻觉.而距离我们创建自己的模拟世界,最多需 ...
盘点丨MIT教授Poggio：过去23年，机器学习取得了哪些进步
<麻省理工科技评论>新兴科技峰会EmTech China今日于北京正式召开.麻省理工大学计算机科学&人工智能实验室教授Tomaso Poggio出席并做主题演讲. 以下是Poggi ...
86岁还在录网课：MIT教授Gilbert Strang最新「线性代数」课程上线
机器之心报道参与:张倩.Jamin.Raccon X 讲 MIT 线性代数经典课程的 Gilbert Strang 教授已经 86 岁高龄了.他的书被清华选作教材,课程吸引了国内外大批学子.如今疫情 ...
MIT教授Tomaso Poggio演讲与专访：智能背后的科学与工程 | 腾讯AI Lab学术论坛
来源:腾讯AI实验室腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗.游戏.多媒体内容.人机交互等四大领域的跨界研究与应用.全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与 ...
86岁还在录网课：MIT教授Gilbert Strang最新「线性代数」课程上线，被清华选作教材...
转自:机器之心参与:张倩.Jamin.Raccon X 讲 MIT 线性代数经典课程的 Gilbert Strang 教授已经 86 岁高龄了.他的书被清华选作教材,课程吸引了国内外大批学子.如今疫 ...
MIT | 数据分析、信号处理和机器学习中的矩阵方法笔记系列 Lecture 6 Singular Value Decomposition (SVD)
本系列为MIT Gilbert Strang教授的"数据分析.信号处理和机器学习中的矩阵方法"的学习笔记. Gilbert Strang & Sarah Hansen | ...
量子态太「脆弱」如何纠错？MIT教授Peter Shor多年研究得到验证
# 机器之心量子计算的一个目标就是以指数级倍数超过传统经典计算机的速度,但是在量子计算机中,量子比特比较脆弱,因为每个量子比特都处于 0 和 1 的混合状态,任何检测它们的方式都会直接破坏数据.来自 ...

MIT教授Regina Barzilay：用机器学习扼住命运的喉咙

MIT教授Regina Barzilay：用机器学习扼住命运的喉咙相关推荐

最新文章

热门文章