起因是以色列理工学院工业工程与管理学院的助理教授 Uri Shalit 在 Twitter 上发文,指出这篇论文的补充材料里,有一处结果非常值得注意:标准化逻辑回归实质上与深度神经网络一样好。

Uri Shalit 的研究方向是将机器学习应用于医疗领域,尤其是在向医生提供基于大型健康数据的决策支持工具方面。其次,他也研究机器学习和因果推断的交集,重点是使用深度学习方法进行因果推断。在加入以色列理工学院以前,他先后在 David Sontag 教授在纽约大学和在 MIT 的临床机器学习实验室当博士后。 Uri Shalit 说的补充材料中的结果是指这个:

其中,基线 aEWS(augmented Early Warning Score)是一个有 28 个因子的逻辑回归模型,在论文作者对预测患者死亡率的传统方法 EWS 进行的扩展。而 Full feature simple baseline 则是 Uri Shalit 说的标准化逻辑回归。

注意到基线模型(红框标识)和深度模型在 AUCs 置信区间的重叠了吗?

Uri Shalit 表示,他由此得出的结论是,在电子病例分析这类任务中,应该选择使用逻辑回归,而不是深度学习,因为前者更加简单,更具可解释性,这些优点要远远胜过深度学习带来的微小的精度提升。

或者,Uri Shalit 补充说,这表明我们目前还没有找到正确的深度学习结构,能实现在图像、文本和语音建模领域中那样的性能提升。

谷歌首篇深度学习电子病历分析论文,Jeff Dean 等大牛扛鼎之作,结果出人意料

谷歌的这篇论文“Scalable and Accurate Deep Learning for Electronic Health Records”,发表在自然出版集团(NPG)旗下开放获取期刊 npJ Digital Medicine 上,由 Jeff Dean 率队,联合 UCSF、斯坦福、芝加哥大学众多大牛,与全球顶级医学院联合完成,从题目到作者都吊足了大家的胃口。

实际上,早在今年初,新智元就介绍过这篇论文,当时它还只是挂在 arXiv 上,康奈尔大学威尔医学院助理教授王飞对当时的 arXiv 版本进行了解读。

这项工作是在 UCSF 和 UChicago 这两大医院系统的电子病历数据上,用深度学习模型预测四件事:1)住院期间的死亡风险;2)规划之外的再住院风险;3)长时间的住院天数;4)出院的疾病诊断。

文章仔细介绍了实验信息,例如如何构建病人队列、特征如何变换、算法如何评价等等。对于每一个预测任务,作者也都选取了临床上常用的算法作为基线来进行比较,例如评价死亡风险的 EWS 分数,以及评价再住院风险的 HOSPITAL 分数,并对这些模型做了微小的改进。最终结果,作者提出的深度学习模型在各项任务中都显著优于传统模型(AUC 普遍提高 0.1 左右)。

论文插图:使用深度学习预测病人住院期间死亡风险,深度学习(实线)在前后24小时时间范围内,都比基线水平(虚线)准确率更高。

如果说这次在同行评议期刊发表出的论文与之前的 arXiv 版本有什么不同,最大的就是给出了 15 页的补充资料,展示了深度学习方法与各种基线的具体数值。

谷歌这篇论文的初衷,是强调直接从 FHIR 数据中进行机器学习(“我们提出了一种对病人整个基于 FHIR 格式的原始 EHR 的表示”)。正如论文中所写的那样,其方法的原创性并不仅仅在于对模型性能的提升,而是“这种预测性能是在没有对专家认为重要的那些变量进行手动选择的情况下实现的……模型访问每位患者数以万计的预测因子,并从中确定哪些数据对于进行特定的预测非常重要”。

但是,从论文的一些表述,尤其是标题中,难免有宣传深度学习的嫌疑,也是这次争议重点所在。

UC戴维斯和斯坦福新研究,首次证明神经网络 = 多项式回归

现如今,深度神经网络已经成了很多分析师进行预测分析的首选。而在大众媒体里,“深度学习”也几乎可以算得上“人工智能”的同义词。

深度学习的热潮或许仍在持续,但很明显,越来越多的人开始冷静下来思考并且质疑。

在一篇最新公布的文章里,加州大学戴维斯分校和斯坦福的研究人员便指出,神经网络本质上是多项式回归模型。他们的文章取了一个谨慎的标题《多项式回归作为神经网络的代替方法》(Polynomial Regression As an Alternative to Neural Nets),对神经网络的众多性质进行了讨论。

作者在论文中列出了他们这项工作的主要贡献,包括:

  • NNAEPR 原理:证明了任何拟合的神经网络(NN)与拟合的普通参数多项式回归(PR)模型之间存在粗略的对应关系;NN 就是 PR 的一种形式。他们把这种松散的对应关系称为 NNAEPR——神经网络本质上是多项式模型(Neural Nets Are Essentially Polynomial Models)。

  • NN 具有多重共线性:用对 PR 的理解去理解 NN,从而对 NN 的一般特性提供了新的见解,还预测并且确认了神经网络具有多重共线性(multicollinearity),这是以前未曾在文献中报道过的。

  • 很多时候 PR 都优于 NN:根据 NNAEPR 原理,许多应用都可以先简单地拟合多项式模型,绕过 NN,这样就能避免选择调整参数、非收敛等问题。作者还在不同数据集上做了实验,发现在所有情况下,PR 的结果都至少跟 NN 一样好,在一些情况下,甚至还超越了 NN。

NNAEPR 原理——神经网络本质上是多项式回归

其中,作者重点论证了他们的 NNAEPR 原理。此前已经有很多工作从理论和实践角度探讨了神经网络和多项式回归的共性。但是,UC戴维斯和斯坦福的这几名研究人员表示,他们的这项工作是首次证明了 NN 就是 PR 模型,他们从激活函数切入:

根据通用逼近定理,NN 可以无限逼近回归函数 r (t),

假设 p = 2,用 u 和 v 来表示特征,第一层隐藏层的输入,包括“1”的节点,将是设激活函数为,那么第一层的输出将是 u 和 v 的二次函数。类似地,第二层将产生四次多项式,依此类推,可以生成在回归函数空间中密集的多项式。

而对于更加实际的激活函数,其本身就常常被多项式逼近。因此,也适用于上述规则。

换句话说,NN 可以被松散地视为多项式回归的一种。

实验结果:多项式回归在很多时候都优于神经网络

作者进行了很多实验来比较 PR 与 NN 的性能。在下面的各种结果中,PR 表示多项式回归,PCA 表示在生成多项式之前用 90%总方差主成分分析降维。KF 表示通过 Keras API 的神经网络,默认配置是两层,一层 256 个单元,一层 128 个单元(写作 “256,128”),dropout 比例是 0.4。DN 表示通过 R 语言包 deepnet 的神经网络。DN 会比 KF 快很多,因此在大一些的问题里会用 DN,但两者性能还是相似的。

总之,一系列实验结果表明,PR 至少不会比 NN 差,有些时候还超过了 NN。在实践中,许多分析师只是一开始就去拟合过大的模型,比如使用很多层,每层有数百个神经元。他们发现,使用 PR,很少需要超越 2 级,NNAEPR 原理表示,只用一层或者两层就够了,每一层有少量的神经元。

同时,作者也开始怀疑,拟合大的 NN 模型通常导致大多数的权重为0,或接近于0。他们已经开始调查这一点,初步结果与 NNAEPR 原理相结合表明,在 NN 初始化中 configur 大型网络可能是个糟糕的策略。

最后,他们开源了一个 R 语言的软件包 polyreg(Python 的正在制作中),里面有很大源代码可以实现很多功能。

原文发布时间为:2018-06-27

本文作者:闻菲

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:Dean等论文发现逻辑回归和深度学习一样好

阅读后请点击

【神经网络本质是多项式回归】Jeff Dean等论文发现逻辑回归和深度学习一样好相关推荐

  1. Jeff Dean本科论文首次曝光!第一批90后出生时,他就在训练神经网络

    夏乙 李根 发自 凹非寺 量子位 出品 | 公众号 QbitAI  22岁时,你在干嘛? 这两天,现任Google AI掌门,传奇一般的Jeff Dean,再次收获膜拜和引发热议.全因他的本科毕业 ...

  2. Github标星24k,127篇经典论文下载,这份深度学习论文阅读路线图不容错过

    作者  | Floodsung 翻译 | 黄海广 来源 | 机器学习初学者(ID:ai-start-com) [导读]如果你是深度学习领域的新手,那么你可能会遇到的第一个问题是"我应该从哪篇 ...

  3. 别怕神经网络!你认识字就能看懂——从神经元到深度学习

    神经网络是一门重要的机器学习技术.它是目前最为火热的研究方向--深度学习的基础.学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术. 本文以一种简单的,循序的方 ...

  4. 斯坦福Nature论文宣布新突破:深度学习皮肤癌诊断达专家水平

    为了让人们能获得更好的医疗,斯坦福大学的研究者已经成功训练了一个可以诊断皮肤癌的算法.该研究的相关论文<Dermatologist-level classification of skin ca ...

  5. 「每周论文推荐」 初入深度学习CV领域必读的几篇文章

    https://www.toutiao.com/a6718570271269192200/ 很多朋友都希望我们开通论文推荐和阅读板块,那就开吧,此专栏名为<每周论文推荐>.在这个专栏里,还 ...

  6. 南洋理工75页最新「深度学习对话系统」大综述论文,最全面概述深度学习对话技术进展...

    来源:专知   摘要 对话系统是一个流行的自然语言处理(NLP)任务,因为它在现实生活中应用前景广阔.这也是一个复杂的任务,因为涉及到许多需要研究的自然语言处理任务.因此,关于深度学习的对话系统研究的 ...

  7. 【每周论文推荐】 初入深度学习CV领域必读的几篇文章

    很多朋友都希望我们开通论文推荐和阅读板块,那就开吧,此专栏名为<每周论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题 ...

  8. ECCV 2018论文解读 | DeepVS:基于深度学习的视频显著性方法

    作者丨蒋铼 学校丨北京航空航天大学在校博士,大不列颠哥伦比亚大学联合培养博士 研究方向丨计算机视觉 本文概述了来自北京航空航天大学徐迈老师组 ECCV 2018 的工作 DeepVS: A Deep ...

  9. 【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记

    作者及其单位:北京邮电大学,张俊遥,2019年6月,硕士论文 摘要 实验数据:来源于网络公开的新闻文本数据:用随机欠采样和过采样的方法解决分类不均衡问题:使用BIO格式的标签识别5类命名实体,标注11 ...

最新文章

  1. hive replace替换多个_详解Mysql数据库中replace与replace into的用法及区别
  2. 【Android 插件化】VirtualApp 源码分析 ( 启动应用源码分析 | HomePresenterImpl 启动应用方法 | VirtualCore 启动插件应用最终方法 )
  3. mysql数据库备份心得
  4. 3台廉价机器每秒写入2百万!Kafka为什么那么快?
  5. QQ炫舞手游显示进入服务器失败6,qq炫舞手游进不去怎么办 游戏进不去方法详解[多图]...
  6. java父子表_Java编程:将具有父子关系的数据库表数据转换为树形结构,支持无限层级...
  7. Kubernetes的拐点助推器:左手开源,右手边缘计算
  8. STM8 ADC转换模式-------单次模式
  9. 7 php 内存泄漏_APP内存优化之内存泄漏
  10. jquery中的尺寸函数width(),height(),innerWidth(),outerWidth()等的用法
  11. pythonsearch方法_python正则表达式(4)--search方法
  12. MongoDB数据库基础教程(一) - 下载与安装
  13. azw3、epub、PDF等格式转换
  14. word公式常用快捷键
  15. python自动qq群发_自动给qq好友发消息
  16. 5种主流的移动端广告类型
  17. hdu5294Tricks Device【最短路+网络流】
  18. Python如何实现行人识别-人体识别
  19. android—AOSP、AOKP、CM的区别
  20. 生活随记 - 不知名的花儿

热门文章

  1. 2019年web前端学习路线与前端书籍学习
  2. UVM知识点总结-sequence
  3. 【力扣】08 剧情触发时间:在战略游戏中,玩家往往需要发展自己的势力来触发各种新的剧情。一个势力的主要属性有三种,分别是文明等级(C),资源储备(R)以及人口数量(H)。在游戏开始时(第 0 天),三
  4. 程序链接之符号解析和重定位
  5. ssm毕设项目西仰陵农贸市场网销系统0m1k5(java+VUE+Mybatis+Maven+Mysql+sprnig)
  6. c++不固定数目的数字的输入
  7. Oracle SQL Developer 连接数据库 测试失败解决办法
  8. 2014年国外公布的中国内地大学排名18强名单
  9. Android安卓安全和隐私保护
  10. 删除ppt文件内所有同一位置的内容