近日,Reddit社区一篇批判机器学习领域的文章引发了热议,获得了3.1k的赞。作者细数了机器学习领域存在的「八宗罪」,让科研人员对机器学习大环境有了新的思考。

越来越多的科研人员都选择进入机器学习这个领域。

科研人员进入领域时的初衷是「伟大」的:他们相信,机器学习能够真正的改善人们的生活。所以每年机器学习有关的顶会投稿数目几乎是成倍的增长,这些新的科研成果似乎真的能带来一个更好的未来。

Reddit社区一位作者却站出来说:「The machine learning community has a toxicity problem.」

他细数了机器学习领域的「八宗罪」,让科研人员对现行的机器学习大环境进行有了新的思考。这篇文章在Reddit收到了3.1k的赞。

细数机器学习「八宗罪」

一宗罪:同行评审过程被破坏了。

NeurIPS会议中接收的论文,每四篇就会有一篇被放在arXiv上。 有些DeepMind 的研究人员公开追究那些批评他们 ICLR 投稿的评论者。虽然审稿人对这些知名机构的arXiv论文给出了拒绝的意见,但是最后仍然被一些顶会接收。

二宗罪:成果复现引发了危机。

在测试集中调整优化超参数似乎是现在的标准做法。但是,即便使用技巧让超参数得到了调优,性能是否真正提高是一件不置可否的事情。

三宗罪:崇拜主义问题。

和斯坦福,Google或DeepMind存在联系的每篇论文都会得到赞誉,BERT被引用的次数是ULMfit的七倍。ICML会议上,DeepMind海报吸引力远高于别的海报。此外,尽管NeurIPS 和ICML都是顶级ML会议,前者提交量是后者的两倍,或许仅仅是因为「神经」这个词语?

四宗罪:攻击和好斗。

前几日Yann LeCun谈论偏见和公平话题时的语气是直率的,但是攻击他的人的语气却是恶毒的,并且太多太多人选择攻击他而忽略了事件本身。人们或许没有意识到,逼迫LeCun离开推特其实没有解决任何问题。

五宗罪:逃避性别歧视和种族主义。

像其他的计算机科学学科一样,机器学习也存在着多样性问题。不可否认的,在我们的CS系中,只有30%的本科生和15%的教授是女性。在博士学位或博士后休育儿假通常意味着学术生涯的结束。领域中的研究者选择逃避来掩饰自己对种族主义或性别歧视的害怕,但是却让这个问题更严峻。

六宗罪:道德和伦理是任意设定的。

美国国内政治主导着所有讨论,包括学术界的。计算机视觉算法的数据集几乎不涉及超10亿人口的非洲人,但没人在乎。每个人都会在研究最后说「有更深远的影响」,但是这样的影响往往限定在特定人群内。

七宗罪:机械性的论文发表。

研究只是为了发表,撰写论文的唯一目的已经变成在简历中增加一行文字。论文质量?那是次要的,重点是通过同行评审。研究小组的人数多到导师不一定能知道每个博士生的名字,每年向NeurIPS提交50篇以上的论文已经成为某些研究人员的常态。

八宗罪:语言文明在讨论中是不存在的。

Schmidhuber称Hinton为小偷,Gebru称LeCun为白人至上主义者,Anandkumar称Marcus为性别主义者。研究人员很容易受到攻击,被套上「侮辱性」的帽子,但这甚至和研究本身无关。

「八宗罪」惹争议,网友为机器学习「辩驳」

「盲目崇拜确实存在,但我想提出另一个假设,说明Google / DeepMind 的论文为何受到更多关注:信任」。

每天都会有大量新发表的论文,所以不可能全部读完。使用作者进行过滤是我常用的方法,尽管有偏见,但是很有效。不是说DeepMind的研究人员比其他人更有才华,但他们承担更多的风险。

DeepMind发表的论文通常是有效的,如果论文灌水或者不可复现,那将对整个公司产生不良影响,因此,这些组织发表的论文很可能在发布之前就经过了更严格的「质量控制」流程和内部同行评审。

我自己对此感到内疚,因为我定期阅读的是arXiv提交的新文章的「标题」。

当我看到一些有趣的东西时,我会先看作者,如果是DeepMind / Google / OpenAI / etc,我会仔细看一下。如果是一群我从未听说过的人,我就会翻篇。为什么?因为在我看来,后一组作者更有可能「编造东西」,而且他们的错误没有被注意到,因为他们没有像DeepMind论文那样经历相同的内部质量控制,我更有可能收到错的信息。这与我崇拜DeepMind无关,由于他们的工作方式让我更信任。

这样做错了吗?也许确实有偏见,我们应该更多关注内容本身,但是有时论文太多了,谁也不想浪费时间。

也有人反驳这种偷懒的行为。「我就能不看作者,快速读完一堆论文」。好吧,一目十行君真的有。

关于第三宗罪也有网友为Google鸣不平,BERT让语言模型变得非常易用给其他研究者做了很多铺垫,确实该获得更多关注,ULMfit引用量没BERT多也很自然。

网友@dataism和几个小伙伴还专门写了一篇论文讨论当前机器学习领域论文存在的几个突出问题。

最近机器学习的进展,尤其是深度学习,引入了几个复杂任务中超越传统算法和人类的方法,从图像中的物体检测、语音识别到玩困难的战略游戏, 然而很多算法以及它们在现实世界中的应用,似乎存在一个循环 HARKing (结果已知然后还提出假设)。

这篇文章详细阐述了这一现象的算法、经济和社会原因以及后果。文中列举了一些常见的操作,例如将负面结果隐去,不提泛化能力等等,感兴趣的同学可以仔细读一下,降低论文被拒的风险(我并不是在宣传这些灌水技巧)。

还有一个比较热的讨论是关于作者学校的歧视,这在学术界很普遍,尤其是在CS / ML领域。

当你身处哈佛、斯坦福,你的论文被接受的概率就会高很多。而这些名校的录取本身就是有财富和名誉偏见的,你可以找一堆理由否认,但数据不会说谎。

如果你的父母念过斯坦福,那么你被录取的概率就是其他人的三倍!哈佛的情况也不例外。

父母收入在Top 1%的学生占了15.4%的比例。

「多元化与包容性」的口号在机器学习领域几乎完全抛弃了贫穷家庭或没有接受过高水平教育的家庭。在学术界,来自社会底层的学生被拒绝的比例可能更疯狂。

【编辑推荐】

  1. SpaceX 已将 3 万多台 Linux 计算机送入太空
  2. 计算机科学家和码农之间有什么区别?
  3. 量子计算机领域内第一种高级编程语言 Silq 诞生
  4. 神经网络原来这么简单,机器学习入门贴送给你 | 干货
  5. 全球TOP10超级计算机8台都选英伟达的三大原因

Reddit高赞:机器学习领域「八宗罪」!同行评审变味,盲目崇拜盛行相关推荐

  1. Python「八宗罪」

    选自hackerfactor 作者:Neal Krawetz 机器之心编译 本文作者有一群 geek 朋友,经常一起讨论技术话题,有时候也会谈到编程语言.「I hate Python」,作者表示.他对 ...

  2. reddit高赞资源:20h系统性深度学习强化学习课程,视频、PPT、代码全都有 | 免费...

    子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 告别"拼图式"学习! 最近,一套深度学习和强化学习的免费课程在reddit上引起网友关注,获赞690+. 只因其不仅形式 ...

  3. 机器学习的「反噬」:当 ML 用于密码破解,成功率竟然这么高!

    过去,让计算机区分猫和狗被认为是最先进的研究:而现在,图像分类就像是机器学习(ML)的「Hello World」,可以使用 TensorFlow 在几行代码中实现上.在短短的几年内,机器学习领域已经取 ...

  4. 让GAN随音乐律动的Python工具,网友:这是我见过的GAN的最佳用法 | reddit高赞

    子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 用GAN生成画作已经不是新鲜事了,不过你见过"懂音乐"的GAN吗? 一位外国小哥开发的Python工具,能让GAN生成的 ...

  5. 几秒钟一个方案,正确率93%优品率80%,小库科技如何打响建筑领域「第一炮」?

    撰文 | 藤子 11 月 25 日,深圳南山区欢乐海岸,中影国际影城 7 号厅,一场特殊的电影--小库科技公测发布会正在进行. 放映厅坐满了观众,他们是清一色的建筑领域从业人士.现场没有「蒙眼狂奔」的 ...

  6. AI教你画油画:任意画风都可驾驭,笔画序列秒秒钟呈现,百度南大团队打造 | Reddit高赞...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI已经能教你画油画了. 随便给一张图,笔画序列秒秒钟呈现. 比如世界名画蒙娜丽莎. 亦或是写实类的小鸟. 还有极具氛围感的河灯. 总之什么 ...

  7. 我的机器学习主线「优化算法」

    文章目录 优化算法 凸性 凸集 凸函数 凸函数的局部极小值 凸函数的下水平集 凸性和二阶导数 詹森不等式 约束 拉格朗日函数 惩罚 投影 小结 适定 病态 条件数 小结 梯度下降算法 一维梯度下降 多 ...

  8. 产品经理的「七宗罪」

    一直以来,产品经理与程序员之间就像是水与火般难以相融.许多初入社会的年轻开发,估计都曾动过要跟产品经理打一架的念想. 但这种坏念头一定只能压抑在心底,不然会被产品经理们通过一系列抓手对需求的底层逻辑的 ...

  9. 破解这「七宗罪」,你才能晋升高级运营

    文章目录 一)注重投入产出比,摆脱低效 a. 边际成本递减 b. 规模化使用 c. 聚焦核心因素 二)保持灵活,减少浪费 a. 通过活动快速尝试 b. 不纠结于某个点 三)采取数据化思维,不再茫然 a ...

最新文章

  1. Express应用配置端口
  2. python中eof啥意思,什么是Python的完美对应“而不是EOF”
  3. java 大数据处理类 BigDecimal 解析
  4. 【2019年07月08日】A股最便宜的股票
  5. (完全二叉树编号)小球下落
  6. C/C++判断是否为笔记本电脑
  7. 构建Electron的常见问题(Mac)
  8. python manage.py startapp app 时候报错No module named _sqlite3
  9. 4.3配置自定义情况的Bean实例
  10. python参考手册小说_-精选版python 中文手册.pdf
  11. 最新Latex安装详细教程
  12. java根据身份证号判断当前年龄
  13. 一个神奇的FLAC转MP3在线工具
  14. SpringBoot 中html的页面间跳转
  15. 【漏洞学习——XSS】TOM邮箱存储型XSS一枚
  16. 为什么我没圣诞帽!?微信一键生成圣诞帽方法
  17. 经典解读商业智能BI、大数据、数据中台三者关系
  18. html表格左右布局,css table布局大法,解决你大部分居中、多列等高、左右布局的问题...
  19. Games101课程笔记_lecture20_color颜色
  20. NC 开发环境因电脑高分辨率导致系统文字、图标变小等。

热门文章

  1. Java基类共同属性设置_java – 你有一个Hibernate实体的基类吗?
  2. matlab振动频谱分析是不是要,VB和Matlab混编实现振动信号的频谱分析
  3. Java中实现接口与继承的区别
  4. TOMCAT9 如何突破的双亲委派机制
  5. pytorch 神经网络训练注意最后一批次输出的数据体量
  6. Java Process类的浅学习
  7. weidingma参考文献
  8. 计算机统考408卷子谁批,【计算机统考】你对计算机统考408了解有多少?
  9. java 线程池学习小记
  10. PowerDesigner 连接MySQL数据库详细步骤