本文译自:http://www.alexirpan.com/2016/07/17/ml-sleep.html,原文标题《The Machine Learning Casino》,译文供您参考。

一、机器学习理论研究

机器学习是一种能使计算机半自主地对数据进行分析,并从中学习经验的算法。

机器学习理论的研究听上去就好像做这么一件事,让我们的研究人员去深刻探索,提高计算机学习数据集的效率的方法。

事实上,机器学习理论的研究可以在我们的生活的每时每刻找到影子。就好像你在不断的进行一场赌博,只不过你的筹码是你的时间。你把你的时间花费在了一些有启发性的事物上去,而这场赌博的最终大奖看上去就是未来光明的前途。当然,即使你付出了大量的时间,你也可能遇到你无法想象而又无法理解的失败。

二、机器学习中理论与实践的关系

尽管机器学习是建立在统计学的基础之上的,但事实上机器学习也可以被更多的说成是一门实践性的科学。

然而谈到到实践性,这并不意味着这是一门轻视基础理论的学科。在机器学习里会遇到众多理论问题。例如,赌博机问题,凸优化与非凸优化,图形建模,以及信息理论的问题,当中涉及到了许多不同的学科领域。如果你要你深究机器学习,你可以在这些问题里花花时间。

这里面内容太深太广,对于普通的开发者来说,学完全部的内容并不是一件容易的事情。现实就是,人们都希望自己的算法是有保障的,但是不是每个人都愿意花时间去深究为什么他们的算法是有保障的。

好吧,在当下在APP开发火爆的环境下,人工智能的宣传满天飞。但是人们往往首先关心的只是最终的产品,然后在开发进度中逐渐才会关注基础理论的重要性。一般的开发者往往都是会从一些有启发的事情中获得灵感,通常来说,这些有启发的算法能对既已出现的情况做出相应的反应,但是这些算法仅停留在面向过程的层面,基本没有更深的内涵。

三、实验方法

那么我们想想,我们到底是怎样发现这些有启发性的事物的呢?这里介绍一个方法:

一、提出假设。

二、设计一个实验来检验这一假设。

三、进行实验并分析结果。

四、细化假设并改进实验设计。

五、重复以上流程,直到最终得出结论

在机器学习的领域,提出假设是有前途的算法,进行实验便能检验这些算法的正确性。

重点是什么?就是做做实验,直到最后你的理论被最终证明有效。

好,回过来,接下来我和大家分享一些有用的东西。


四、机器学习中的理论是否已经非常成熟了呢

当前的这门艺术的状态还是概率性的并且高度个性化的。经验上来说,概率化的方法现在已经能很好的在大数据领域等领域应用。

个性化意味着你能尝试调试不同参数并观察他们之间的差别,你有没有尝试调整过超参数?有没有尝试过清洗你的数据?或者使用一种不同的最优算法?让你的模型变得更简洁?或者说让你的模型更加复杂化?玩过Batch Normaliztion算法吗?校正过非线性失真的图像吗?我们希望能探索出一些新的方法来打破常规来解决一些实际问题。然而不幸的是,我们目前的工作还没能力达到那个程度。神经网络确实是非常神奇的,但是你一旦用它玩完那些简单的问题后,你会发现其实还有很多问题还不能解决。

机器学习中会设置一些特征参数,而且这些我们也不会说哪些参数是失败参数。这样的事可能是在其他学科中不会出现的。但是在机器学习中,事情就是这样。而且有时,完全相同的参数设定也不会得到相同的结果。你可以认为我们能做的更好,但是难以重现结果确实是一个问题。

对每一个欣赏机器证明艺术的人来说,这也是机器学习中最气死人的地方。在我们进行超参调优的时候,我们往往并没有带着专门去探索其理论基础的学习动机。但这却是你们必须做的事情,机器学习之美和现实应用有时会脱节。这里有一个段子,是一个计算机视觉教授和他的学生说的:


学生:这理论没有什么实际应用。

教授:真的没有用吗,就算真的没有什么实际应用,理论本身就已经是艺术。

学生:你说的我都懂,理论很高端,但却在实际生活中没有用。甚至连Lenna图像也不能很好的处理。

教授:(半开玩笑的说)也许我们处理一百万个图像,可能在这个过程中,我们就会发现机器学习的作用。

学生:如果连Lenna都不能处理,就更别说无数个Lenna了。

教授:哈哈哈,我也这么认为,真是倒霉啊。

我能体会他们的苦衷。

在训练了足够的机器学习模型后,你就找到问题的关键,能识别常见的无效模式。当你能正确进行模式识别,你便能开始总结出新的识别方法。然而,这种识别没法达到保证百分百成功的程度。我喜欢开玩笑的说,有一天理论学家会找到比纯粹靠经验的好方法。但是我不认为在当下能很快实现。因为这些理论上的东西真的比较难。

理论上,在监督机器学习中,已经发现了“No Free Lunch”定律。我如果这么说可能会显得不太正式,但是确实没有哪一种算法能在每一个可能的问题里打败另外一种算法。换句话说,永远不会有一个算法统治所有其他算法。当然,如果有人能证伪这一点,那当然是最好不过的事了。


五、如何在实验中获取有价值的结论

我依旧没有解释为什么机器学习的研究能应用到我们的生活当中。

我认为我已经迂回地说过了。机器学习实验的是随机性的。即使是这个领域内的大牛也不能掠过超参调优的过程。

这就让这个领域让人感觉像一个巨大的赌场,你拉动了水果机的拉杆,希望自己能中奖。有的时候,你确实能中彩,但是也不会中奖。 或许凑巧的是,有人告诉你玩的这台水果机已经十年没有开奖了,你也许应该尝试新的水果机。机器学习就好像民间传说,这里面的窍门和门道人们一代又一代相传。

我们理解了许多知识,但是水果机就是是水果机,这里面不可避免的随机性问题随随便便就能毁了你美好的一天。或者有更糟的情况,这样的“水果机”也许就隐藏在你的工作里,你的股票基金里,你的前途里。

在这样的机器学习的游戏里,要么你很幸运,要么你在尝试了许多次后你必将获得幸运。这里面唯一保证成功的途经就是做这个后者。

那就意味着实验,你需要做海量的实验。其实在进行实验的这段时间你也不需要做什么事情。你在你准备休息的时候运行实验。比如说,你准备去吃中饭。那就开始在计算机上运行你的实验吧。看看你吃完后会不会有什么新的实验结果。又或者说你准备出去玩,那你或许可以整夜的运行你的实验,在第二天再去查看你的实验结果。再比如,你不想在这个周末工作?那好吧,你的电脑可不会介意在周末上班的。我们写好代码,我们便能在无人值守的情况下进行实验,这真的是非常的棒。只要你的代码是有效的,如果你的代码出现了问题,那么好吧你需要修复出现的bug。除去修复代码的时间,你可以每时每刻都在运行你的实验。

计算机的工作就像是一个工作狂一样。你也不需要立即修改你的代码,就像你不需要一次把所有的筹码都买满水果机的下注。我很确信随着时间的增长,你最终会变得十分幸运,即使你错过了一两天,这也不会影响最终的结果。

如果有一种方法能让机器算法能有效。我也不知道会不会真的有这样的算法,我在心里还曾想过那么一秒,我如果在这个满月下献祭一只山羊,会不会就能让这项工作有效了。如果机器学习的算法真的这么简单就能有效了,我想应该有人会想出无数的方法想着怎么去献祭山羊了。

不过好事不会像山羊献祭这么简单的,因我也不想做这种没有什么意义的事情。

六、结语

在这里,你可能会想知道,为什么我有时会对机器学习感到有些厌烦。

事实上,所有的废话也会有一定的价值,实验的运行中有许多令人激动的事情在不断发生,因此,我对机器学习中出现的问题也越来越能容忍,我对此也感到习以为常了。和理论相比,运行试验就是浪费时间,但这是令人激动的垃圾时间。

我认识的计算机理论科学的朋友们可能会认为我已经疯了,我正做的这些实验简直让我近乎疯狂!哦,好吧还有什么新理论吗。

我们的这些工作,处于获取真理的边缘。如果这样繁复的工作就是我们必须要付出的代价,我必然会毫不犹豫地会选择付出。

“标枪远远领先于她,并移动的更快。殖民者还有很多许多时间来进行活动。当她到达天狼星的时候也许会在那儿发生什么,也许会十分友好。就算真的遇到不友好的事情,她也能到时候再随机应变。”

——摘自小说《RA》


作者:alexirpan    译者:语林

更多详细内容,请您点击这里:阅读原文

机器学习理论研究方法探讨相关推荐

  1. 论文笔记--跨媒体语义共享子空间学习理论与方法研究-2015

    论文信息: 博士论文-跨媒体语义共享子空间学习理论与方法研究-2015-北京交通大学-张磊 文末部分参考文献附有论文下载链接,包括与本论文相关的论文下载地址 论文标题:跨媒体语义共享子空间学习理论与方 ...

  2. 探索机器学习理论的最新进展,走近云、端、芯上的视觉计算——“智源论坛:机器学习报告会”重点梳理...

    1909 年,莱特兄弟通过纯粹的工程方法首次把飞机送上了天,但彼时的他们并不了解其中的原理.如今,经过几十年的发展,飞机的性能较之当年已然不可同日而语.究其原因,主要在于上世纪四五十年代,人们在空气动 ...

  3. 【机器视觉】探索机器学习理论的最新进展,走近云、端、芯上的视觉计算

    来源:产业智能官 1909 年,莱特兄弟通过纯粹的工程方法首次把飞机送上了天,但彼时的他们并不了解其中的原理.如今,经过几十年的发展,飞机的性能较之当年已然不可同日而语.究其原因,主要在于上世纪四五十 ...

  4. 简单自学机器学习理论——正则化和偏置方差的权衡 (Part III )

    本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译. 以下为译文 机器学习理论-Part3 正则化和偏置方差的权衡 在第一部分探讨了统计模型潜在的机器学习问题,并用它公式化获得最小泛化误差这 ...

  5. 北京大学王立威教授:机器学习理论的回顾与展望

    王立威 王立威,在北京大学教授主要研究领域为机器学习.在包括COLT, NIPS,JMLR, PAMI等权威会议期刊发表论文60余篇.2010年入选 AI's 10 to Watch,是首位获得该奖项 ...

  6. 完整版教育研究方法(依据笔记整理)

    <教育研究方法> [内容提要] ü 第一章导论:<教育研究方法>课程的内容结构及学习方法 ü 第二章 教育研究的发展历程 ü 第三章 教育研究的基本规范 ü 第四章 教育课题的 ...

  7. 学界|北京大学王立威教授:机器学习理论的回顾与展望

    (一) 2017-03-05 奕欣 人工智能深度内参 本文由奕欣,夏睿联合编辑. AI科技评论按:本文根据王立威教授在中国人工智能学会AIDL第二期人工智能前沿讲习班*机器学习前沿所作报告<机器 ...

  8. 【机器学习基础】机器学习理论最佳入门!周志华宝箱书搭档,开源教程《钥匙书-KeyBook》发布...

    作者:詹好.Datawhale开源项目组 开源初衷 近年来,多样化的机器学习相关教材和视频层出不穷,不仅包含了入门级机器学习宝典,还包括一些系统性书籍. 但国内在机器学习理论(Machine Lear ...

  9. 水声被动定位中的机器学习方法研究进展综述

    水声被动定位中的机器学习方法研究进展综述 人工智能技术与咨询 来源:<信号处理>,作者牛海强等 摘 要: 本文对基于机器学习方法的水声被动定位研究进展进行了综述.所涉及的机器学习方法有多层 ...

最新文章

  1. 从字符串中删除HTML标签
  2. python语法大全-总结了Python中的22个基本语法
  3. 同名字的数值求和插入行_中望CAD2021:支持表格和字段插入公式,提高数据处理效率...
  4. 矩阵的二范数_Python Numpy中的范数
  5. Android官方开发文档Training系列课程中文版:手势处理之ViewGroup的事件管理
  6. android 键盘点击事件监听事件,Android 键盘事件触发以及监听
  7. 第 11 章 树结构实际应用
  8. Handler: Service中使用Toast
  9. asp定时生成静态HTML的代码
  10. 代码管理学:正确理解工作,并不是你想的那样容易
  11. 《python程序员面试宝典(陈屹)》chapter1 技术面试方法论
  12. 弹簧管压力表设计报告
  13. tc简单开发。窗口类。在窗口初始化时,使用窗口隐藏()
  14. 中职学校计算机技能大赛总结,中职学校技能大赛总结
  15. DOCTYPE声明——标准模式与怪异模式的区别
  16. Android本地图片加载展示而不容易OOM的办法
  17. 关于:昨天H - 康托展开题目的探究。
  18. vlookup多条件的使用
  19. android5.1内核版本,Msm8909+android5.1 user和eng版本对应的内核配置文件
  20. ubuntu 20.04 | 常用软件 必要配置

热门文章

  1. 读冯友兰之《中国哲学简史》
  2. CSR8670/CSR8675多国语言字库显示逻辑
  3. 最强文献下载神器——SCI-HUB客户端v7.0
  4. CTF-合天WEB漏洞靶场
  5. Green Plum 非并行备份恢复方案
  6. python把两张图不同之处差异显示出来
  7. GB1774-2015的Endnote “样式文件”下载及制作
  8. LaTeX学习总结5(插图)
  9. 场外个股期权为什么火?
  10. hadoop2.8.2 YARN 架构