什么是机器学习?

文献筛选”的故事:循证医学

我们都知道,现在优质医学资源非常稀缺,为了缓解这个问题,国外产生了一种叫做“循证医学”的做法。以后患病了不是先去找专家,而是先去看一看文选资料,因为很可能已经有人患过,甚至已经有医生诊治过这个病,发表过论文。那么如果我们暴露里面和这个病相关的最新技术,把它汇集起来,很可能就能得到很好的解决方案。

如何实现这个想法呢?

第一步,我们要从这个浩如烟海的医学文献里面,把可能有关的文章汇集出来。现在有很多基础工作建设,例如在医学上有 Pub Med 的系统,我们还可以用谷歌学术等搜索关键词,就能搜到很多文章。但这些检索出来的文章和我们真正需要的可能还有很大的距离,因为他可能只是仅仅包含搜索的关键词而已。

所以第二步就需要请人类专家来过滤它们,找出到底哪些东西需要深入研究。这部分的工作量有多大呢?我们举个例子,在一个关于婴儿和儿童残疾的疾病研究里面,这个美国 Tufts 医学中心在第一步的筛选之后就拿到了 33000 篇摘要。中心的专家效率非常高,他们每三十秒钟就可以过滤 1 篇。但就算这样,这个工作还是要做 250 个小时。可想而知,就算一个医生三十秒钟看一篇文章,一天八小时不吃饭、不喝水、不休息,也需要一个多月才能完成。而且糟糕的是每一项新的研究我们都要重复这个麻烦的过程。还有更可怕的是,随着医学的发展,我们发表的论文数量也越来越多。

机器学习的方法

我们挑出大量的文章,只邀请熟练的专家判断是有关还是无关的,然后基于这个信息建立一个分类模型,用这个分类模型对剩下没有看过的文章做一次预测。其中相关的文章再请专家来审读,这样的话,专家需要读的东西就会大幅度减少。

这样做之后,得到的性能指标已经非常接近、甚至一定程度上超过了原来专家过滤的效果。因为我们知道一个专家三十秒钟读一篇文章,需要连续工作一个月,而且中间出错的可能性太多。现在用机器学习来做只需要一天时间,所以被当成是机器学习对现在机器医学发展的一个很重要贡献而报道出来。

这里面非常关键的一步就是我们怎么样把这个分配模型做出来,其实就是用的机器学习。

把数据变成模型要用到学习算法。有一种说法是计算机科学就是关于算法的学问。那如果从这个道理上来讲的话,机器学习其实就是关于学习算法的设计分析和每个学科领域的应用。

(机器学习过程)

机器学习历史

第一阶段:大家都认为要把逻辑推理能力赋予计算机系统,这个是最重要的。因为我们都认为数学家特别的聪明,而数学家最重要的能力就是逻辑推理,所以在那个时期的很多重要工作中,最有代表性的就是西蒙和纽厄尔做的自动定理证明系统,

第二阶段:后来发现光有逻辑推理能力是不够的,因为就算是数学家,他也需要有很多知识,否则的话也证明不出定理来。

大家开始思考怎么样把我们人类的知识总结出来,交给计算机系统,这里面的代表就是知识工程专家系统。像知识工程之父爱德华·费根鲍姆就因为这个贡献获得了 1994 年的图灵奖。

第三个阶段:这时候机器学习作为这个阶段的主流研究内容,可以看到机器学习本身其实就是作为突破知识工程的一个武器而出现的。但是,事实上并没有达到目的,今天大多数的机器学习的结果都是以黑箱的形式存在的。另外一方面,为什么机器学习这么热门呢?其实恰恰是因为在二十世纪九十年代中后期,我们人类搜集、存储、管理、处理数据的能力大幅度提升,这时候迫切需要数据分析的技术,而机器学习恰恰是迎合了这个大时代的需求,所以才变得特别的重要。

未来见解

2006 年 Hinton 在 Nature 发表了关于深度学习的文章。2012 年他又组队参加 ImageNet,获得冠军。超过第二名 10 个百分点的成绩引起了大家的注意,深度学习就此兴起,现在深度学习的应用越来越广泛了。

从 2010 年至今,深度学习的热潮已经 6 年了。

从技术层面来看,深度学习其实就是很多层的神经网络。这里画了一个三层的神经网络,就是所谓的一个神经元,通过很多连接连接在一起。那么每个神经元就是一个所谓的 M-P 模型。

所谓的一个神经元其实就是这么一个函数,我们所谓的神经网络其实就是很多这样的多层函数嵌套形式的数学模型,它在一定程度上受到了这个生物神经技术的启发,但是更重要的是数学和工程上的东西在支撑。

最著名的深度学习模型叫做卷积神经网络(CNN),其实早在 1995 年就提出了,但为什么现在才火呢?要先提两个问题:

深度学习会不会“一统江湖、千秋万载”?

我们可以非常清楚的看到交替模式:热十年冷十五年。

在技术层面对于未来的一个判断是:未必是深度学习,但应该是能有效利用 GPU 等计算设备的方法。

未来任务

AlphaGo,被认为是机器学习的伟大胜利。但是学界普遍认为这并不能代表机器学习就是人工智能的未来,尤其是通用人工智能。

一个关键问题:鲁棒性

人类犯错:水平从九段降到八段。

机器犯错:水平从九段降到业余。

传统的机器学习任务大都是在给定参数的封闭静态环境中,而现在正在慢慢转向开放动态环境。随着人工智能技术取得巨大发展,越来越多地面临“高风险应用”,因此必须有“鲁棒的AI”。

要分析未来,首先得知道现状。那么机器学习现在的形态是什么?有人会说算法,有人会说数据。“其实机器学习的形态就是算法 + 数据。”

但是这样的形态下,它有哪些局限性呢?主要分为 3 个大的方面和其他一些小方面:局限 1:需要大量训练样本;局限 2:难以适应环境变化;局限 3:黑箱模型。

我们可以看到机器学习的技术局限性仍然很多,我们是否可以跳出这个框架,从整体上来解决这些问题呢?

那么我们都知道有硬件(Hardware),有软件(Software),这里提出一个类似于这两者的新概念“学件”(Learnware):

很多人可能在自己的应用中已经建立了这样的模型,他们也很愿意找到一个地方把这些模型分享出去。那以后一个新用户想要应用,也许不用自己去建立一个,而是先到“学件”的市场上找一找有没有合适的,可以拿来使用修改。

比如说,要找一把切肉的刀,可以先看看市场上有没有这样的刀,不会说自己从采矿开始重新打一把刀。如果没有合适的刀,也许会选择一把西瓜刀,然后用自己的数据重新“打磨”一下,让它满足自己应用的需要。

除了解决了原有的问题,“学件”很有可能会催生出一个新产业,类似于软件产业。因为大家可以把自己的模型放到市场上,提供给别人使用,如果被使用得很多,又很好用,用户很广泛,那么可以对这个“学件”定价使用,创造出经济价值。

最后,对今天的报告内容进行一个总结,主要有下面几点:

周志华揭开机器学习本质的57张PPT相关推荐

  1. 周志华《机器学习》课后习题(第七章):贝叶斯分类

    作者 | 我是韩小琦 链接 | https://zhuanlan.zhihu.com/p/51768750 7.1 试使用极大似然法估算回瓜数据集 3.0 中前 3 个属性的类条件概率. 答: 以第一 ...

  2. 推荐:周志华《机器学习》西瓜书精炼版笔记来了!

    西瓜书<机器学习>无疑是机器学习的必读书籍.本书作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面. 为了使尽可能多的读者通过本书对机器学习有所了解, 作者试图尽可能少地使用 ...

  3. 周志华《机器学习》西瓜书出全新视频课啦!

    课程推荐: 算法理论+实战紧密结合 "机器学习"西瓜书训练营 不是每个人都适合2万小时定律,努力的方向不对,就是白努力. 如果你对人工智能跃跃欲试,第一步该怎么办?我们通常的做法是 ...

  4. 学习笔记----周志华《机器学习》第五章(神经网络)(二)

    周志华<机器学习>第五章(神经网络)的学习笔记上篇连接在这里:<上篇>.上篇讲到了神经网络.常用的激活函数.感知机和多层前馈神经网络.局部极小和全局最小,今天继续补上昨天落下得 ...

  5. 学习笔记----周志华《机器学习》第五章(神经网络)(一)

    周志华的<机器学习>算作一本入门的宝书.本文是对周志华的机器学习第五章神经网络的学习笔记.在第五章主要涉及的内容:神经网络.常见激活函数.感知机.多层前馈神经网络 .反向传播算法(BP算法 ...

  6. ID3的REP(Reduced Error Pruning)剪枝代码详细解释+周志华《机器学习》决策树图4.5、图4.6、图4.7绘制

    处理数据对象:离散型数据 信息计算方式:熵 数据集:西瓜数据集2.0共17条数据 训练集(用来建立决策树):西瓜数据集2.0中的第1,2,3,6,7,10,14,15,16,17,4 请注意,书上说是 ...

  7. 周志华 《机器学习初步》模型评估与选择

    周志华 <机器学习初步>模型评估与选择 Datawhale2022年12月组队学习 ✌ 文章目录 周志华 <机器学习初步>模型评估与选择 一.泛化能力 二.过拟合和欠拟合 泛化 ...

  8. 周志华 《机器学习初步》 绪论

    周志华 <机器学习初步> 绪论 Datawhale2022年12月组队学习 ✌ 文章目录 周志华 <机器学习初步> 绪论 一.机器学习 二.典型的机器学习过程 三.计算学习理论 ...

  9. Python 实现 周志华 《机器学习》 BP算法

    习题5.5: 试编程实现标准BP算法和累积BP算法,在西瓜数据集3.0上分别用这两个算法训练一个单隐层网络,并进行比较 算法的主要思想来自周志华<机器学习>上讲BP算法的部分,实现了书上介 ...

  10. 周志华《机器学习》西瓜书新出算法推导视频!(超级详细)

    [文末重金招募讲师]不是每个人都适合2万小时定律,努力的方向不对,就是白努力. 如果你对人工智能跃跃欲试,第一步该怎么办?我通常的做法是,先收集人工智能有关的信息,或者问问身边正在学习的师兄师姐,寻求 ...

最新文章

  1. 用python做算法_自己用python写的螺旋矩阵生成算法
  2. 阿里云E-HPC联合安世亚太、联科集团共建云超算生态
  3. android gridview不显示 自定义,Android gridview和自定义标题
  4. js清空文本框的值_一个Vue.js实例控制字变大变小,含样式操作,flex布局。「603」...
  5. Jzzhu and Chocolate(CF-449A)
  6. 每秒处理10万订单的支付架构
  7. 云栖社区 mysql_mysql
  8. 界面猜拳游戏 java_java猜拳游戏 (3局2胜)
  9. c#操作txt文本之查询
  10. DELL戴尔笔记本电脑找不到或没有DELL触摸板时关闭触摸板方法
  11. ST7789-TFT屏幕驱动(整理有stm32/51单片机/arduino等驱动代码)
  12. java excel 透视_在Java中用Excel创建数据透视表和数据透视图
  13. 蓝牙配对连接HCI log学习
  14. Ubuntu14.10 更新源
  15. 2017ICPC北方邀请赛H题 MJF wants to work(贪心)
  16. Python数据分析入门与实践-笔记
  17. android视频gif编辑器,GIF制作编辑
  18. 燎原老师python_Python之火,可以燎原
  19. 区块链投资基金致力于银行的一亿美…
  20. shellmad-18_C++新特性 智能指针的简易实现及添加模板

热门文章

  1. SageMath矩阵操作及解线性方程组
  2. 格西烽火 串口助手(一)
  3. 95-后程序员一出校门就拿年薪-30多万?,2021Android面试笔试总结
  4. 偏差方差分解Python示例
  5. 下载SNP周围的氨基酸序列的fastq文件
  6. 三角函数π/2转化_三角函数不会做?看这里,带你搞定
  7. 基于微信小程序的投票系统源码
  8. PHP 对和队列的区别,【php】Redis的队列和消息队列的区别是什么?
  9. Python(循环)求方差并将结果组成数组
  10. 流水灯--使用现成的intrins.h中_crol_(variable,number)来实现八位IO口的单个低电平循环