如何向普通人解释机器学习、数据挖掘
随着数据科学在人工智能发展中大放异彩,数据挖掘、机器学习进入了越来越多人的视野。而对于很多人来说,诸如机器学习之类的名次听起来是神乎其技,但其真正的内涵却不为一般人所知。
特别是对于从事数据科学领域的人来说,如何向外行人解释自己所从事的工作几乎是一个超级难题。那么到底什么是机器学习,如何用通俗易懂的语言来解释?我们通过以下几重境界来解释。
一、专业理论型
百科定义+专业术语,让人听起来不明觉厉,实则一脸懵逼。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
机器学习从本质上来说是一种学习结构, 整个结构包括环境、知识库和执行三个部分。 在整个过程中,环境向系统提供信息,系统利用这些信息修改知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分,从而继续改进知识库。
在具体的应用中,环境、知识和执行部分决定了具体的工作内容,学习部分所需要解决的问题完全由上述三部分确定。 简单来说,机器学习就是计算机利用已有的数据,得出了某种模型,并利用此模型预测未来的一种方法, 这与人脑的思考方式非常类似。
二、以小见大型
以某种机器学习具体的案例来说明,让人恍然大悟。
一开始我们先来看一个人为设计的场景。假设一个房间里神奇地漂浮着无数个小球。我们想搞清楚这些小球停留的位置是否存在着一种特定的结构。比方说,小球是不是更易集中在某一特定区域?是不是故意避开某些点位?它们是均匀分布于整个空间吗?
但是房间一片漆黑,我们什么也看不见。于是我们找来了一部带闪光灯的照相机,想把漂浮在整个房间的小球都拍下来。照片犹如下图一样:
就算小球的位置之间确实存在某种联系,从这张照片上我们也看不出个所以然。看上去小球就像是均匀分布的一样。所以我们尝试着换了下位置,从新的角度拍下了第二张照片。
照片上的小球看起来还是随机分布的,没有任何规律。让我们换个高点的角度试试看。
呃,还是看不出有什么规律来。那我们最后再换个低点的角度试一次。
啊哈,这次有点意思了:看起来小球集中分布在靠近屋顶和地面的两个区域,中间这段没有一个小球。因此,为了发现这个规律,我们在拍照时就必须找到一个“好”的角度。如果角度不对,那我们永远都不可能找出任何规律。
在上面这个例子中,我们想说的其实是三维数据点。每个小球的位置都可以由3个数字来表示,每个数字分别代表它在XYZ三条轴上的位置。在实际的电脑运算中,数据点的位置会由更多的数字组合来表示。
比如医院病人的病历可能会包含500组数字,包括他的生日年月日、身高、体重、血压、最近一次的看病记录、胆固醇指标等等。我们会想要搞清楚不同病人的数据点之间是否存在某种规律,如心脏病人的数据点是否会集中分布?如果数据点确实会集中分布,当我们发现新入院病人的数据点也出现同样的趋势时,我们就可以推断这位病人很可能犯心脏病。当然,实际操作起来肯定不会如此简单。
一个人是不可能用肉眼看到这些数据点的。人怎么可能分得清500个维度呢?就像在上面那个例子中,没有人能看得清“黑屋”中小球,我们也同样看不见500个维度中的那些数据点。我们可以用二维图片来展示位于三维空间中的数据点,用同样的方法,我们也可以更低维度的“照片”来表现拥有500个维度的数据点。
只有从合适的“角度”拍下“照片”,我们才可以从中找出不同数据点之间的规律,不然将很难有所发现。这就是人们所说的如何从“大数据”中“发现见解”。
三、晓之以情,动之以理
这样来说,你家宠物应该都可以听明白了。
买点芒果去
假设有一天你准备去买点芒果。有个小贩摆放了一车。你可以一个一个挑,然后小贩根据你挑的芒果的斤两来算钱(在印度的典型情况)。显然,你想挑最甜最熟的芒果对吧(因为小贩是按芒果的重量来算钱,而不是按芒果的品质来算钱的)。可是你准备怎么挑呢?
你记得奶奶和你说过, 嫩黄的芒果比暗黄的甜。 所以你有了一个简单的判断标准:只挑嫩黄的芒果。你检查各个芒果的颜色, 挑了些嫩黄的,买单,走人,爽不?
可事实没那么简单。
生活是很复杂的
你回到家,开始慢慢品尝你的芒果。你发现有一些芒果没有想的那么甜。你焦虑了。显然,奶奶的智慧不够啊。挑芒果可不是看看颜色那么简答的。
经过深思熟虑(并且尝了各种不同类型的芒果), 你发现那些大个儿的,嫩黄的芒果绝对是甜的,而小个儿,嫩黄的芒果,只有一半的时候是甜的(比如你买了100个嫩黄的芒果,50个比较大,50个比较小, 那么你会发现50个大个儿的芒果是甜的,而50个小个儿的芒果,平均只有25个是甜的)。
你对自己的发现非常开心,下次去买芒果的时候你就将这些规则牢牢的记在心里。但是下次再来到市集的时候,你发现你最喜欢的那家芒果摊搬出了镇子。于 是你决定从其它卖芒果的小贩那里购买芒果,但是这位小贩的芒果和之前那位产地不同。现在,你突然发现你之前学到的挑芒果办法(大个儿的嫩黄的芒果最甜)又 行不通了。你得从头再学过。你在那位小贩那里,品尝了各类芒果,你发现在这里,小个儿、暗黄的芒果其实才是最甜的。
没多久,你在其它城市的远房表妹来看你。你准备好好请她吃顿芒果。但是她说芒果甜不甜无所谓,她要的芒果一定要是最多汁的。于是,你又用你的方法品尝了各种芒果,发现比较软的芒果比较多汁。
之后,你搬去了其它国家。在那里,芒果吃起来和你家乡的味道完全不一样。你发现绿芒果其实比黄芒果好吃。
再接着,你娶了一位讨厌芒果的太太。她喜欢吃苹果。你得天天去买苹果。于是,你之前积累的那些挑芒果的经验一下子变的一文不值。你得用同样的方法,去学习苹果的各项物理属性和它的味道间的关系。你确实这样做了,因为你爱她。
有请计算机程序出场
现在想象一下,最近你正在写一个计算机程序帮你挑选芒果(或者苹果)。你会写下如下的规则:
if(颜色是嫩黄 and 尺寸是大的 and 购自最喜欢的小贩): 芒果是甜的
if(软的): 芒果是多汁的
………………
你会用这些规则来挑选芒果。你甚至会让你的小弟去按照这个规则列表去买芒果,而且确定他一定会买到你满意的芒果。
但是一旦在你的芒果实验中有了新的发现, 你就不得不手动修改这份规则列表。你得搞清楚影响芒果质量的所有因素的错综复杂的细节。
如果问题越来越复杂, 则你要针对所有的芒果类型,手动地制定挑选规就变得非常困难。你的研究将让你拿到芒果科学的博士学位(如果有这样的学位的话)。
可谁有那么多时间去做这事儿呢。
有请机器学习算法
机器学习算法是由普通的算法演化而来。通过自动地从提供的数据中学习,它会让你的程序变得更“聪明”。
你从市场上的芒果里随机的抽取一定的样品(训练数据), 制作一张表格, 上面记着每个芒果的物理属性, 比如颜色, 大小, 形状, 产地, 卖家, 等等。(这些称之为特征)。
还记录下这个芒果甜不甜, 是否多汁,是否成熟(输出变量)。你将这些数据提供给一个机器学习算法(分类算法/回归算法),然后它就会学习出一个关于芒果的物理属性和它的质量之间关系的模型。
下次你再去市集, 只要测测那些芒果的特性(测试数据),然后将它输入一个机器学习算法。算法将根据之前计算出的模型来预测芒果是甜的,熟的, 并且/还是多汁的。
该算法内部使用的规则其实就是类似你之前手写在纸上的那些规则(例如, 决策树),或者更多涉及到的东西,但是基本上你就不需要担心这个了。
瞧,你现在可以满怀自信的去买芒果了,根本不用考虑那些挑选芒果的细节。更重要的是,你可以让你的算法随着时间越变越好(增强学习),当它读进更多 的训练数据, 它就会更加准确,并且在做了错误的预测之后自我修正。但是最棒的地方在于,你可以用同样的算法去训练不同的模型, 比如预测苹果质量的模型, 桔子的,香蕉的,葡萄的,樱桃的,西瓜的,让所有你心爱的人开心:)
这,就是专属于你的机器学习,很炫酷吧。
End
如何向普通人解释机器学习、数据挖掘相关推荐
- 如何给普通人解释机器学习是什么
数据挖掘只是机器学习中涉猎的领域之一,机器学习还有模式识别.计算机视觉.语音识别.统计学习以及自然语言处理等,而在目前机器学习中,深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分 ...
- 报名 | AI Time:“ 论道自动机器学习与可解释机器学习”
深度学习在各个领域取得了骄人的成绩,基本是舍我其谁了.之前还存在如何调参.如何选架构的问题,最近随着自动机器学习(AutoML)的快速发展,Neural architecture search(NAS ...
- 《可解释机器学习》中文资源重磅来袭!复旦研究生翻译,原作者转发点赞!...
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自:量子位 前言 我曾经介绍过一本不错的书籍:<A Gudie for ...
- 【赠书】金融领域可解释机器学习模型与实践
今天要给大家介绍的书是<可解释机器学习:模型.方法与实践>,涵盖了可解释机器学习前沿的研究成果及行业成功应用经验. 本书内容 本书分为三部分: 第一部分为背景,阐述黑盒模型存在的问题 ...
- lime 深度学习_用LIME解释机器学习预测并建立信任
lime 深度学习 It's needless to say: machine learning is powerful. 不用说:机器学习功能强大. At the most basic level, ...
- 终于有人把可解释机器学习讲明白了
导读:为了解决模型的"黑盒"问题,科学家们提出了可解释机器学习.除了预测的精准性之外,可解释性也是机器学习模型是否值得信赖的重要衡量标准. 可解释机器学习(IML)的核心思想在于选 ...
- 唯一《可解释机器学习》中文书来了:复旦研究生翻译,原作者转发点赞
晓查 整理 量子位 报道 | 公众号 QbitAI 新冠疫情的出现,让许多AI医疗技术浮出水面. 但是AI一直黑箱问题存在,如果AI对过程都不能做到可解释,又怎么能放心让它来诊断病患呢.而关于机器学 ...
- 【转】通过身边小事解释机器学习是什么?
转载地址 : 通过身边小事解释机器学习是什么 一个给不知道机器学习是什么东西的人讲的一个挺不错的例子,方法. 今天从quora上看了一个问题:如何给不是CS的学生,给不知道机器学习和数据挖掘的学生,讲 ...
- 可解释机器学习(Explainable/ Interpretable Machine Learning)的原理和应用(李宏毅视频课笔记)
文章目录 0 前言 1 Introduction of Explainable/ Interpretable ML 1.1 Why we need Explainable ML? 1.2 Interp ...
- 关于如何解释机器学习的一些方法
关于如何解释机器学习的一些方法 到现在你可能听说过种种奇闻轶事,比如机器学习算法通过利用大数据能够预测某位慈善家是否会捐款给基金会啦,预测一个在新生儿重症病房的婴儿是否会罹患败血症啦,或者预测一位消费 ...
最新文章
- 从输入字段读取属性时,HTML编码丢失
- python变量区分大小写吗_Python变量名是不是区分大小写的
- S5PV210开发 -- Linux dd命令
- php面向对象公共类,PHP面向对象(一):类与类的实例化
- 查看-增强会话_会话式人工智能-关键技术和挑战-第2部分
- 聊天ListView使用ViewHolder
- 【C++grammar】左值、右值和将亡值
- Jenkins_获取源码编译并启动服务(二)
- 灵感|APP夜间模式如何设计?
- ASP.NET MVC 后台中 设置 js提示
- 干净虚拟机(centos 6.4)上从头到尾安装并调试Mdrill(二)
- 医院管理数据库课程设计
- aspectjweaver和aspectjrt的作用
- 【史上最全】数据分级分类标准、指南和模板
- IIS7下DataFormatString={0:c}人民币符号为?的问题
- 车轱辘通知挪车、车牌识别
- 国庆假期微信大数据报告
- [拼搏到底之龟兔赛跑--Day 16]一套兽医作家写的小说--“大地”系列
- GitHub 上 100K+ Star 的前端面试开源项目汇总(进大厂必备)
- Linux安装配置MySQL8.0 打war包 启动项目