深度丨《主算法》作者 Pedro Domingos 谈机器学习十大误解
【导读】机器学习热潮掀起,关于机器学习的误读也随之盛行。为此,机器学习专家、《主算法》作者、华盛顿大学计算机科学教授 Pedro Domingos 日前撰文,指出当下对于机器学习最为常见的十大误解。结合他以前写的文章《机器学习那些事》,能让你更准确地理解机器学习。“机器学习比我们想像的更强大,也更弱小。如何应用它们是我们的任务——前提是我们对其要有准确的认识。”
机器学习过去常常在背后发挥作用:亚马逊会根据你的点击给你推荐商品,谷歌基于用户搜索的内容放置广告,Facebook会挖掘你的社交网络以选择显示在你时间线上的帖子。但如今机器学习已经成为新闻头条,处在激烈讨论的浪口风尖。学习算法可以驾驶汽车、翻译演讲,甚至赢得 Jeopardy!
那么,哪些是机器学习能做到的,哪些它们是做不到的呢?它们是否会成为终结隐私、工作甚至人类种群的开端呢?
人们对机器学习的关注越来越多是件好事,因为机器学习必将是塑造未来的主要推动力,我们需要去掌握这项技术。但是,关于机器学习存在一些误解,我们先要理清这些误解。所以,来快速看一下主要的一些误解吧:
实际上,机器学习的主要目的是预测未来。知道你过去看过的电影,仅仅能帮助预测你将来可能会喜欢的电影。你的信用记录能预测你是否会准时还款。如同机器人科学家,学习算法能提出假设、不断改进,但只在预测正确时相信它们。 学习算法还没有科学家那么聪明,但是它们要快上数百万倍。
这种印象通常来源于媒体对机器学习的报道。一个著名的例子是,谷歌搜索里“flu”的搜索量增加是流感爆发的早期信号。这挺不错的,但大多数机器学习算法能探索更深层的知识,例如“假如痣的形状不规则,颜色深,而且在增长,那么可能是皮肤癌”。
实际上,机器学习的最流行的类型之一就包含发现因果关系的本质——尝试不同的行动并观察相应的结果。例如,电商网站可以尝试不同的方式呈现商品并选择那个会产生最大购买量的去部署。你可能已经参与过无数这样的实验而不自知。机器学习甚至可以在无法进行试验的情况下发现因果关系,计算机所做的就是观察过去的数据。
如果某件事从未发现,那么它未来会发生的概率肯定是0——不然是什么呢?相反,机器学习能以高准确率预测罕见事件。如果 A 是 B 的致因,而 B 又是 C 的致因,那么 A 可以导致 C 发生,即使我们从未见过A导致C的事件。每天,垃圾邮件过滤器都在准确地标注垃圾邮件。如 2008 年次贷危机这样的“黑天鹅事件”实际上已经被广泛预测过——当然不是使用当时银行的一些问题很大的风险模型。
一般来说,NSA 有越多的通话记录,就越可能将一个无辜群众当做是潜在的恐怖分子,因为他偶然地匹配到了一个恐怖分子检测规则。挖掘同一实体的更多属性可以增加幻觉的风险,但是机器学习专家非常擅长将其降到最低。另外,挖掘同样的属性集的更多的实体能降低这种风险,因为从中学到的规则将会有更强的支持。一些学习算法可以找到包含多个实体的模式,这样可以提升模型的可靠性:一个在拍摄 NY City Hall 的人并不一定是疑犯,另一个购买了大量的硝酸铵的人也不一定可疑;但是如果这两人存在在一个紧密的电话联系中,可能 FBI 需要去看看,确保这不是一个爆炸点。
在机器学习已经渗透的领域里,专家怀疑地看待他们已经知道的一些机器学习算法的“空盘”方式。真实的知识是推理和实验的长期过程的结果,这个你不可能通过运行一个通用的算法进行模仿。但不是所有的学习算法是从一个空盘开始的,一些算法使用数据去提炼已有的知识,这个非常精妙,当然是依照机器可以理解的方式进行编码。
这是一种自然的顾虑。如果一个学习算法是黑盒,我们如何才能相信它做出的推荐?一些类型的模型实际上很难理解,如代表着机器学习取得最显著成功的深度神经网络(能够识别YouTube视频里的猫)。但是,其他的方法确实是可以理解的,比如上面提到的诊断皮肤癌的规则。这种误解是悲观的,就是说他们假设了机器学习比它实际表现更为受限。
但是,也有一些乐观的误解:
这个信念有时候会和奥卡姆剃刀等同起来,但是剃刀法则仅仅是说倾向于更简单的解释,而不是原因。简单模型受欢迎仅仅是它们更加容易被理解、记忆和推理。有时候,与数据一致的最简假设,对预测相对复杂的模型不够准确。一些最强大的学习算法输出的模型,看起来复杂精密得不必要——有时候它们在已经完美地拟合数据后还持续增加。但是,这就是它们能够击败那些相对简单的模型的原因。
假设一个学习算法输出了皮肤癌诊断的规则并且这个规则特别准确(就是能够完全准确地预测出是否确诊),但这不是说你就要相信这些规则。因为数据中微小的变化就可能使得算法导出一个非常不同的——但同样准确的——规则。只有那些可信的规则而不是数据中的随机变化可以被用作相应的权威规则。
AI 发展的新闻中,很容易得到计算机在视觉、听觉和推理上已经达到了人类的水准,很快就将超越人类的错觉。我们已经走过了人工智能的前 50 年,机器学习是人工智能近期的成就的主要原因,但是我们还有很长的路要走。计算机可以做很多专门的任务,但是它们仍旧没有常识的概念,也没有人真正知道如何去教会它们这些。
现在,你已经知道这些误解。机器学习比我们想像的更强大,也更弱小。如何应用它们是我们的任务——前提是我们对其要有准确的认识。
深度丨《主算法》作者 Pedro Domingos 谈机器学习十大误解相关推荐
- 机器学习算法_五分钟了解机器学习十大算法
本文为有志于成为数据科学家或对此感兴趣的读者们介绍最流行的机器学习算法. 机器学习是该行业的一个创新且重要的领域.我们为机器学习程序选择的算法类型,取决于我们想要实现的目标. 现在,机器学习有很多算法 ...
- 《主算法》作者Pedro Domingos:做机器学习硬件不能只考虑深度学习
当前,软件进步的速度已经远远超过了芯片制造商可以实现的进步,这使得他们不知道该从何处开始,更不要说如何将它们已经年老的智慧整合起来. [编者按]本文选自The Next Platform,由机器之心编 ...
- 面试浅谈之十大排序算法
面试浅谈之十大排序算法 HELLO,各位博友好,我是阿呆
- 【深度学习】Deep Learning必备之必背十大网络结构
深度学习网络结构: [深度学习]Deep Learning必备之必背十大网络结构 (从公众号转发过来发现图片不能引用,直接点上面链接吧) 昨天的文章介绍了在学习Deep Learning过程中必须背熟 ...
- 【深度学习计算机指令系统,彻底搞懂指令十大寻址方式】
系列文章目录 1.<带你深挖计算机底层逻辑,打通你计算机基础知识的任督二脉> 2.<深度学习计算机底层原理,深度剖析存储器> 3.<基于内存全面理解高速缓冲存储器> ...
- 机器学习十大算法之Matlab-9降维算法
机器学习十大算法之Matlab-9降维算法 降维算法 PCA算法 对数据集进行PCA后再重构 PCA降维-Matlab代码 例子1-系统pca做降维pca_mat.m 例子2-系统pca对简单数据集降 ...
- Algorithm:【Algorithm算法进阶之路】之十大经典排序算法
Algorithm:[Algorithm算法进阶之路]之十大经典排序算法 相关文章 Algorithm:[Algorithm算法进阶之路]之数据结构二十多种算法演示 Algorithm:[Algori ...
- 新手入门机器学习十大算法
新手入门机器学习十大算法 2018年9月17日 磐石 TensorFlowNews, 机器学习 0 在机器学习的世界中,有一种被称为"无免费午餐"的定理. 它意在说明没有哪种算法能 ...
- 机器学习十大经典算法之岭回归和LASSO回归
机器学习十大经典算法之岭回归和LASSO回归(学习笔记整理:https://blog.csdn.net/weixin_43374551/article/details/83688913
最新文章
- Spark机器学习(9):FPGrowth算法
- ASP用DSN连接数sql数据库
- linux下用u盘安装xp系统安装教程,全新Linux笔记本电脑用U盘装Win7/XP系统教程
- Vue $nextTick
- opencv python 直方图反向投影_python OpenCV学习笔记直方图反向投影的实现
- 自动补足算法是什么_如何自定义Shell(Fish版)的自动补全规则?
- 转【28个Unix/Linux的命令行神器-----陈皓】
- hdu 1104 Remainder
- Go语言——图形界面编程
- 机器学习实战练手项目
- 【python 淘宝爬虫】淘宝信誉分抓取
- 中国歌手翻唱的日本歌曲(转)
- ios真机测试,Ineligible Devices,不可以选中真机
- 休问情怀谁得似——冰雪小五台苦旅记(十完结篇)
- 脑与认知神经科学Matlab Psytoolbox认知科学实验设计——实验设计一
- Android通过Chrome Inspect调试WebView的H5 App出现空白页面的解决方法(不需要FQ)
- 【转载】采样频率、采样点数、频率分辨率
- 远程桌面树莓派【内网穿透】
- 使用Python获取股市市场概念数据
- Kubernetes PV和PVC 常见问题
热门文章
- 【必点】程序员自助SDCC热门主题+图书豪华套餐
- 基于深度学习神经网络等机器学习技术实现一个医学辅助诊断的专家系统原型
- 一起学spring--依赖注入---简单粗暴的例子展示
- 你的每个哈欠老板都知道!被AI摄像头全天盯紧,亚马逊快递小哥不干了
- Nature封面:AI与人类斗嘴谁更强?IBM团队发布“AI辩论家”最新研究进展
- 研究生被录取后放导师鸽子,学校要上报教育部失信名单取消其推免资格
- 谷歌新一轮裁员,云计算部门 50 人首当其冲
- 清华大学-刘知远:自然语言理解难在哪儿?
- 澳大利亚悉尼科技大学招收人工智能/软件工程方向全奖博士生
- CVPR 2021大奖出炉!何恺明获最佳论文提名,第一届Thomas S. Huang 纪念奖颁发