介绍

在机器学习的所有高级流行语中,我们很少听到一个短语将统计学习、信息论和自然哲学的一些核心概念融合成一个三个单词的组合。

并且,它不仅仅是一个用于机器学习(ML)博士和理论家的短语。对于任何有兴趣探索的人来说,它都具有精确且易于理解的含义,而且对于机器学习(ML)和数据科学的实践者来说,它是一种实用的回报。

我们说的是最小描述长度(Minimum Description Length)。你可能会想这到底是什么…

贝叶斯和他的定理

那是18世纪下半叶,当时还没有叫做“概率论”的数学科学分支。人们知道这一点,仅仅是因为听起来颇为奇怪的“机会主义”——以亚伯拉罕•德•莫耶弗(Abraham de Moievre)的一本书命名。1763年,一篇名为《关于解决机会主义问题的论文》的文章被读给皇家学会,并发表在《伦敦皇家学会哲学学报》上。在这篇文章中,贝叶斯用一种相当频繁的方式描述了一个关于联合概率的简单定理,它导致了反概率的计算,即贝叶斯定理。

从那以后,统计科学的两个敌对派别——贝叶斯学派和弗伦库姆斯学派之间爆发了多次争论。让我们暂时忽略历史,集中于对贝叶斯推理机制的简单解释。我只关注方程。

这基本上告诉您在看到数据/证据(可能性)后更新您的belief (先验概率)并将更新的degree of belief 分配给后验概率你可以从一个belief开始,但是每个数据点要么加强要么削弱你的belief,你会一直更新你的假设。

在统计推断的世界中,假设是一种belief 。这是一种关于过程本质的belief(我们永远无法观察到),它是在产生一个随机变量(我们可以观察或测量它,尽管不是没有噪声)之后。在统计学中,它通常被定义为一个概率分布。但在机器学习的背景下,它可以被认为是任何一套规则(逻辑或过程),我们相信,这些规则可以产生例子或训练数据,我们被赋予学习这个神秘过程的隐藏本质。

所以,让我们试着在不同的符号中重新定义贝叶斯定理——与数据科学相关的符号。我们用D表示数据,用h表示假设,这意味着我们使用贝叶斯公式来确定数据来自什么假设,给定数据。我们把定理重写为,

现在,一般来说,我们有一个很大的(通常是无限的)假设空间,即许多假设可供选择。贝叶斯推断的本质是我们想要检查数据以最大化一个假设的概率,该假设最有可能产生观察到的数据。我们基本上想要确定P(h | D)的argmax,即我们想知道哪个h,观察到的D最有可能。为此,我们可以把这个项放到分母P(D)中因为它不依赖于假设。这一方案以极大后验(MAP)这个饶舌的名字而闻名。

现在,我们应用以下数学技巧,

  • 对于原函数,即取对数,极大化的工作原理与之相似,但这并没有改变极大化的问题。
  • 乘积的对数是各个对数的总和
  • 数量的最大化等同于负数量的最小化

这来自信息论

香农

要描述克劳德·香农的天才和奇异的一生,需要大量的篇幅。香农几乎是单枪匹马奠定了信息论的基础,引领我们进入了现代高速通信和信息交流的时代。

香农在麻省理工学院(mit)的电子工程硕士论文被称为20世纪最重要的硕士论文:22岁的香农在论文中展示了如何利用继电器和开关的电子电路实现19世纪数学家乔治布尔(George Boole)的逻辑代数。数字计算机设计的最基本的特征——“True”、“False”、“0”和“1”的表示作为打开或关闭的开关,以及使用电子逻辑门来做决策和执行算术——可以追溯到香农论文中的见解。

但这还不是他最大的成就。

1941年,香农去了贝尔实验室,在那里他从事战争事务,包括密码学。他还在研究信息和通信背后的原创理论。1948年,贝尔实验室的研究杂志发表了一篇著名的论文。

香农定义了由一个源所产生的信息数量, 例如, 消息中的数量, 这个公式类似于物理中定义热力学熵的方程式。在最基本的术语中, 香农的信息熵是编码消息所需的二进制位数。对于具有概率 p 的消息或事件, 该消息的最有效 (即紧凑) 编码将需要-log2 (p) 位。

这正是出现在贝叶斯定理中的最大后验表达式中出现的那些术语的本质!

因此,我们可以说,在贝叶斯推理的世界中,最可能的假设依赖于两项,这两项唤起了长度的感觉——而不是最小长度。

Length(h):奥卡姆剃刀

奥克汉姆的威廉(约1287-1347)是一位英国Franciscan修士和神学家,也是一位有影响力的中世纪哲学家。作为一个伟大的逻辑学家,他的名声主要来自于他的格言,也就是众所周知的奥卡姆剃刀。剃刀一词指的是通过“剔除”不必要的假设或割裂两个相似的结论来区分两个假设。

确切地说,他说的是:“实体非必然的多元必然性”(实体不能超过必然性而倍增)。用统计学的话说,这意味着我们必须努力用最简单的假设来解释所有的数据。

类似的原则得到了其他杰出人物的响应。

艾萨克·牛顿爵士:“我们不应该承认任何自然事物的原因,就像那些既真实又足以解释其表象的事物一样。”

Bertrand Russell:“只要可能,用已知实体的结构替换未知实体的推论。”

下列哪一个决策树具有较小的长度?A还是B?

即使没有一个假设的“长度”的精确定义,我相信你会认为左边(A)的树看起来更小或更短。当然,你是对的。因此,一个更短的假设是一个要么自由参数更少,要么复杂决策边界更少(对于一个分类问题)的假设,或者这些属性的组合可以表示它的简洁性。

Length(D|h)

它是假设数据的长度。这是什么意思?

直觉上,它与假设的正确性或表征能力有关。除其他事项外,它还包含一个假设,即“推断”数据的好坏程度。如果假设真的很好地生成数据并且我们可以无错误地测量数据,那么我们根本不需要数据。

想想牛顿运动定律。

它们最初出现在《Principia》一书中,并没有任何严格的数学证明。它们不是定理。它们很像基于对自然物体运动的观察而做出的假设。但是他们对数据的描述非常非常好。因此它们就变成了物理定律。

这就是为什么你不需要保持和记住所有可能的加速度数字作为一个力作用于物体的函数。你只需要相信compact hypothesis,即F=ma,并相信所有你需要的数字,都可以在必要时从它计算出来。它使得长度(D|h)非常小。

但是如果数据与compact hypothesis有很大的偏差,那么你需要对这些偏差有一个很长的描述,可能的解释等等。

因此,Length(D|h)简洁地表达了“数据与给定假设的吻合程度”的概念。

本质上,它是错误分类或错误率的概念。对于完美的假设,它是短的,在极限情况下为零。对于一个不完全符合数据的假设,它往往比较长。

这就是权衡。

如果你用奥卡姆剃刀刮掉了你的假设,你很可能会得到一个简单的模型,一个不适合所有数据的模型。因此,你必须提供更多的数据来获得更好的brief。另一方面,如果你创建一个复杂的(长时间的)假设,你可能会很好地拟合你的训练数据,但这实际上可能不是正确的假设,因为它违背了具有小熵的假设的映射原则。

听起来像是偏差差权衡?是的

三者结合

因此,贝叶斯推理告诉我们,最好的假设是最小化假设的长度和错误率这两项之和。

在这个意义深远的句子中,它几乎囊括了所有(有监督的)机器学习。

  • 线性模型的模型复杂度-多项式选择,如何减少残差平方和。
  • 神经网络结构的选择-如何不过度拟合训练数据,达到良好的验证精度,但减少分类误差。
  • 支持向量机正则化和核选择-软与硬边界的平衡,即用决策边界非线性来平衡精度。

结论

一个奇妙的事实是,如此简单的一套数学操作就能在概率论的基本特征上产生如此深刻而简洁的描述监督机器学习的基本限制和目标。读者可以参考卡内基梅隆大学(Carnegie Mellon University)的博士论文《机器学习为何有效》(Why Machine Learning Works),以简明地阐述这些问题。同样值得思考的是,所有这些理论是如何与“没有免费午餐定理”理论联系起来的。

原文:https://towardsdatascience.com/when-bayes-ockham-and-shannon-come-together-to-define-machine-learning-96422729a1ad

【机器学习】当贝叶斯、奥卡姆和香农一起来定义机器学习时相关推荐

  1. 当贝叶斯,奥卡姆和香农一起来定义机器学习

    来源:数学中国 [导读]当贝叶斯.奥卡姆和香农一起给机器学习下定义,将统计学.信息理论和自然哲学的一些核心概念结合起来,我们便会会发现,可以对监督机器学习的基本限制和目标进行深刻而简洁的描述. 令人有 ...

  2. 秒懂机器学习---朴素贝叶斯

    秒懂机器学习---朴素贝叶斯 一.总结 一句话总结: 尽管朴素贝叶斯的条件独立性假设存在一定的问题,但是朴素贝叶斯算法仍然能取得比较理想的分类预测结果. 1.朴素贝叶斯分类算法 和 KNN分类算法和决 ...

  3. 【机器学习】贝叶斯机器学习:经典模型与代码实现

    贝叶斯机器学习 Author:louwill Machine Learning Lab 贝叶斯定理是概率模型中最著名的理论之一,在机器学习中也有着广泛的应用.基于贝叶斯理论常用的机器学习概率模型包括朴 ...

  4. 机器学习朴素贝叶斯算法+tkinter库界面实现好瓜坏西瓜分类

    机器学习朴素贝叶斯算法+tkinter库界面实现好瓜坏西瓜分类 一.界面实现 from tkinter import * from tkinter import ttk import NBdef ma ...

  5. 机器学习朴素贝叶斯算法_机器学习中的朴素贝叶斯算法

    机器学习朴素贝叶斯算法 朴素贝叶斯算法 (Naive Bayes Algorithm) Naive Bayes is basically used for text learning. Using t ...

  6. 机器学习: 贝叶斯算法的应用

    机器学习: 贝叶斯算法的应用 背景 数据集及源码 互联网经济蓬勃发展的背景下,食品经营模式发生了天翻地覆的变化,人们的消费习惯也悄然发生了转变.通过点击手机APP上自己喜欢的食品, 这些食品就能按时准 ...

  7. python机器学习-朴素贝叶斯(Naive Bayes)模型建立及评估(完整代码+实现效果)

    实现功能: python机器学习-朴素贝叶斯(Naive Bayes)模型建立及评估. 实现代码: # 导入需要的库 from warnings import simplefilter simplef ...

  8. 机器学习 | 朴素贝叶斯法知识总结

    机器学习 | 朴素贝叶斯法理论知识 贝叶斯决策论是概率框架下实施决策的基本方法.对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记.朴素贝 ...

  9. 机器学习朴素贝叶斯_机器学习基础朴素贝叶斯分类

    机器学习朴素贝叶斯 In the previous stories, I had given an explanation of the program for implementation of v ...

最新文章

  1. 完成U-net细胞分割的一些准备
  2. .jsp后缀语言_ARM汇编语言入门(三)
  3. 手动使用cglib代理(了解)
  4. Mysql一主多从和读写分离配置简记
  5. abb机器人searchl报错_西门子PLC1200与ABB机器人通信
  6. CoffeeScript学习(3)—— 函数
  7. curl 断点下载 wget下载
  8. MCSA / Windows Server 2016 安装Desktop Experience
  9. 提取图片文字,python三行代码足矣!
  10. LaTeX 表格标题位置无法移动的问题
  11. 计算机蓝屏代码0xc0000020,Win10打开软件提示“损坏的映像 错误0xc0000020”的解决方法...
  12. 【诡秘之主】封印物篇
  13. HDU3785寻找大富翁~~真真切切的水题
  14. 什么是“与尺度无关的”变量
  15. 3D智慧仓储可视化解决方案
  16. mac挂载阿里云盘做本地盘【webdav-aliyundriver】【CloudMounter】
  17. 2020,AI创业与投资进入“深水区”
  18. 翻译工作必备,英文标点符号使用规则
  19. word/excel/cad中插入二维码
  20. IPO夭折,喜马拉雅陷入“非战之罪”?

热门文章

  1. 英雄会第一届在线编程大赛:单词博弈 (解题思路) ---miss若尘
  2. respberry pi 树莓派系统设置返回英文English
  3. Word中 mytype公式编辑器编辑的公式与文字不对齐,偏上的问题
  4. MYSQL 查询语句(No.10)
  5. 智慧街道智慧社区一体化综合管理平台Java商业源码
  6. 设置夜神模拟器自动连接功能
  7. Allegro,如何编辑修改已放置器件封装中单个焊盘
  8. 语音识别类产品的分类及应用场景
  9. 计算机专业英语答案任伟,专业英语教案
  10. Yan LeCun会是AI界的居里夫人吗?