理解熵：机器学习的黄金标准

TL; DR：熵是对系统中混沌的一种度量。因为它比诸如准确性甚至均方误差之类的其他更严格的度量标准更具动态性，所以使用熵来优化从决策树到深度神经网络的算法已显示出可以提高速度和性能。

作者：闻数起舞来源：今日头条|2020-07-27 08:00

从决策树到神经网络

它在机器学习中无处不在：从决策树的构建到深度神经网络的训练，熵是机器学习中必不可少的度量。

熵源于物理学-它是系统中无序或不可预测性的量度。例如，在一个盒子里考虑两种气体：一开始，系统的熵很低，因为这两种气体是完全可分离的。但是，一段时间后，气体混合在一起，系统的熵增加。有人说，在一个孤立的系统中，熵永远不会减小，没有外力，混沌就不会减弱。

例如，考虑一次抛硬币-如果抛硬币四次而发生事件[尾巴，头，头，尾]。如果您(或机器学习算法)要预测下一次硬币翻转，则可以确定地预测结果-系统包含高熵。另一方面，具有事件[尾巴，尾巴，尾巴，尾巴]的加权硬币的熵极低，并且根据当前信息，我们几乎可以肯定地说下一个结果将是尾巴。

适用于数据科学的大多数情况都介于天文学的高熵和极低的熵之间。高熵意味着低信息增益，而低熵意味着高信息增益。可以将信息获取视为系统中的纯净性：系统中可用的纯净知识量。

决策树在其构造中使用熵：为了尽可能有效地将一系列条件下的输入定向到正确的结果，将熵较低(信息增益较高)的特征拆分(条件)放在树上较高位置。

为了说明低熵条件和高熵条件的概念，请考虑假设类特征，其类别用颜色(红色或蓝色)标记，而拆分用垂直虚线标记。

决策树计算特征的熵并对其进行排列，以使模型的总熵最小(并使信息增益比较大)。从数学上讲，这意味着将最低熵条件放在顶部，以便它可以帮助降低其下方的拆分节点的熵。

决策树训练中使用的信息增益和相对熵定义为两个概率质量分布p(x)和q(x)之间的"距离"。也称为Kullback-Leibler(KL)散度或Earth Mover的距离，用于训练对抗性网络以评估生成的图像与原始数据集中的图像相比的性能。

神经网络最喜欢的损失函数之一是交叉熵。无论是分类的，稀疏的还是二进制的交叉熵，该度量标准都是高性能神经网络的默认损耗函数之一。它也可以用于几乎所有分类算法的优化，例如逻辑回归。像熵的其他应用(例如联合熵和条件熵)一样，交叉熵是对熵进行严格定义的多种口味之一，适合于独特的应用。

像Kullback-Lieber发散(KLD)一样，交叉熵也处理两个分布p和q之间的关系，分别表示真实分布p和近似分布q。但是，KLD衡量两个分布之间的相对熵，而交叉熵衡量两个分布之间的"总熵"。

度量定义为使用模型分布q对来自分布p的源的数据进行编码所需的平均位数。如果考虑目标分布p和近似值q，我们希望减少使用q而不是p表示事件所需的位数。另一方面，相对熵(KLD)衡量从分布q中的p表示事件所需的额外位数。

交叉熵似乎是衡量模型性能的一种回旋方式，但是有几个优点：

基于准确性/错误的指标存在多个问题，包括对训练数据顺序的极端敏感性，不考虑置信度，并且对可能导致错误结果的各种数据属性缺乏鲁棒性。它们是非常粗略的绩效指标(至少在培训期间)。
交叉熵可以衡量信息内容，因此比简单强调所有复选框的度量标准更具动态性和可靠性。预测和目标被视为分布，而不是等待回答的问题列表。
它与概率的性质密切相关，并且特别适用于S型和SoftMax激活(即使它们仅用于最后一个神经元)，有助于减少消失的梯度问题。逻辑回归可以视为二进制交叉熵的一种形式。

尽管熵并不总是最佳的损失函数(尤其是在目标函数p尚未明确定义的情况下)，但熵通常表现为性能增强，这说明了熵在任何地方都存在。

通过在机器学习中使用熵，它的核心组成部分(不确定性和概率)可以通过交叉熵，相对熵和信息增益等思想得到很好的体现。熵对于处理未知数非常明确，这在模型构建中非常需要。当模型在熵上进行优化时，它们能够以增强的知识和目标意识在不可预测的平原上徘徊。

【编辑推荐】

关于如何使用机器学习来做异常检测的7个问题
人工智能在边缘计算中的优势
人工智能时代，“下一代”教育从哪里入手？
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同
边缘仓储：9种新兴仓储技术

理解熵：机器学习的黄金标准相关推荐

ML：MLOps系列讲解之《CRISP-ML (Q)ML生命周期过程—了解机器学习开发的标准过程模型—业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护》解读
ML:MLOps系列讲解之<CRISP-ML (Q)ML生命周期过程-了解机器学习开发的标准过程模型-业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护& ...
【统计机器学习】考核标准 + 课堂练习题汇总
写在前面 1:上课老师是:付学谦老师及其博士助教.上课带纸笔和人就行. 2:上课的内容和作业量相比于其他选修课较为轻松,且只有大作业和论文报告,没有考试!!!基本上最后会留20min给同学们写课堂练习 ...
程序员如何实现编码黄金标准？
编程的黄金标准是Linux,版本控制的黄金标准是Git--那么程序员是否可以合理地同时使用代码和模型,并用版本控制管理两者?本文分享如何利用Linux,Git,MetaEdit+三剑客解决版本管理.建 ...
读书笔记，《刻意练习》，第四章，黄金标准
有目的的练习虽然很有效,但是他忽略了一些东西.除了简单的集中注意力,并且迫使人们走出舒适区,其实还有一些其他的事情值得我们注意. 比如在前面的记忆训练当中,史蒂夫.法龙能够记住82个数字,而雷尼尽 ...
[机器学习]理解熵，交叉熵和交叉熵的应用
一信息量信息论当中的熵指的是信息量的混乱程度,也可以理解成信息量的大小. 举个简单的例子,以下两个句子,哪一个句子的信息量更大呢? 我今天没中彩票我今天中彩票了从文本上来看,这两句话的字数一致 ...
通俗易懂理解~图机器学习导论
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|计算机视觉联盟 [ 导读 ] 图是强大的数据结构,可以被用 ...
交叉熵损失函数和focal loss_理解熵、交叉熵和交叉熵损失
交叉熵损失是深度学习中应用最广泛的损失函数之一,这个强大的损失函数是建立在交叉熵概念上的.当我开始使用这个损失函数时,我很难理解它背后的直觉.在google了不同材料后,我能够得到一个令人满意的理解, ...
【理财入门三】你必须理解的金融常识—黄金
今天是2021年12月10日,中午与同事共进午餐的时候,听到说他买了黄金相关的基金,最近跌了很多,听到这里我心里一愣:黄金! 那么,从短期.长期来看黄金究竟会涨还是会跌呢?听我娓娓道来: 一.黄金是什 ...
理解熵(信息熵,交叉熵,相对熵)
Highlights: 1)信息熵:编码方案完美时,最短平均编码长度的是多少. 2)交叉熵:编码方案不一定完美时(由于对概率分布的估计不一定正确),平均编码长度的是多少. 平均编码长度 = 最短平均编 ...

理解熵：机器学习的黄金标准

理解熵：机器学习的黄金标准

理解熵：机器学习的黄金标准相关推荐

最新文章

热门文章