作者: 许铁

开头先开个玩笑, 有人说“信贝爷, 得永生” 你是否理解此中真意?

贝爷是这位, 生前是个神父。

贝叶斯分析是整个机器学习的基础框架, 它的思想之深刻远出一般人所认知的, 我们这里要从贝叶斯统计说起。

首先谈概率,概率这件事大家都觉得自己很熟悉, 叫你说概率的定义 , 你却不一定说的出,我们中学课本里说概率这个东西表述是一件事发生的频率, 或者说这叫做客观概率。

而贝叶斯框架下的概率理论确从另一个角度给我们展开了答案, 他说概率是我们个人的一个主观概念, 表明我们对某个事物发生的相信程度。 如同Pierre Lapalace说的: Probability theory is nothing but common sense reduced to calculation. 这正是贝叶斯流派的核心,换句话说,它解决的是来自外部的信息与我们大脑内信念的交互关系。

两种对于概率的解读区别了频率流派和贝叶斯流派。如果你不理解主观概率就无法理解贝叶斯定律的核心思想。

我们来看一下贝叶斯统计的一个有趣的案例案例:假如你是一个女生, 你在你的老公书包里发现了一个别的女人的内裤那么他出轨的概率是多少。

图:贝爷居然能解决家庭纠纷?

稍微熟悉这个问题的人对会知道做这个题目你要先考察基率,你要把这个问题分解为几步考虑:

1,你老公在没有任何概率情况下出轨的概率是多少? 如果他是个天生老实巴交的程序员或者风流倜傥的CEO, 那么显然不该一视同仁

2,如果你老公出轨了, 那么他有一条内裤的概率是多少, 如果他没出轨, 出现这个情况概率有多少? 想想一般人即使出轨也不会犯那么傻的错误, 会不会有没出轨而出现内裤的状况? 有没有可能是某个暗恋你老公的人的陷害?

3, 根据1 和2求解最终问题,这才是拥有大学数学能力的你该做的分析。

在这里1其实就是先验概率P(A),而2是条件概率P(B|A), 最终得到3后验概率P(A|B)。这三种即是贝叶斯统计的三要素。

基于条件概率的贝叶斯定律数学方程极为简单:

A即出轨, B是内裤出现, 你得到1,2,就可以根据公式算出根据根据内裤出现判断出轨的概率。

先验概率在贝叶斯统计中具有重要意义,首先先验概率即我们在取得证据之前所指定的概率P(A), 这个值通常是根据我们之前的常识,带有一定的主观色彩。 就像刚刚说的出轨的问题, 你的先验概率代表了你对你男人的信心。

有一个非常有趣的现象是如果我们的先验概率审定为1或0(即肯定或否定某件事发生), 那么无论我们如何增加证据你也依然得到同样的条件概率(此时P(A)=0 或 1 , P(A|B)= 0或1) 这告诉我们的第一个经验就是不要过早的下论断, 下了论断你的预测也就无法进化了, 或者可以称之为信仰。 你如果想让你的认知进步,就要给各种假设留一点空间。

贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。

贝叶斯分析中的三要素在不同的问题中通常侧重点 , 很多时候我们都是在忽略先验概率的作用,比如描述一个人很书呆子气让你判断他是大学老师还是销售员的经典案例(要看先验大学老师还是销售员哪个多啊)。 但是有时候我们也不理解条件概率, 比如著名的辛普森案, 为了证明辛普森有杀妻之罪,检方说辛普森之前家暴,而辩护律师说,美国有400万女性被丈夫或男友打过,而其中只有1432人被杀,概率是2800分之一。 这其实就是勿用了后验概率, 这里的条件是被杀而且有家暴,而要推测的事件是凶手是男友(事实上概率高达90%),这才是贝叶斯分析的正当用法, 而辩护律师却把完全在混淆条件与要验证的假设。

图:辛普森案都可以辱哦

理解贝叶斯分析最好的方法即图像法, 这里的A的面积即先验, 后验是阴影占篮圈的百分比。

贝叶斯分析可以瞬间理解一些常用的理论, 如幸存者偏差,你发现一些没读过书的人很有钱,事实上是你发现就已经是幸存者了(对应上图中小红圈), 而死了的人(红圈外的大部分面积)你都没见到啊。还有阴谋论, 阴谋论的特点是条件很多很复杂, 但是条件一旦成立,结论几乎成立, 你一旦考虑了先验,这些条件成立本身即很困难, 阴谋论不攻自克。

注: 图上红圈和篮圈的面积, 很少我们在开始就知道, 这才是应用中的难点。

此处贝叶斯分析的框架也在教我们如何处理特例与一般常识的规律。如果你太注重特例(即完全不看先验概率) 很有可能会误把噪声看做信号, 而奋不顾身的跳下去。 而如果恪守先验概率, 就成为无视变化而墨守成规的人。其实只有贝叶斯流的人生存率会更高, 因为他们会重视特例, 但也不忘记书本的经验,根据贝叶斯公式小心调整信心,甚至会主动设计实验根据信号判断假设,这就是我们下一步要讲的。

贝叶斯决策:

在刚刚讲到的贝叶斯统计分析的基础上, 我们就可以引出一个更核心的概念, 贝叶斯决策。

贝叶斯决策主要包含四个部分: 数据(D), 假设(W),目标(O),决策(S)。 此处的数据即之前讲到的证据, 假设是我们要验证的事实, 目标是我们最终要取得优化的量, 决策时根据目标得到的最后行为。 与上一步贝叶斯分析增加的部分是目标和决策。假设在问题里如果是连续的往往以参数空间的形式表达。

然后我们可以按照如下步骤做:

第一, 理清因果链条, 哪个是假设, 哪个是证据 。

第二,给出所有可能假设 , 即假设空间

第三,给出先验概率

第四,根据贝叶斯概率公式求解后验概率, 得到假设空间的后验概率分布

第五,利用后验概率求解条件期望, 得到条件期望最大值对应的行为

贝叶斯决策如果一旦变成自动化的计算机算法, 它就是机器学习。 Ok, 此处应有掌声,我们就用贝叶斯决策诠释一个最简单的机器学习分类算法- 朴素贝叶斯

假设给你一个人的身高和体重资料, 你不知道他的男女性别, 你可以通过我上述给出的贝叶斯决策机制解决这个问题: 首先, 此处我们的证据是身高和体重, 假设是男或女。 先验概率是人口中的男女比例, 而我们需要掌握的条件概率是男性和女性的身高和体重分布, 这应该是很好掌握的信息。 然后我们可以根据贝叶斯公式求解后验概率, 而此处我们要做的决策时男女, 目标是分类错误率最低, 决策即性别分类。

此处我们用到一个基本假设就是证据是互相独立的, 使我们能够求得更简单的公式:

图: 朴素贝叶斯,核心在于假设证据互相独立。由此我们得到下列乘法公式(feature对应x)

用数学语言白表征这个问题, X特征向量,h把X映射成不同的分类, 我们要求得是P(y|x) 正确率最大的假设(y)。

事实上, 贝叶斯决策很少只涉及A和B, 而是内部包含非常关键的隐变量(参数),涉及我们对所研究事物的一些基本预设。比如下面这个特别简单的例子:

抛掷硬币, 一个硬币被投掷10次9次朝上,那么根据频率学派的观点, 得到第11次投掷的概率不变为0.5 ,如果你回答了0.9, 你经常会被看成一个傻X。 其实不然, 天底下哪有一样的硬币呢? 那么问题来了,我设一个赌局, 一次正面向上你可以受益100, 反面惩罚150, 基于刚才的事实你要不要做这个局? 我们完全可以套用贝叶斯决策的理论来。 这里的一个重要的隐变量是每一次投掷硬币的概率,这个数字按照经典频率学派认定一定是0.5, 而按照贝叶斯学派的观点, 需要把这个变量看成是未知的,具有一定先验概率,之后严格按照贝叶斯公式计算新加入证据对先验概率的影响。此处的先验概率即你对硬币向上0.5这件事的信念, 你越相信这个事实, 这个分布越尖,反之越宽广。 我们用希腊字母theta来表征这个概率。整个决策表述如下:

公式的含义是你要用求解已知9次朝上1次朝下的时候求解你下一次投掷硬币的期望收益, 并因此决策要不要赌。 中间要验证的假设空间即每一次投掷为正的概率,我们依然以每次事件独立和该概率不随时间变化为基准(如果不是问题将无限复杂), 那么证据将根据上述公式改变假设空间的概率分布, 而最终的期望可以根据这个分布求出。 决策即使得这个期望最大的解。

注意此处先验十分重要,因为它影响决策的结果, 而这又是一个很主观的东西,如果你对0.5有绝对的信心, 那么你的就会非常尖,这个时候你需要得到大量偏离0.5的证据才能逐步纠偏。 对于书呆子样的人, 估计会倾向给出一个比较尖锐的先验分布,相信书里说的0.5而不赌, 而一些更加倾向于相信特例的人则会给出很平坦的先验而更大的概率去赌。 最终后者发财和倾家荡产的几率都比较高,而前者比较容易旱涝保收。当然, 在数据量超大,比如说1000次有900次为正的情况下, 我们几乎不需要考虑先验(自己去看公式),此时几乎可以认定投掷的概率就是0.9.

图:证据对信念发生作用的贝叶斯过程

贝叶斯网络:

如果我们的贝叶斯决策中牵涉的证据更复杂呢? 如果这些证据之间不是简单独立而是互为因果呢? 这时候更为强大的工具-贝叶斯网络就应运而生。世界上的事无一不处于复杂的联系之中, 而贝叶斯网络正是刻画这种关联的数学表述

构建一个贝叶斯网络的关键方法是图模型 , 构建一个图模型我们需要把具有因果联系的各个事件用箭头连在一起。 下图的例子是这样一个事件, 我们看到草坪湿润了, 那么我想推测此时天气多云的概率 ,因为导致草坪湿润的原因有下雨或者洒水车在工作, 而这两者又都和多云有联系,那么我们可以画出如下图形,按照贝叶斯概率公式逐级推出每个事件的概率。

贝叶斯网络的特性是,当某点的一个证据出现, 整个网络中事件的概率都变化, 所谓看到镜中的一丝百发, 就改变你对人生中所有重大事件概率的推断。

我们的大脑: 有人说我们的大脑是一个贝叶斯网络, 这句话又对又不对 ,我们的大脑学习的原理,的确正是一个新的证据逐步和内部信念耦合的过程,本质即贝叶斯网络,但是我们大脑又是一个不完全的贝叶斯推断机, 每个人都有一个顶层以三观构建,底层逐步深入个个关于具体问题看法的贝叶斯网路, 但是我们却很少有能够通过一个证据更新整个网络的能力,或者是我们吸收新证据的速度也往往十分缓慢,这是为什么我们经常具有自相矛盾的信念体系,经常一方面喊着人性解放一方面又崇拜偶像。梧桐一叶又有几人知秋。

贝叶斯分析好坏_玩转贝叶斯分析相关推荐

  1. 贝叶斯分析好坏_贝叶斯统计 | 第五章第一部分 决策基本概念

    逃不掉线上期中考.........开摄像头+屏录+拍照上传......20号考贝叶斯,18号考多元,时间序列考试时间还未知....... 但笔记还是要记的.不过贝叶斯已经跟上进度了,之后会按课程进度来 ...

  2. 贝叶斯分析好坏_经典Vs贝叶斯统计对点估计和线性回归理解

    一.点估计 数理统计有两大基本内容,估计(参数估计:非参数估计,如总体分布)和假设检验(原假设,备择假设).参数估计有点估计和区间估计. 对于点估计的判定都是从 经验风险 来判定, 在此,无论是频率学 ...

  3. 贝叶斯分析好坏_贝叶斯估计对比于经典估计的优势分析与其局限性

    贝叶斯估计对比于经典估计的优势分析与其局限性 经典估计和贝叶斯估计 经典估计理论是通过一个随机抽样过程, 从总体中随机抽取一定数量的样本, 再结合总体分布或总体分布族提供的的信息, 推断出总体分布或总 ...

  4. 贝叶斯 朴素贝叶斯_手动执行贝叶斯分析

    贝叶斯 朴素贝叶斯 介绍 (Introduction) Bayesian analysis offers the possibility to get more insights from your ...

  5. go语言csv包_玩转数据处理120题R语言版本

    点击上方"早起Python",关注并星标公众号 和我一起玩Python 本文为玩转数据处理120题|R语言版本 习题|刘早起,解答|陈熹 大家好,本文为R语言数据处理120题系列完 ...

  6. guice 框架_玩! 框架+ Google Guice

    guice 框架 在我目前正在工作的项目中,我们开始使用Google Guice. 对于那些不知道的人, Google Guice是一个依赖项注入框架. 依赖项注入的基本思想是提供一个其依赖的类,而不 ...

  7. i58250u是低端处理器吗_玩都市天际线要很大的显卡吗

    我的这个电脑配置能玩城市天际线吗,听说天际线 城市天际线配置要求:最低配置:操作系统:微软Windows XP / Vista / 7 / 8 / (64位)处理器:英特尔酷睿2双核,AMD Athl ...

  8. 想不想修真鸿蒙源液有什么用,想不想修真初代小世界怎么玩_想不想修真初代小世界玩法介绍_玩游戏网...

    <想不想修真>初代小世界玩法全新推出,那么具体的玩法都有什么内容呢?想必大家还不是很了解吧!那么接下来,就跟随玩游戏网的小编一起继续往下看,千万不要错过哦! 1.创建小世界玩法 01.紫府 ...

  9. 楚留香ai识别人脸_楚留香手游AI捏脸怎么弄_楚留香手游AI捏脸方法步骤_玩游戏网...

    <楚留香>手游坐观万象每日打坐点一览 楚留香坐观万象活动还在进行中,小伙伴们每天需要打坐才能获得相应的奖励哦,但每日的打坐点都是不一样的,不少玩家们都在为每日的打坐点而发愁,没关系,接下来 ...

  10. css3渐变—渐变_玩渐变

    css3渐变-渐变 This article is a small part of the book named "Designing User Interfaces" writt ...

最新文章

  1. 9 张图带你深入理解 Docker 架构!
  2. 分组加密的常用工作模式(转载)
  3. 基于知识图谱的问答系统入门—NLPCC2016KBQA数据集
  4. back(返回)键总结
  5. vue 右键菜单插件 简单、可扩展、样式自定义的右键菜单
  6. android 清除应用程序数据,清除Android应用程序用户数据
  7. HDU1236 排名【排序】
  8. birt报表数据只有一条_这个低代码报表开发平台,操作类似Excel,用好了不需要加班...
  9. Refactoring: Encapsulate Collection
  10. eclipse导入wsdl文件_Eclipse+Axis使用WSDL文件生成Web Service服务端/客户端
  11. java中this的作用!
  12. Word模板导出更新目录
  13. 领峰:现货白银怎么样,怎么炒才正确
  14. 计算机打字练习程序,一个简单的打字练习程序
  15. asp.net验证码【潇潇雨兮】
  16. 阿里妈妈返利比率的商品搜索API接口
  17. 将图片表情转化成emoji字体
  18. 概率空间--样本--事件--随机变量--
  19. MOOS程序解析记录(1)
  20. java applet 一个简单的例子(applet+html)

热门文章

  1. GPFS实施方案的思考
  2. 深度学习与计算机视觉教程(2) | 图像分类与机器学习基础(CV通关指南·完结)
  3. jsmind 线条_jsmind实例扩展(思维导图)
  4. 蚁群算法原理c语言,蚁群算法原理及其应用--详细介绍
  5. 蚁群算法详解(含例程)
  6. idea 安装 jclasslib 插件
  7. 基于Jsp+Servlet的在线考试系统
  8. Misra c规则简介
  9. 矩阵谱分解的求解流程
  10. 服务器虚拟机迁移的6个步骤,vmware 虚拟机迁移