关于周志华老师的《机器学习》这本书的学习笔记
记录学习过程
本博客记录Chapter7

1 贝叶斯决策论

假设有NNN种可能的类别标记，即Y={c1,c2,…,cN}Y=\{c_1,c_2,…,c_N\}Y={c1,c2,…,cN}。λij\lambda_{ij}λij是将一个真实标记为cjc_jcj的样本误分类到cic_ici的损失。基于后验概率P(ci∣x)P(c_i|\bold x)P(ci∣x)可获得将样本x\bold xx误分类到cic_ici所产生的期望损失（expected loss），即在样本x\bold xx上的“条件风险”（conditional risk）(P(cj∣x)P(c_j|\bold x)P(cj∣x):表示样本x\bold xx是cjc_jcj的概率):
R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i|\bold x)=\sum_{j=1}^N\lambda_{ij}P(c_j|\bold x) R(ci∣x)=j=1∑NλijP(cj∣x)
我们的任务是寻找一个判别准则h:χ↦Yh:\chi \mapsto Yh:χ↦Y以最小化总体风险：
R(h)=EX[R(h(x)∣x)]R(h)=E_X[R(h(\bold x)|\bold x)] R(h)=EX[R(h(x)∣x)]
显然，对于每一个样本x\bold xx，若hhh能最小化条件风险R(h(x)∣x)R(h(\bold x)|\bold x)R(h(x)∣x)，则总体风险R(h)R(h)R(h)就能最小化。这体现了贝叶斯判定准则（Bayes decision rule）：为最小化总体风险，只需要在每个样本上选择哪个能使条件风险R(c∣x)R(c|\bold x)R(c∣x)最小的类别标记：
h∗(x)=arg⁡min⁡c∈YR(c∣x)h^*(\bold x) = \mathop{\arg\min}_{c \in Y}\space R(c|\bold x) h∗(x)=argminc∈Y R(c∣x)
此时，h∗h^*h∗被称为贝叶斯最优分类器（Bayes optimal classifier），与之对应的总体风险R(h∗)R(h^*)R(h∗)对应贝叶斯风险（Bayes risk）。1−R(h∗)1-R(h^*)1−R(h∗)反映了分类器所能达到的最好性能。

+++

若期望损失λij\lambda_{ij}λij符合：
λij={0,ifi=j1,otherwise\lambda_{ij}=\begin{cases} 0,\space\space\space if \space\space i=j\\ 1,\space\space\space otherwise \end{cases} λij={0, if i=j1, otherwise
此时条件风险R(c∣x)=1−P(c∣x)R(c|\bold x)=1-P(c|\bold x)R(c∣x)=1−P(c∣x)

于是，最小化分类错误率的贝叶斯最优分类器：
h∗(x)=arg⁡min⁡c∈YP(c∣x)h^*(\bold x)=\mathop{\arg\min}_{c\in Y}\space P(c|\bold x) h∗(x)=argminc∈Y P(c∣x)
即选择后验概率P(c∣x)P(c|\bold x)P(c∣x)最大的类别标记。

+++

不难看出，欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率P(c∣x)P(c|x)P(c∣x)。然而，在现实任务中这通常难以直接获得。从这个角度来看，机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c∣x)P(c| x)P(c∣x)。大体来说，主要有两种策略：

给定xxx，可通过直接建模P(c∣x)P(c| x)P(c∣x)来预测ccc，这样得到的是 “判别式模型”(discriminativemodels)
也可先对联合概率分布P(x,c)P(x,c)P(x,c)建模，然后再由此获得P(c∣x)P(c | x)P(c∣x)，这样得到的是 “生成式模型’(generative models)

显然，前面介绍的决策树、BP神经网络、支持向量机等，都可归入判别式模型的范畴。对生成式模型来说，必然考虑
P(c∣x)=P(x,c)P(x)=P(x∣c)P(c)P(x)P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(x|c)P(c)}{P(x)} P(c∣x)=P(x)P(x,c)=P(x)P(x∣c)P(c)
其中，P(c)P(c)P(c)是先验（prior）概率，P(x∣c)P(x|c)P(x∣c)是样本xxx对于类标记ccc的类条件概率，或称为似然（likelihood）；P(x)P(x)P(x)是用于归一化的证据因子（evidence）。对于给定样本，证据因子和类标记无关，因此估计P(c∣x)P(c|x)P(c∣x)的问题就转化为如何基于训练数据DDD估计先验P(c)P(c)P(c)和似然P(x∣c)P(x|c)P(x∣c)。 根据大数定理，P(c)P(c)P(c)可以用各类样本出现的频率来进行估计；对于类条件概率P(x∣c)P(x|c)P(x∣c)来说，由于其涉及关于xxx所有属性的联合概率，直接根据样本出现频率来估计会遭到严重困难。

2 极大似然估计

假设P(x∣c)P(x|c)P(x∣c)具有确定的形式并且被参数θc\theta_cθc唯一确定，则我们的任务就是利用训练集DDD估计参数θc\theta_cθc。

事实上，概率模型训练过程就是参数估计（parameter estimation）。对于参数训练过程，有频率学主义学派和贝叶斯学派。前者认为参数虽然未知，但是是客观存在的固定值，可以优化似然函数来确定参数；后者认为参数是未观察到的随机变量，其本身可以有分布，因此可以假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布。

这一节我们采用频率主义学派的极大似然估计（MLE）方法：
LL(θc)=log⁡P(Dc∣θc)=∑x∈Dclog⁡P(x∣θc)LL(\theta_c)=\log P(D_c|\theta_c)=\sum_{x\in D_c}\log P(x|\theta_c) LL(θc)=logP(Dc∣θc)=x∈Dc∑logP(x∣θc)
此时参数θc\theta_cθc的极大似然估计为θc^\hat {\theta_c}θc^:
θ^c=arg⁡max⁡θcLL(θc)\hat \theta_c = \mathop{\arg \max}_{\theta_c}\space LL(\theta_c) θ^c=argmaxθc LL(θc)
需注意的是,这种参数化的方法虽能使类条件概率估计变得相对简单，但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中，欲做出能较好地接近潜在真实分布的假设，往往需在一定程度上利用关于应用任务本身的经验知识，否则若仅凭“猜测”来假设概率分布形式，很可能产生误导性的结果。

3 朴素贝叶斯分类器

朴素贝叶斯分类器（naive Bayes classifier）采用了 “属性条件独立性假设”，即假设对已知的类别，所有的属性相互独立。因此，后验概率可以写为：
P(c∣x)=P(x∣c)P(c)P(x)=P(c)P(x)∏i=1dP(xi∣c)P(c|x)=\frac{P(x|c)P(c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^dP(x_i|c) P(c∣x)=P(x)P(x∣c)P(c)=P(x)P(c)i=1∏dP(xi∣c)
其中，ddd为属性数目，即xxx的维数。

由于对于所有类别，P(x)P(x)P(x)相同，因此贝叶斯判定准则为：
hnb(x)=arg⁡max⁡c∈YP(c)∏i=1dP(xi∣c)h_{nb}(x)=\mathop{\arg\max}_{c\in Y} \space P(c)\prod_{i=1}^dP(x_i|c) hnb(x)=argmaxc∈Y P(c)i=1∏dP(xi∣c)
朴素贝叶斯的训练过程就是基于训练集DDD来估计类先验概率P(c)P(c)P(c)，并为每个属性估计条件概率P(xi∣c)P(x_i|c)P(xi∣c)。其中
P(c)=∣DC∣∣D∣P(xi∣c)=∣Dc,xi∣∣Dc∣P(c)=\frac{|D_C|}{|D|}\\ P(x_i|c)=\frac{|D_{c,x_i|}}{|D_c|} P(c)=∣D∣∣DC∣P(xi∣c)=∣Dc∣∣Dc,xi∣
对连续属性可以考虑概率密度函数，假定P(xi∣c)∼N(μc,i,σc,i2)P(x_i|c)\thicksim N(\mu_{c,i},\sigma_{c,i}^2)P(xi∣c)∼N(μc,i,σc,i2)，其中μc,i\mu_{c,i}μc,i和σc,i2\sigma_{c,i}^2σc,i2分别是第ccc类样本在第iii个属性上取值的均值和方差，有：
p(xi∣c)=12πσc,ie−(xi−μc,i)22σc,i2p(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}e^{-\frac{(x_i-\mu_{c,i})^2}{2\sigma_{c,i}^2}} p(xi∣c)=2πσc,i1e−2σc,i2(xi−μc,i)2
为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”，在估计概率值的时候通常要进行平滑，我们采用拉普拉斯修正。即令NNN表示训练集DDD种可能出现的类别数；令NiN_iNi表示第iii个属性可能的取值数，则：
P^(c)=∣DC∣+1∣D∣+NP^(xi∣c)=∣Dc,xi∣+1∣Dc∣+Ni\hat P(c)=\frac{|D_C|+1}{|D|+N}\\ \hat P(x_i|c)=\frac{|D_{c,x_i|+1}}{|D_c|+N_i} P^(c)=∣D∣+N∣DC∣+1P^(xi∣c)=∣Dc∣+Ni∣Dc,xi∣+1
在现实任务中朴素贝叶斯分类器有多种使用方式。例如：

若任务对预测速度要求较高，则对给定训练集，可将朴素贝叶斯分类器涉及的所有概率估值事。先计算好存储起来，这样在进行预测时只需“查表”即可进行判别
若任务数据更替频繁，则可采用“懒惰学习”(lazy learning) 方式，先不进行任何训练，待收到预测请求时再根据当前数据集进行概率估值
若数据不断增加，则可在现有估值基础上，仅对新增样本的属性值所涉及的概率估值进行计数修正即可实现增量学习

4 半朴素贝叶斯分类器

朴素贝叶斯采取的属性条件独立性假设往往在现实中很难成立，因此人们尝试对属性条件独立性假设进行一定程度的放松，采用“半朴素贝叶斯分类器”。

半朴素贝叶斯分类器的基本思想：适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于忽略比较强的属性依赖关系。“独依赖估计”（ODE）：是半朴素贝叶斯分类器最常用的策略，即假设每个属性在类别之外最多仅依赖于一个其他属性。

几种常见的方法：

SPOED方法（super-parent ODE）：所有属性都依赖于同一个属性，称为“超父”
TAN方法（Tree Augmented naive Bayes）：在最大带权生成树的基础上，通过计算任意两个属性之间的互信息，构建最大带权生成树。

互信息计算公式：
I(xi,xj∣y)=∑xi,xj;c∈YP(xi,xj∣c)log⁡P(xi,xj∣c)P(xi∣c)P(xj∣c)I(x_i,x_j|y)=\sum_{x_i,x_j;c\in Y}P(x_i,x_j|c)\log \frac{P(x_i,x_j|c)}{P(x_i|c)P(x_j|c)} I(xi,xj∣y)=xi,xj;c∈Y∑P(xi,xj∣c)logP(xi∣c)P(xj∣c)P(xi,xj∣c)
ADOE(Averaged One-Dependent Estimator)：基于集成学习机制，更为强大的独依赖分类器。ADOE尝试将每个属性作为超父来构建SPODE，将具有足够训练数据支撑的SPODE集成起来作为最终结果。

5 贝叶斯网

贝叶斯网称为“信念网”（belief network），借助有向无环图（Directed Acyclic Graph，DAG）来刻画属性之间的依赖关系，并使用条件概率表（Contional Probability Table,CPT）来描述属性的联合概率分布。

一个贝叶斯网络由结构GGG和参数θ\thetaθ两部分构成。（B=<G,θ>B=<G,\theta>B=<G,θ>）。
GGG是一个有向无环图，每个结点对应一个属性，若两个属性有直接依赖关系，则由一条边连接起来。θ\thetaθ定量描述依赖关系，假设属性xix_ixi在GGG中的父节点集为πi\pi_iπi，则θ\thetaθ包含了每个属性的条件概率表θxi∣πi=P(xi∣πi)\theta_{x_i|\pi_i}=P(x_i|\pi_i)θxi∣πi=P(xi∣πi)。

5.1 结构

贝叶斯网结构有效地表达了属性间的条件独立性。给定父结点集，贝叶斯网络假设每个属性与它的非后裔属性独立，于是B=<G;θ>B=<G;\theta>B=<G;θ>将属性x1,x2,…,xdx_1,x_2,…,x_dx1,x2,…,xd的联合概率分布定义为：
PB(x1,x2,…,xd)=∏i=1dPB(xi∣ii)=∏i=1dθxi∣πiP_B(x_1,x_2,…,x_d)=\prod_{i=1}^dP_B(x_i|i_i)=\prod_{i=1}^d\theta_{x_i|\pi_i} PB(x1,x2,…,xd)=i=1∏dPB(xi∣ii)=i=1∏dθxi∣πi
贝叶斯网络中由三种典型依赖关系：

同父关系：给定父结点x1x_1x1的取值，x3x_3x3和x4x_4x4就条件独立
顺序结构：给定xxx的值，yyy和zzz就条件独立
V型结构：也叫冲撞结构，给定x4x_4x4的取值，x1x_1x1和x2x_2x2必定不独立；但x4x_4x4的值如果完全位置，则x1x_1x1和x2x_2x2是相互独立的。这种独立性称为“边际独立性”。

为了分析图中变量之间的条件独立性，可以使用“有向分离”：

找到所有V型结构，在V型结构的两个父结点之间加上一条无向边
将所有有向边改为无向边

由此产生的图叫道德图（moral graph），将父结点相连的过程称为“道德化”。（孩子的父母之间应该有牢靠的关系，不然是不道德的）

基于道德图能直观、迅速地找到变量间的条件独立性。假定道德图中有变量x,yx,yx,y和变量集合z=zz={z}z=z，若变量xxx和yyy能在图上被zzz分开，即从道德图中将变量集合zzz去除后，xxx和yyy分属两个连通分支，则称变量xxx和yyy被zzz有向分离。

5.2 学习

贝叶斯学习网中的首要任务就是根据训练数据集找出结构最“恰当”的贝叶斯网。

采用评分函数，评估贝叶斯网和训练数据的契合程度，然后基于这个评分函数寻找结构最优的贝叶斯网是一种常用的方法。常用评分函数通常基于信息论准则，此类准则将学习问题看作一个数据压缩任务，学习的目标是找到一个能以最短编码长度描述训练数据的模型，此时编码的长度包括了描述模型自身所需的字节长度和使用该模型描述数据所需的字节长度。对贝叶斯网学习而言，模型就是贝叶斯网，每个贝叶斯网描述了一个在训练数据上的概率分布，自有一套编码机制能使那些经常出现的样本有更短的编码。于是，我们应选择那个综合编码长度(包括描述网络和编码数据)最短的贝叶斯网，这就是 “最小描述长度”(Minimal Description Length，简称MDL)准则。

评分函数可以写为如下（其中，|B|是贝叶斯网的参数个数，f(θ)f(\theta)f(θ)表示描述每个参数θ\thetaθ所需要的编码位数），第一项是计算编码贝叶斯网的编码位数，第二项是描述概率分布PBP_BPB对数据集DDD的拟合程度。
s(B∣D)=f(θ)∣B∣−LL(B∣D)LL(B∣D)=∑i=1mlog⁡PB(xi)s(B|D)=f(\theta)|B|-LL(B|D)\\ LL(B|D)=\sum_{i=1}^m\log P_B(x_i) s(B∣D)=f(θ)∣B∣−LL(B∣D)LL(B∣D)=i=1∑mlogPB(xi)
若f(θ)f(\theta)f(θ)为1，则对应AIC评分函数；若f(θ)=12log⁡mf(\theta)=\frac{1}{2}\log mf(θ)=21logm为，则对应BIC评分函数；若θ\thetaθ为0，则对应极大似然估计。

不幸的是,从所有可能的网络结构空间搜索最优贝叶斯网结构是一个NP难问题，难以快速求解。有两种常用的策略能在有限时间内求得近似解：第一种是贪心法，例如从某个网络结构出发，每次调整一条边(增加、删除或调整方向)，直到评分函数值不再降低为止；第二种是通过给网络结构施加约束来削减搜索空间，例如将网络结构限定为树形结构等。

5.3 推断

贝叶斯网络训练好之后能用来回答“查询”，即通过一些属性变量的观测值来推测其他属性变量的取值。通过已知变量来推测待查询变量的过程称为“推断”（inference），已知变量观测值称为“证据”（evidence）。

根据贝叶斯网定义的联合概率分布来精确计算后验概率是NP难的问题，需要借助“近似推断”，降低精度要求，在有限时间内求得近似解。我们常采用吉布斯采样（Gibbs sampling）：

令Q={Q1,Q2,…,Qn}Q=\{Q_1,Q_2,…,Q_n \}Q={Q1,Q2,…,Qn}表示待查询变量，E={E1,E2,…,Ek}E=\{E_1,E_2,…,E_k\}E={E1,E2,…,Ek}为证据变量，已知取值为e={e1,e2,…,ek}e=\{e_1,e_2,…,e_k\}e={e1,e2,…,ek}。目标是计算后验概率P(Q=q∣E=e)P(Q=q|E=e)P(Q=q∣E=e)。
吉布斯采样先随机产生一个与证据E=eE=eE=e一致的样本q0q^0q0作为初始点，然后每步从当前样本出发产生下一个样本。在第ttt次采样，我们先假设qt=qt−1q^t=q^{t-1}qt=qt−1，然后对非证据变量逐个进行采样改变其取值，采样概率根据贝叶斯网B和其他变量的当前取值计算获得。假定经过TTT次采样得到的与qqq一致的样本共有nqn_qnq个，近似估算出后验概率：
P(Q=q∣E=e)=nqTP(Q=q|E=e)=\frac{n_q}{T} P(Q=q∣E=e)=Tnq

实质上，吉布斯采样是在贝叶斯网所有变量的联合状态空间与证据E=eE=eE=e一致的子空间中进行 “随机漫步”(random wallk)。每一步仅依赖于前一步的状态，这是一个“马尔可夫链”(Markov chain)。在一定条件下，无论从什么初始状态开始，马尔可夫链第t步的状态分布在t→∞t→\inftyt→∞时必收敛于一个平稳分布(stationary distribution)；对于吉布斯采样来说，这个分布恰好是P(Q∣E=e)P(Q | E=e)P(Q∣E=e)。因此，在TTT很大时，吉布斯采样相当于根据P(Q∣E=e)P(Q|E=e)P(Q∣E=e)采样，从而保证了式(17)收敛于P(Q=q∣E=e)P(Q=q|E= e)P(Q=q∣E=e)。

6 EM算法

现实生活中，我们往往会遇到样本“不完整”的情况。未观测的变量的学名是“隐变量”，令XXX表示已观测变量集，ZZZ表示隐变量集，θ\thetaθ表示模型参数，若对θ\thetaθ做极大似然估计，则要最大化对数似然：
LL(θ∣X,Z)=lnP(X,Z∣θ)LL(\theta|X,Z)=ln P(X,Z|\theta) LL(θ∣X,Z)=lnP(X,Z∣θ)
由于Z是隐变量，因此无法直接求解，这时我们可以通过对ZZZ计算期望，来最大化已观测数据的对数“边际似然”：
LL(θ∣X)=lnP(X∣θ)=ln∑ZP(X,Z∣θ)LL(\theta|X)=lnP(X|\theta)=ln\sum_ZP(X,Z|\theta) LL(θ∣X)=lnP(X∣θ)=lnZ∑P(X,Z∣θ)
EM算法是常用的估计参数隐变量的利器。其基本思想：**若θ\thetaθ已知，则可根据训练数据推断出最优隐变量的值（E步）；反之，若ZZZ的值已知，则可方便地对θ\thetaθ做极大似然估计。**步骤如下：

以初始值θ0\theta^0θ0为起点，对式(19)，可以迭代执行以下步骤直到收敛：
- 基于θt\theta^tθt推断隐变量ZZZ的期望，记ZtZ_tZt
- 基于已观测变量XXX和ZZZ对参数θ\thetaθ做极大似然估计，记为θt+1\theta^{t+1}θt+1

进一步，若我们不是取Z的期望，而是基于θtθ^tθt计算隐变量ZZZ的概率分布P(Z∣X,θt)P(Z| X, \theta^t)P(Z∣X,θt)，则EM算法的两个步骤是:

E步(Expectation)：以当前参数θtθ^tθt推断隐变量分布P(Z∣X,θt)P(Z | X,\theta^t)P(Z∣X,θt),并计算对数似然LL(θ∣X,Z)LL(\theta| X,Z)LL(θ∣X,Z)关于ZZZ的期望
Q(θ∣θt)=EZ∣X,θtLL(θ∣X,Z)Q(\theta|\theta^t)=E_{Z|X,\theta^t}LL(\theta|X,Z) Q(θ∣θt)=EZ∣X,θtLL(θ∣X,Z)
M步(Maximization):寻找参数最大化期望似然，即
θt+1=arg⁡max⁡θQθ∣θt\theta_{t+1}=\mathop{\arg\max}_{\theta}\space Q{\theta|\theta^t} θt+1=argmaxθ Qθ∣θt

简要来说, EM算法使用两个步骤交替计算：第一步是期望(E)步，利用当前估计的参数值来计算对数似然的期望值；第二步是最大化(M)步，寻找能使E步产生的似然期望最大化的参数值，然后，新得到的参数值重新被用于E步，直至收敛到局部最优解。
事实上，隐变量估计问题也可通过梯度下降等优化算法求解，但由于求和的项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦；而EM算法则可看作一种非梯度优化方法。

机器学习（周志华）第七章贝叶斯分类器相关推荐

机器学习西瓜书（周志华）第七章贝叶斯分类器
第七章贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论贝 ...
【机器学习－西瓜书】七、贝叶斯分类器
推荐前期阅读:http://blog.csdn.net/u011995719/article/details/76732663 推荐阅读: 期望损失:条件风险 7.1 贝叶斯决策论关键词:期望损失: ...
机器学习(周志华) 参考答案第十四章概率图模型 14.9
机器学习(周志华西瓜书) 参考答案总目录 http://blog.csdn.net/icefire_tyh/article/details/52064910 机器学习(周志华) 参考答案第十四章 ...
机器学习周志华第一章课后习题
机器学习周志华第一章课后习题 1.1 1.2 1.3 1.4 1.5 1.1 在下面这张图片中若只包含编号为1和4的两个样例,试给出相应的版本空间. 书上实例: 1.表 1.1 对应的假设空间如下 ...
机器学习 -- 《机器学习》(周志华) 第三章
机器学习 – <机器学习>(周志华) 第三章笔记文章目录机器学习 -- <机器学习>(周志华) 第三章笔记注常用数学符号正交回归点距离线的距离是正交回归线性回 ...
小吴的《机器学习周志华》学习笔记第二章模型评估与选择
小吴的<机器学习周志华>学习笔记第二章模型评估与选择上一周我们介绍了第一章的基础概念,这一次将带来第二章的前三节.后面的2.4 比较检验与2.5 偏差与方差,涉及概率论与数理统计概 ...
小吴的《机器学习周志华》学习笔记第一章绪论
小吴的<机器学习周志华>学习笔记第一章绪论近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...
小吴的《机器学习周志华》学习笔记第二章 2.4 比较检验、2.5 偏差与方差
小吴的<机器学习周志华>学习笔记第二章 2.4 比较检验. 2.5 偏差与方差 2.4 比较检验上一周提到了实验的评价方法和性能量度,步骤简单可以看成:先使用某种实验评估方法测得学习 ...
机器学习周志华课后习题3.5 线性判别分析LDA
机器学习周志华课后习题3.5 线性判别分析LDA 照着书上敲了敲啥都不会,雀食折磨 python代码 # coding=UTF-8 from numpy import * # 我安装numpy的时 ...
【周志华机器学习】七、贝叶斯分类器
文章目录参考资料 1. 基本概念 1.1 贝叶斯公式 1.2 贝叶斯决策论 1.2.1 判别式模型 and 生成式模型 1.3 极大似然法 2. 朴素贝叶斯分类器 3. 半朴素贝叶斯分类器 4. E ...

机器学习（周志华）第七章贝叶斯分类器

1 贝叶斯决策论

2 极大似然估计

3 朴素贝叶斯分类器

4 半朴素贝叶斯分类器

5 贝叶斯网

5.1 结构

5.2 学习

5.3 推断

6 EM算法

机器学习（周志华）第七章贝叶斯分类器相关推荐

最新文章

热门文章

机器学习（周志华） 第七章贝叶斯分类器

1 贝叶斯决策论

2 极大似然估计

3 朴素贝叶斯分类器

4 半朴素贝叶斯分类器

5 贝叶斯网

5.1 结构

5.2 学习

5.3 推断

6 EM算法

机器学习（周志华） 第七章贝叶斯分类器相关推荐

最新文章

热门文章

机器学习（周志华）第七章贝叶斯分类器

机器学习（周志华）第七章贝叶斯分类器相关推荐