机器学习(一):模型的参数估计方法

前言:

  之前在看李航的《统计学习方法》,思考的同时打算对于其中一些问题做一些总结和记录,希望以后再看的时候能够有更深入的理解。


文章目录

  • 机器学习(一):模型的参数估计方法
    • 前言:
      • 1. 极大似然估计法
      • 2. 贝叶斯估计法
      • 3. 极大似然估计和贝叶斯估计的区别
      • 4. 最大后验估计
      • 5. 以朴素贝叶斯分类为例说明
      • 6. 小结

  我们知道,机器学习方法一般可以概括为三部分:模型(model)、策略(strategy)、算法(algorithm)。
  其中,模型表示我们要从假设空间中所给的函数集合中学习它们的条件概率分布或者是决策函数。对于监督学习而言,其定义就是从有限的给定数据集中学习模型,而这些数据是独立同分布产生的。因此,之所以学习条件概率分布或是决策函数,是在基本假设存在的基础上进行的。
  在构建好模型的基础上,我们需要选择出能够最好的表示所给数据集分布的模型,这就是策略。一般来说,选取最优模型需要考虑损失函数与风险函数。损失函数也叫代价函数,即loss function 或 cost function,是度量一次预测的错误程度;而风险函数则是损失函数的期望。损失函数的形式有很多种,其中就包括似然函数,这就引出了我们所要说的,关于模型的参数估计方法这一问题。
  另外,由于机器学习中的许多问题都可以转化为最优化问题来求解,而这些最优化问题又没有显式的解析解(很难用解析的方法直接求解),故需要用数值计算的方法来求解,这些计算方法就是算法


  以上是题外话,下面来说一说参数估计方法。

  统计学中的参数估计是指根据部分样本来估计总体分布中未知参数的过程:
  按估计形式,可分为点估计和区间估计;
  按构造估计量的方法,可分为矩估计、最小二乘估计、极大似然估计、贝叶斯估计等。

  这里,我们具体讨论两种机器学习中典型的、常用的参数估计方法,即极大似然估计法和贝叶斯估计法。


1. 极大似然估计法

  Maximum Likelihood Estimation,即MLE,也译作最大似然估计(翻译不重要)。

  首先,要知道什么是“极大似然”。极大似然的基本思想是:一个随机试验如有若干个可能的结果A、B、C、… ,一次试验中若出现结果A,则认为实验条件对A的出现有利,也即该实验条件下A出现的概率P(A)较大。而极大似然估计就是要找到A出现概率最大值所对应的实验条件。

  那么,用数学语言描述一下极大似然估计:
  对于 m m m个样本的数据集 X = { x ( 1 ) , x ( 2 ) , . . . , x ( m ) } X = \left\{ {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right\} X={x(1),x(2),...,x(m)},是独立地由未知的真实数据生成分布 p d a t a ( x ) {p_{data}}\left( x \right) pdata​(x)生成的;令 θ \theta θ是一族由 p   m o d   e l ( x ; θ ) {p_{\bmod el}}\left( {x;\theta } \right) pmodel​(x;θ)在相同空间上确定的概率分布,那么极大似然估计就是求出最大的 θ \theta θ值,从而近似地估计出真实分布,可以表示为:
θ M L = arg ⁡ max ⁡ θ p   m o d   e l ( X ; θ ) = arg ⁡ max ⁡ θ ∏ i = 1 m p   m o d   e l ( x ( i ) ; θ ) \begin{array}{l} {\theta _{ML}} = \mathop {\arg \max }\limits_\theta {p_{\bmod el}}\left( {X;\theta } \right)\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \mathop {\arg \max }\limits_\theta \prod\limits_{i = 1}^m {{p_{\bmod el}}\left( {{x^{\left( i \right)}};\theta } \right)} \end{array} θML​=θargmax​pmodel​(X;θ)=θargmax​i=1∏m​pmodel​(x(i);θ)​  这样,由于乘积不便计算和可能的数值下溢问题,考虑等价优化为求对数似然,那么上式就转化为:
θ M L = arg ⁡ max ⁡ θ ∑ i = 1 m log ⁡ p   m o d   e l ( x ( i ) ; θ ) {\theta _{ML}} = \mathop {\arg \max }\limits_\theta \sum\limits_{i = 1}^m {\log {p_{\bmod el}}\left( {{x^{\left( i \right)}};\theta } \right)} θML​=θargmax​i=1∑m​logpmodel​(x(i);θ)  进一步,考虑缩放代价函数时 arg ⁡ max ⁡ \arg \max argmax不变,那么可以对上式除以 m m m,从而得到和训练数据经验分布 p ^ d a t a {\hat p_{data}} p^​data​相关的期望作为准则:
θ M L = arg ⁡ max ⁡ θ E x ∼ p ^ d a t a log ⁡ p   m o d   e l ( x ; θ ) {\theta _{ML}} = \mathop {\arg \max }\limits_\theta {{\rm E}_{x\sim{{\hat p}_{data}}}}\log {p_{\bmod el}}\left( {x;\theta } \right) θML​=θargmax​Ex∼p^​data​​logpmodel​(x;θ)
  有一种说法认为极大似然估计可以看做是最小化 K L KL KL散度,或者说是最小化分布间的交叉熵。为什么这么说?先看 K L KL KL散度的定义:
   K L KL KL散度一般用来度量两个分布之间的差异。具体到这里来说,就是最小化训练集上经验分布 p ^ d a t a {\hat p_{data}} p^​data​和模型分布之间的差异(因为真实分布 p d a t a {p_{data}} pdata​未知,所以只能和经验分布来匹配),即:
D K L ( p ^ d a t a ∥ p   m o d   e l ) = E x ∼ p ^ d a t a [ log ⁡ p ^ d a t a ( x ) − log ⁡ p   m o d   e l ( x ) ] {D_{KL}}\left( {{{\hat p}_{data}}\left\| {{p_{\bmod el}}} \right.} \right) = {{\rm E}_{x \sim {{\hat p}_{data}}}}\left[ {\log {{\hat p}_{data}}\left( x \right) - \log {p_{\bmod el}}\left( x \right)} \right] DKL​(p^​data​∥pmodel​)=Ex∼p^​data​​[logp^​data​(x)−logpmodel​(x)]  由于等号右边的前一项只和原始数据生成过程有关,和模型无关,因此意味着在最小化 K L KL KL散度时可以只考虑最小化等号右边的后一项,那么这就和极大似然估计的表示一样了。

  下面简单总结极大似然估计法的求解过程 :
  (1)根据所求目标模型写出似然函数;
  (2)对似然函数取对数并整理;
  (3)对似然对数求导;
  (4)解似然方程,得到估计参数的值;


2. 贝叶斯估计法

  Bayesian Estimation,即利用贝叶斯定理结合先验概率及新的证据(一般指数据的似然函数),得到新的概率。

  一般来说,极大似然估计归于频率派,认为参数是一个定值;而贝叶斯派则认为参数服从某种概率分布(即考虑所有可能的 θ \theta θ),这也是贝叶斯估计与极大似然估计的区别之一。

  具体的数学描述如下:
  对于 m m m个样本的数据集 X = { x ( 1 ) , x ( 2 ) , . . . , x ( m ) } X = \left\{ {{x^{\left( 1\right)}},{x^{\left( 2\right)}},...,{x^{\left( m \right)}}} \right\} X={x(1),x(2),...,x(m)},通过贝叶斯规则结合数据似然 p ( x ( 1 ) , x ( 2 ) , . . . , x ( m ) ∣ θ ) p\left( {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}\left| \theta \right.} \right) p(x(1),x(2),...,x(m)∣θ)(似然函数可参照极大似然估计法中对似然函数的介绍)及先验,得到对于 θ \theta θ的后验概率:
p ( θ ∣ x ( 1 ) , x ( 2 ) , . . . , x ( m ) ) = p ( x ( 1 ) , x ( 2 ) , . . . , x ( m ) ∣ θ ) p ( θ ) p ( X ) p\left( {\left. \theta \right|{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right) = \frac{{p\left( {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}\left| \theta \right.} \right)p\left( \theta \right)}}{{p\left( X \right)}} p(θ∣x(1),x(2),...,x(m))=p(X)p(x(1),x(2),...,x(m)∣θ)p(θ)​  这就是贝叶斯估计法对参数 θ \theta θ的估计结果。

  在贝叶斯估计的常用情景下,先验开始是相对均匀的分布或者是高熵的高斯分布,这样做是因为观测数据通常会使后验的熵下降,并集中在参数的几个可能性很高的值。

  同样地,下面简单梳理一下贝叶斯估计的求解过程:
  (1)确定参数 θ \theta θ的先验分布 p ( θ ) p\left( \theta \right) p(θ);
  (2)由数据集求出其联合概率分布,即似然函数 p ( X ∣ θ ) p\left( {X\left| \theta \right.} \right) p(X∣θ);
  (3)由贝叶斯公式求出 θ \theta θ的后验概率分布 p ( θ ∣ X ) p\left( {\theta \left| X \right.} \right) p(θ∣X);
  (4)求出 θ \theta θ的贝叶斯估计值 θ ^ = ∫ Θ θ p ( θ ∣ X ) d θ \hat \theta = \int\limits_\Theta {\theta {\kern 1pt} p\left( {\theta \left| X \right.} \right)d\theta } θ^=Θ∫​θp(θ∣X)dθ。( Θ \Theta Θ表示对应的参数空间)


3. 极大似然估计和贝叶斯估计的区别

  (1) 前面提到过的,这里再说明一下:极大似然估计预测时使用的是 θ \theta θ的点估计,而贝叶斯估计使用的是 θ \theta θ的全分布估计。比如,在观测到 m m m个样本后,下一个数据样本的预测分布为:
p ( x ( m + 1 ) ∣ x ( 1 ) , x ( 2 ) , . . . , x ( m ) ) = ∫ p ( x ( m + 1 ) ∣ θ ) p ( θ ∣ x ( 1 ) , x ( 2 ) , . . . , x ( m ) ) d θ p\left( {{x^{\left( {m + 1} \right)}}\left| {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right.} \right) = \int {p\left( {{x^{\left( {m + 1} \right)}}\left| \theta \right.} \right)p\left( {\theta \left| {{x^{\left( 1 \right)}},{x^{\left( 2 \right)}},...,{x^{\left( m \right)}}} \right.} \right)d\theta } p(x(m+1)∣∣∣​x(1),x(2),...,x(m))=∫p(x(m+1)∣θ)p(θ∣∣∣​x(1),x(2),...,x(m))dθ  这里每个具有正概率密度的 θ \theta θ值都有助于下一个样本的预测,其贡献由相应的后验概率密度加权;同时,对于 m m m个样本预测的不确定性也会包含在之后的预测中。

  (2) 和极大似然估计不同,贝叶斯估计需要“已知”参数 θ \theta θ的先验分布,这是因为先验能够影响概率质量密度朝着参数空间中偏好先验的区域偏移。实践中,先验通常表现为偏好更简单或更光滑的模型。

  (3) 当训练数据很有限时,贝叶斯估计通常泛化性更好;但是当训练样本很大时,贝叶斯方法通常会有很大的计算代价。而极大似然估计会向参数的真实值方向收敛(这要求真实分布 p d a t a {p_{data}} pdata​必须在模型分布族 p   m o d   e l ( ⋅ ; θ ) {p_{\bmod el}}\left( { \cdot {\kern 1pt} {\kern 1pt} ;\theta } \right) pmodel​(⋅;θ)中,且真实分布 p d a t a {p_{data}} pdata​必须刚好对应一个 θ \theta θ值)。


4. 最大后验估计

  Maximum A Posteriori,即MAP,也称最大后验点估计。

  那么什么是MAP呢?原则上,我们应该用参数 θ \theta θ的完整贝叶斯后验分布进行预测,这就是贝叶斯估计。但是单点估计常常也是需要的,这是因为通常贝叶斯后验的计算对于大多数有意义的模型来说是困难的。这个时候就考虑用点估计求得一个近似解。由此,结合贝叶斯估计的优点,提出了最大后验点估计的方法。

  MAP估计选择后验概率最大的点作为对于参数 θ \theta θ的估计值,即:
θ M A P = arg ⁡ max ⁡ θ p ( θ ∣ x ) = arg ⁡ max ⁡ θ log ⁡ p ( x ∣ θ ) + log ⁡ p ( θ ) {\theta _{MAP}} = \mathop {\arg \max }\limits_\theta p\left( {\theta \left| x \right.} \right) = \mathop {\arg \max }\limits_\theta \log p\left( {x\left| \theta \right.} \right) + \log p\left( \theta \right) θMAP​=θargmax​p(θ∣x)=θargmax​logp(x∣θ)+logp(θ)
  MAP的优点是利用了来自先验的信息,这个附加信息有助于减少估计的方差(相比于ML估计),但增大了偏差。
  另外,加入正则化的极大似然估计能够降低样本数目较少时发生过拟合的可能,这可以看做贝叶斯推断的MAP近似,即当正则化项对应于先验 p ( θ ) p\left( \theta \right) p(θ)时。当然,不是所有的正则化项都对应于MAP贝叶斯推断。


5. 以朴素贝叶斯分类为例说明

  下面,以朴素贝叶斯分类为例,简单说明极大似然估计和贝叶斯估计的计算方法和过程。

  首先,简述朴素贝叶斯法:
  朴素贝叶斯法是一种学习模型和分类的方法。对于给定的训练数据集,基于特征条件独立假设学习输入和输出的联合概率分布,再对给定的输入利用贝叶斯定理求出后验概率最大的输出。
  朴素贝叶斯法对条件概率分布做了如下的条件独立假设:( c k {c_k} ck​为类别)
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) \begin{array}{l} P\left( {X = x\left| {Y = {c_k}} \right.} \right){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = P\left( {{X^{\left( 1 \right)}} = {x^{\left( 1 \right)}},...,{X^{\left( n \right)}} = {x^{\left( n \right)}}\left| {Y = {c_k}} \right.} \right)\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \prod\limits_{j = 1}^n {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} \end{array} P(X=x∣Y=ck​)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ck​)=j=1∏n​P(X(j)=x(j)∣Y=ck​)​  朴素贝叶斯法分类时,后验概率为:
P ( Y = c k ∣ X = x ) = P ( X = x ∣ Y = c k ) P ( Y = c k ) ∑ k P ( X = x ∣ Y = c k ) P ( Y = c k ) P\left( {Y = {c_k}\left| {X = x} \right.} \right) = \frac{{P\left( {X = x\left| {Y = {c_k}} \right.} \right)P\left( {Y = {c_k}} \right)}}{{\sum\nolimits_k {P\left( {X = x\left| {Y = {c_k}} \right.} \right)P\left( {Y = {c_k}} \right)} }} P(Y=ck​∣X=x)=∑k​P(X=x∣Y=ck​)P(Y=ck​)P(X=x∣Y=ck​)P(Y=ck​)​  由上两式可得朴素贝叶斯分类器
y = f ( x ) = arg ⁡ max ⁡ c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) y = f\left( x \right) = \mathop {\arg \max }\limits_{{c_k}} \frac{{P\left( {Y = {c_k}} \right)\prod\nolimits_j {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} }}{{\sum\nolimits_k {P\left( {Y = {c_k}} \right)\prod\nolimits_j {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} } }} y=f(x)=ck​argmax​∑k​P(Y=ck​)∏j​P(X(j)=x(j)∣Y=ck​)P(Y=ck​)∏j​P(X(j)=x(j)∣Y=ck​)​  由于分母对所有 c k {c_k} ck​都相同,则可以简化为
y = f ( x ) = arg ⁡ max ⁡ c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) y = f\left( x \right) = \mathop {\arg \max }\limits_{{c_k}} P\left( {Y = {c_k}} \right)\prod\nolimits_j {P\left( {{X^{\left( j \right)}} = {x^{\left( j \right)}}\left| {Y = {c_k}} \right.} \right)} y=f(x)=ck​argmax​P(Y=ck​)∏j​P(X(j)=x(j)∣Y=ck​)
  以下分别用极大似然估计和贝叶斯估计计算朴素贝叶斯法中的概率。

  (1) 极大似然估计:
  先验概率的极大似然估计:
P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) N , k = 1 , 2 , . . . , K P\left( {Y = {c_k}} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} }}{N}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} k = 1,2,...,K P(Y=ck​)=Ni=1∑N​I(yi​=ck​)​,k=1,2,...,K  条件概率的极大似然估计:
P ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k ) , j = 1.2 , . . . , n ; l = 1 , 2 , . . . , S ; k = 1 , 2 , . . . , K P\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {x_i^{\left( j \right)} = {a_{jl}}{\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {y_i} = {c_k}} \right)} }}{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} }}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} j = 1.2,...,n{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} l = 1,2,...,S{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} k = 1,2,...,K P(X(j)=ajl​∣Y=ck​)=i=1∑N​I(yi​=ck​)i=1∑N​I(xi(j)​=ajl​,yi​=ck​)​,j=1.2,...,n;l=1,2,...,S;k=1,2,...,K  其中,设第 j j j个特征 x ( j ) {x^{\left( j \right)}} x(j)可能的取值集合为 { a j 1 , a j 2 , . . . , a j S j } \left\{ {{a_{j1}},{a_{j2}},...,{a_{j{S_j}}}} \right\} {aj1​,aj2​,...,ajSj​​};
  式中, x ( j ) {x^{\left( j \right)}} x(j)是第 i i i个样本的第 j j j个特征; a j l {a_{jl}} ajl​是第 j j j个特征可能取的第 l l l个值; I I I为指示函数。

  (2) 贝叶斯估计:
  先验概率的贝叶斯估计:
P λ ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ {P_\lambda }\left( {Y = c{}_k} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} + \lambda }}{{N + K\lambda }} Pλ​(Y=ck​)=N+Kλi=1∑N​I(yi​=ck​)+λ​  条件概率的贝叶斯估计:
P λ ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ {P_\lambda }\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right) = \frac{{\sum\limits_{i = 1}^N {I\left( {x_i^{\left( j \right)} = {a_{jl}},{y_i} = {c_k}} \right)} + \lambda }}{{\sum\limits_{i = 1}^N {I\left( {{y_i} = {c_k}} \right)} + {S_j}\lambda }} Pλ​(X(j)=ajl​∣Y=ck​)=i=1∑N​I(yi​=ck​)+Sj​λi=1∑N​I(xi(j)​=ajl​,yi​=ck​)+λ​  式中, λ ≥ 0 \lambda \ge 0 λ≥0等价于在随机变量的各个取值的频数上赋予一个正数 λ \lambda λ;
   λ = 0 \lambda = 0 λ=0时,就是极大似然估计; λ = 1 \lambda = 1 λ=1时,称为拉普拉斯平滑。
  显然,对于任何 l = 1 , 2 , . . . , S j , k = 1 , 2 , . . . , K l = 1,2,...,{S_j}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} k = 1,2,...,K l=1,2,...,Sj​,k=1,2,...,K,有:
P λ ( X ( j ) = a j l ∣ Y = c k ) > 0 {P_\lambda }\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right) > 0 Pλ​(X(j)=ajl​∣Y=ck​)>0 ∑ l = 1 S j P ( X ( j ) = a j l ∣ Y = c k ) = 1 \sum\limits_{l = 1}^{{S_j}} {P\left( {{X^{\left( j \right)}} = {a_{jl}}\left| {Y = {c_k}} \right.} \right)} = 1 l=1∑Sj​​P(X(j)=ajl​∣Y=ck​)=1


6. 小结

  本文简单分析和总结了机器学习中的参数估计方法,包括极大似然估计、贝叶斯估计以及最大后验估计。
  一般来说,极大似然估计是机器学习中的首选估计方法。当样本数目小到会发生过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的极大似然有偏版本。
  另外,如果能够知道参数的先验,那么可以考虑最大后验估计。相比于极大似然估计来说,先验有助于减少MAP的方差,但会增加偏差。因此,如何选择相应的估计方法,还需要具体问题具体分析。

机器学习(一):模型的参数估计方法相关推荐

  1. [DataAnalysis]多元线性回归深入浅出-案例+模型假设+参数估计方法+模型评判方法+变量选择+多重共线性问题

    一.案例介绍 1.目的:利用上市公司当年的公开财务指标预测来年盈利情况最重要的投资人决策依据. 2.数据来源:随机抽取深市和沪市2002和2003年的500个上市公司样本预测来年的净资产收益率. 3. ...

  2. ML之Validation:机器学习中模型验证方法的简介、代码实现、案例应用之详细攻略

    ML之Validation:机器学习中模型验证方法的简介.代码实现.案例应用之详细攻略 目录 模型验证方法的简介 1.Hold-out验证 2.K-折交叉验证 3.自助重采样 模型验证方法的代码实现 ...

  3. 机器学习 —— 基础整理(一)贝叶斯决策论;二次判别函数;贝叶斯错误率;生成式模型的参数方法...

    本文简单整理了以下内容: (一)贝叶斯决策论:最小错误率决策.最小风险决策:经验风险与结构风险 (二)判别函数:生成式模型:多元高斯密度下的判别函数:线性判别函数LDF.二次判别函数QDF (三)贝叶 ...

  4. 机器学习中的不平衡分类方法(part2)--模型评估与选择

    学习笔记,仅供参考,有错必纠 参考自:<机器学习中的不平衡分类方法>-- 康琦,吴启迪 文章目录 模型评估与选择 训练误差与测试误差 过拟合与欠拟合 模型选择 评估方法 模型评估与选择 训 ...

  5. 机器学习:贝叶斯和优化方法_Facebook使用贝叶斯优化在机器学习模型中进行更好的实验

    机器学习:贝叶斯和优化方法 I recently started a new newsletter focus on AI education. TheSequence is a no-BS( mea ...

  6. 性能翻倍!斯坦福Matei团队推出机器学习模型优化新方法

    机器学习模型正在被越来越多地部署在任务关键型系统中,比如自动驾驶汽车.然而,这些模型可能会因为各种复杂的原因失效,应用程序开发人员必须找到调试这些模型的方法.我们建议在ML模型调试任务中使用软件断言. ...

  7. 机器学习两种参数估计方法:最大似然估计和最小二乘法估计

    参数估计方法 一.最大似然估计 原理: 最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是概率分布函数或者说是似然函数最大. 二.最小二乘法 当从模型总体随机抽取n组样本观测值后 ...

  8. 论文阅读:机器学习模型可解释性方法、应用与安全研究综述

    近日阅读了一篇讲述可解释性的中文综述文章机器学习模型可解释性方法.应用与安全研究综述,对模型可解释性的相关知识有了进一步的了解.本文是阅读这篇综述的一些笔记以内容摘要. 0 引言 背景:虽然机器学习和 ...

  9. 机器学习基础(七):概率图模型(HMM、MRF、CRF、话题模型、推断方法)

    7.概率图模型 概率模型probabilistic model:提供一种描述框架,将学习任务归结于计算变量的概率分布,核心是如何基于可观测变量推测出未知变量的条件分布 → ①生成式generative ...

最新文章

  1. 在Blender中创建真实的汽车CGI视觉动画效果
  2. up 手环服务器不稳定,Up手环停产:曾经风光无限的Jawbone快不行了
  3. 2022 年营销自动化七大趋势前瞻
  4. 【Linux】一步一步学Linux——mtools命令(244)
  5. GPU Gems1 - 25 用纹理贴图进行快速过滤宽度的计算
  6. Mark To Market - MTM
  7. 《你好,李焕英》总票房逆袭《哪吒》 成中国影史亚军
  8. RelativeLayout设置wrap_content无效
  9. 报表工具Style Report报表打印功能
  10. google hacking搜索语法总结
  11. CxImage学习使用1:环境搭建
  12. YGG Founders‘ Coin 独家福利:Laura Shin 的“The Cryptopians”书本赠送
  13. 程序员必备的10款工具软件
  14. Access数据库无法连接的解决
  15. 【翻车】磁盘碎片整理
  16. zabbix6.4 Database history tables upgraded
  17. Oracle多行合并为单行多列
  18. “已完成生成项目“XXX.vcxproj”的操作 - 失败。”
  19. LT3042EDD规格
  20. Linux系统中管理用户登录及登录信息的处理

热门文章

  1. C++中构造函数和析构函数调用的时机
  2. GLIBC升级的问题(升级GLIBC之前必看)
  3. 期权希腊字母更多的含义和解释
  4. Dubbo解析及原理浅析
  5. 关于node版本16+ 安装依赖会出现error的问题
  6. PHP招聘:如何面试应届生求职者
  7. 跟着彭亮一起学人工智能之深度学习--零基础学人工智能
  8. python实现对小说的文本分析(人物关系图,人物词云等)
  9. window7旗舰版安装语言包
  10. 通过VM虚拟机安装linux系统(centos版本)