机器学习7 - 算法进阶2

  • 知识点

知识点

  1. 距离度量。

    • Manhattan: dist(x,y)=∑i∣xi−yi∣dist(x,y) = \sum_{i}|x_{i}-y_{i}|dist(x,y)=∑i​∣xi​−yi​∣
    • 欧式距离Euclidean: dist(x,y)=∑i(xi−yi)2dist(x,y) = \sqrt{\sum_{i}(x_{i}-y_{i})^2}dist(x,y)=∑i​(xi​−yi​)2​
    • Minkowski: dist(x,y)=(∑i∣xi−yi)p)1pdist(x,y) = (\sum_{i}|x_{i}-y_{i})^{p})^{\frac{1}{p}}dist(x,y)=(∑i​∣xi​−yi​)p)p1​
    • 杰卡德相似系数(Jaccard): J(A,B)=∣A∩B∣∣A∪B∣J(A,B) = \frac{|A\cap B|}{|A\cup B|}J(A,B)=∣A∪B∣∣A∩B∣​
    • 余弦相似度(cosine similarity): cos(θ)=a⋅b∣a∣⋅∣b∣cos(\theta) = \frac{\bold{a}\cdot\bold{b}}{|\bold{a}|\cdot|\bold{b}|}cos(θ)=∣a∣⋅∣b∣a⋅b​
    • Pearson相关系数: ρxy=Cov(x,y)σxσy\rho_{xy} = \frac{Cov(x,y)}{\sigma_{x}\sigma_{y}}ρxy​=σx​σy​Cov(x,y)​
    • 相对熵(KL散度): D(p∣∣q)=∑xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)D(p||q) = \sum_{x}p(x)log\frac{p(x)}{q(x)} = E_{p(x)}log\frac{p(x)}{q(x)}D(p∣∣q)=∑x​p(x)logq(x)p(x)​=Ep(x)​logq(x)p(x)​
    • Hellinger距离: Dα(p∣∣q)=21−α2(1−∫p(x)1+α2q(x)1−α2dx)D_{\alpha}(p||q) = \frac{2}{1-\alpha^2}(1-\int p(x)^{\frac{1+\alpha}{2}}q(x)^{\frac{1-\alpha}{2}}dx)Dα​(p∣∣q)=1−α22​(1−∫p(x)21+α​q(x)21−α​dx)
      Person相关系数即x,y坐标平移到原点后的夹角余弦。Hellinger当α\alphaα为01时,退化为D(p∣∣q),D(q∣∣p)D(p||q),D(q||p)D(p∣∣q),D(q∣∣p)。
  2. K-means聚类
    • 选定初始中心(可以使用elbow方法来选取中心数)
    • 对于每个样本,将其标记为距离类别中心最近的类别
    • 将每个中心更新为隶属该类别的所有样本的均值
    • 重复迭代直到满足一定的迭代步数或者MSE或者簇中心变化率。
      需要做feature scaling。
  • 损失函数:
    J=∑n=1N∑k=1Krnk∣∣xn−μk∣∣2J = \sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}||x_{n}-\mu_{k}||^2J=n=1∑N​k=1∑K​rnk​∣∣xn​−μk​∣∣2
    其中rnk=1r_{nk}=1rnk​=1如果xnx_{n}xn​属于中心k,否则为0。μk\mu_{k}μk​为参数。
  1. 聚类的衡量指标:

    • 均一性:一个簇只含有一个类别的样本,则满足均一性
      p=1k∑i=1kN(Ci==Ki)N(Ki)p = \frac{1}{k}\sum_{i=1}^{k}\frac{N(C_{i}==K_{i})}{N(K_{i})}p=k1​i=1∑k​N(Ki​)N(Ci​==Ki​)​
    • 完整性:同类别样本被归类到相同簇中,则满足完整性
      r=1k∑i=1nN(Ci==Ki)N(Ci)r = \frac{1}{k}\sum_{i=1}^{n}\frac{N(C_{i}==K_{i})}{N(C_{i})}r=k1​i=1∑n​N(Ci​)N(Ci​==Ki​)​
    • V-measure:均一性和完整性的加权平均
      νβ=(1+β)⋅prβ⋅p+r\nu_{\beta} = \frac{(1+\beta)\cdot pr}{\beta\cdot p+r}νβ​=β⋅p+r(1+β)⋅pr​
    • 调整兰德系数(ARI, Adjusted Rnd ARI),范围为[-1,1],越高越好。
    • 调整互信息(AMI,Adjusted Mutual Information),越高越好。
    • 轮廓系数:
      • 簇内不相似度:计算样本i到同簇其它样本的平均距离为ai;ai越小,表示样本i越应该被聚类到该簇,簇C中的所有样本的ai的均值被称为簇C的簇不相似度。
      • 簇间不相似度:计算样本i到其它簇Cj的所有样本的平均距离bij,i=min{bi1,bi2,…,bik};bi越大,表示样本i越不属于其它簇。
      • 轮廓系数: sis_{i}si​值越接近1表示样本i聚类越合理,越接近-1,表示样本i应该分类到另外的簇中,近似为0,表示样本i应该在边界上;所有样本的si的均值被成为聚类结果的轮廓系数。
        s(i)=b(i)−a(i)max{a(i),b(i)}s(i)={1−a(i)b(i)a(i)<b(i)0a(i)=b(i)a(i)b(i)−1a(i)>b(i)s(i) = \frac{b(i)-a(i)}{max\{a(i),b(i)\}} \quad s(i) = \begin{cases} 1-\frac{a(i)}{b(i)} \quad a(i)<b(i)\\ 0 \quad a(i) = b(i) \\ \frac{a(i)}{b(i)}-1 \quad a(i)>b(i) \end{cases}s(i)=max{a(i),b(i)}b(i)−a(i)​s(i)=⎩⎪⎨⎪⎧​1−b(i)a(i)​a(i)<b(i)0a(i)=b(i)b(i)a(i)​−1a(i)>b(i)​

除了轮廓系数,都需要标签来计算。

  1. 层次聚类法:对给定的数据集进行层次的分解,直到满足某种条件为止。

    • 凝聚的层次分类:AGNES
      自底向上的策略,先把每个样本作为一个簇,然后不断合并直到满足终止条件。
      距离:

      • 最小距离:两个集合中最近的两个样本的距离,容易形成链状结构。
      • 最大距离:两个集合中最远的两个样本的距离,若存在异常值则不稳定complete
      • 平均距离:两个样本中两两距离的平均值average,或者两两距离的平方和ward
    • 分裂层次分类:DIANA
      自上向下的策略,先把所有样本作为一个簇,然后不断分裂直到满足终止条件。

  2. DBSCAN(Density-Based Spatial Clustering of Applications with Noise):它将簇定义为密度相连的点的最大集合,能够把具有高密度的区域划分为簇,并可在有“噪声”的数据中发现任意形状的聚类。



    使用并查集,关于并查集:
    https://cloud.tencent.com/developer/article/1521053

  3. 密度最大值聚类:一种简洁优美的聚类算法,可以识别各种形状的类簇,而且参数很容易确定。



  4. 谱和谱聚类

  • 方阵作为线性算子,它的所有特征值的全体统称方阵的谱。方阵的谱半径为最大的特征值,矩阵A的谱半径:ATAA^{T}AATA的最大特征值。

  • 谱聚类是一种基于图论的聚类方法,通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据聚类的目的。

  • 过程


    其中W的对角元素都为0。


    得到L之后,求其特征向量, 取前k列特征向量做k均值聚类。

  • 思考:

    • 谱聚类中的k如何确定:k∗=argmax⁡∣λk+1−λk∣k^{*} = arg \max|\lambda_{k+1}-\lambda_{k}|k∗=argmax∣λk+1​−λk​∣
    • 最后一步k-means的作用:目标函数是关于子图划分指示向量的函数,该向量的值根据子图划分确定,是离散的,该问题是NP问题,转换成求连续实数域上的解,最后用k-means离散化。
    • 未正则,对称,随机游走拉普拉斯矩阵优先选择随机游走拉普拉斯矩阵
    • 谱聚类可用于切割图/随机游走/扰动论等解释
  1. 标签传递算法。(Label Propagation Algorithm, LPA)

    • 对于部分样本的标记给定,而大多数样本的标记未知的情形,是半监督学习。
    • 将标记样本的标记通过一定的概率传递给未标记样本,直到最终收敛。
  2. 高斯混合模型(Gaussian Mixture Model, GMM)

  • 可用于无监督学习中的聚类,与k均值法类似,有两个优点:

    • k-means不考虑方差,gmm考虑方差,方差(协方差)决定分布的形状
    • k-means执行硬分类,gmm执行软分类,可以输出概率。
  • 随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为π1,π2,…,πk\pi_1,\pi_2,\dots,\pi_{k}π1​,π2​,…,πk​,第i个高斯分布的均值为μi\mu_{i}μi​,方差为Σi\Sigma_{i}Σi​,若观测到x1,x2,…,xkx_1,x_2,\dots,x_{k}x1​,x2​,…,xk​,试估计μ,Σ,π\mu,\Sigma,\piμ,Σ,π。
    l(μ,Σ,π)=∑i=1Nlog(∑k=1KπkN(xi∣μk,Σk))l(\mu,\Sigma,\pi) = \sum_{i=1}^{N}log(\sum_{k=1}^{K}\pi_{k}N(x_{i}|\mu_{k},\Sigma_{k}))l(μ,Σ,π)=i=1∑N​log(k=1∑K​πk​N(xi​∣μk​,Σk​))
  • 使用最大期望算法(Expectation-Maximum, EM)求解
    • 最常见的隐变量估计方法,在机器学习中有广泛的应用。
    • Jensen不等式:若f凸
      f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)f(\theta x+(1-\theta)y) \leq \theta f(x)+(1-\theta)f(y)f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
    • 第一步:估算数据来自哪个组份,估计数据由每个组份生成的概率,对于每个样本xix_{i}xi​,它由第k个组份生成的概率是
      γ(i,k)=πkN(xi∣μk,Σk)∑j=1KπjN(xi∣μj,Σj)\gamma(i,k) = \frac{\pi_{k}N(x_{i}|\mu_{k},\Sigma_{k})}{\sum_{j=1}^{K}\pi_{j}N(x_{i}|\mu_{j},\Sigma_{j})}γ(i,k)=∑j=1K​πj​N(xi​∣μj​,Σj​)πk​N(xi​∣μk​,Σk​)​
      需要先验给定μ,Σ\mu,\Sigmaμ,Σ,γ(i,k)\gamma(i,k)γ(i,k)也可以看成组份k在生成数据xix_{i}xi​时所做的贡献
    • 第二步:估计每一个参数,对于所有的样本点,对于组份k而言,可看成生成了{γ(i,k)xi∣i=1,2,…,N}\{\gamma(i,k)x_{i}|i=1,2,\dots,N\}{γ(i,k)xi​∣i=1,2,…,N}这些点, 组份k是一个标准的高斯分布:
      {Nk=∑i=1Nγ(i,k)μk=1Nk∑i=1Nγ(i,k)xiΣk=1Nk∑i=1Nγ(i,k)(xi−μk)(xi−μk)Tπk=NkN\begin{cases} N_{k} = \sum_{i=1}^{N}\gamma(i,k) \\ \mu_{k} = \frac{1}{N_{k}}\sum_{i=1}^{N}\gamma(i,k)x_{i}\\ \Sigma_{k} = \frac{1}{N_{k}}\sum_{i=1}^{N}\gamma(i,k)(x_{i} -\mu_{k})(x_{i}-\mu_{k})^{T}\\ \pi_{k} = \frac{N_{k}}{N} \end{cases}⎩⎪⎪⎪⎨⎪⎪⎪⎧​Nk​=∑i=1N​γ(i,k)μk​=Nk​1​∑i=1N​γ(i,k)xi​Σk​=Nk​1​∑i=1N​γ(i,k)(xi​−μk​)(xi​−μk​)Tπk​=NNk​​​
      重复以上步骤直至参数收敛。
    • EM 算法具备收敛性,但并不保证找到全局最大值,有可能找到局部最大值。解决方法是初始化几次不同的参数进行迭代,取结果最好的那次。
  1. EM算法一般求解过程:

  2. 模型选择标准:

    • AIC(Akaike Information Criterion) = −2ln⁡L+2k-2\ln L+2k−2lnL+2k , k为参数个数
    • BIC(Bayes Information Criterion) = −2ln⁡L+(ln⁡n)k-2\ln L +(\ln n)k−2lnL+(lnn)k, n为样本个数
  3. 朴素贝叶斯假设:特征独立,同等重要。

  • 推导:
    P(y∣x1,x2,…,xn)=P(y)P(x1,x2,…,xn∣y)P(x1,x2,…,xn)P(y|x_1,x_2,\dots,x_{n}) = \frac{P(y)P(x_1,x_2,\dots,x_{n}|y)}{P(x_1,x_2,\dots,x_{n})}P(y∣x1​,x2​,…,xn​)=P(x1​,x2​,…,xn​)P(y)P(x1​,x2​,…,xn​∣y)​
  • 根据样本使用(Maximum A Posteriori)估计P(y)。
    y^=argmaxP(y)∏i=1nP(xi∣y)\hat{y} = argmax \ P(y)\prod_{i=1}^{n}P(x_{i}|y)y^​=argmax P(y)i=1∏n​P(xi​∣y)
  • 高斯朴素贝叶斯(Gaussian Naive Bayes)
    P(xi∣y)=12πσyexp(−(xi−μy)22σy2)P(x_{i}|y) = \frac{1}{\sqrt{2\pi}\sigma_{y}}exp(-\frac{(x_{i}-\mu_{y})^2}{2\sigma_{y}^2})P(xi​∣y)=2π​σy​1​exp(−2σy2​(xi​−μy​)2​)
  • 多项分布朴素贝叶斯(Multinomial Naive Bayes)
    θyi^=Nyi+αNy+α⋅n{Nyi=∑ixiNy=∑iNyi\hat{\theta_{yi}} = \frac{N_{yi}+\alpha}{N_{y}+\alpha\cdot n} \quad \begin{cases} N_{yi} = \sum_{i}x_{i}\\ N_{y} = \sum_{i}N_{yi}\\ \end{cases}θyi​^​=Ny​+α⋅nNyi​+α​{Nyi​=∑i​xi​Ny​=∑i​Nyi​​
    其中,α=1\alpha=1α=1为拉普拉斯平滑,α<1\alpha<1α<1为Lidstone平滑。
  1. 模型具有发散性:现实中若前提/假设不满足,也可以使用。
  2. 文本分类的朴素贝叶斯算法:
    P(ci∣x)=P(x∣ci)⋅P(ci)P(x)P(c_{i}|\bold{x}) = \frac{P(\bold{x}|c_{i})\cdot P(c_{i})}{P(\bold{x})}P(ci​∣x)=P(x)P(x∣ci​)⋅P(ci​)​
    P(x∣ci)=P(x1∣ci)P(x2∣ci)…P(xn∣ci)P(\bold{x}|c_{i}) = P(x_1|c_{i})P(x_2|c_{i})\dots P(x_{n}|c_{i})P(x∣ci​)=P(x1​∣ci​)P(x2​∣ci​)…P(xn​∣ci​)
    其中
    P(xi∣ci)=NxiNciP(x)=NxiNP(ci)=Nci∑iNciP(x_{i}|c_{i}) = \frac{N_{x_{i}}}{N_{c_{i}}} \quad P(\bold{x}) = \frac{N_{x_{i}}}{N} \quad P(c_{i}) = \frac{N_{c_{i}}}{\sum_{i} N_{c_{i}}}P(xi​∣ci​)=Nci​​Nxi​​​P(x)=NNxi​​​P(ci​)=∑i​Nci​​Nci​​​
  3. 概率图模型(PGM)分为有向图的贝叶斯网络(Bayesian Network)和无向图的马尔可夫网络(Markov Network)。
  4. 贝叶斯网络
  • 把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。
  • 贝叶斯网络又称有向无环图模型,是一种概率图模型,根据概率图的拓扑结构,考察一组随机变量{X1,X2,…,Xn}\{ X_1,X_2,\dots,X_{n} \}{X1​,X2​,…,Xn​},及其N组条件概率分布的性质。
  • 无环图中的结点表示随机变量,链接两个结点的箭头表示具有因果关系(非独立关系)。
  • 每个结点在给定其直接前驱时,条件独立于其非后继。
  • 示例
  • 全链接贝叶斯网络:每一对结点都有边连接
    P(X=x1,x2,…,xn)=∏iP(xi∣xi+1,xi+2,…,xn)P(X=x_1,x_2,\dots,x_{n}) = \prod_{i}P(x_{i}|x_{i+1},x_{i+2},\dots,x_{n})P(X=x1​,x2​,…,xn​)=i∏​P(xi​∣xi+1​,xi+2​,…,xn​)
  • 形式化定义:
    BN(G,Θ)BN(G,\Theta)BN(G,Θ)

    • G:有向无环图
    • G的结点:随机变量
    • G的边:结点间的依赖
    • Θ\ThetaΘ:所有条件概率分布的参数集合
  • 思考:需要多少个参数确定上述网络?假设每个结点所需的参数个数为M,结点和parent的可取值数目都是K: KM(K−1)K^{M}(K-1)KM(K−1)。
  • 当结点形成一条链式网络,称为马尔科夫模型。(Ai+1A_{i+1}Ai+1​只与AiA_{i}Ai​有关),例如pLSA主题模型。
  1. Word2Vec:本质上是建立了一个三层神经网络,将所有词都映射为一定长度的向量,取一定的窗口范围作为当前词的领域,估计窗口内的词。
  2. Beta分布:
    B(α,β)=Γ(α)Γ(β)Γ(α+β)Γ(n)=(n−1)!B(\alpha,\beta) =\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)} \quad \Gamma(n) = (n-1)!B(α,β)=Γ(α+β)Γ(α)Γ(β)​Γ(n)=(n−1)!
    f(x)=1B(α,β)∫xα−1(1−x)βdxf(x) = \frac{1}{B(\alpha,\beta)}\int x^{\alpha-1}(1-x)^{\beta}dx f(x)=B(α,β)1​∫xα−1(1−x)βdx
    E(x)=1B(α,β)∫01xα(1−x)βdx=B(α+1,β)B(α,β)=αα+βE(x) = \frac{1}{B(\alpha,\beta)}\int_0^1 x^{\alpha}(1-x)^{\beta}dx = \frac{B(\alpha+1,\beta)}{B(\alpha,\beta)} = \frac{\alpha}{\alpha+\beta}E(x)=B(α,β)1​∫01​xα(1−x)βdx=B(α,β)B(α+1,β)​=α+βα​
  3. 共轭先验分布:
    P(θ∣x)∝P(x∣θ)P(θ)P(\theta|x) \propto P(x|\theta)P(\theta)P(θ∣x)∝P(x∣θ)P(θ)
    其中P(θ)P(\theta)P(θ)为先验概率,P(x∣θ)P(x|\theta)P(x∣θ)为似然概率,P(θ∣x)P(\theta|x)P(θ∣x)为后验概率。
  • 共轭分布:若先验概率和后验概率服从相同的分布,他们就叫做似然概率的共轭分布。例如:
  1. Dirichlet分布
  • 概率分布Dir(p⃗∣α⃗)=1Δ(α⃗)∏k=1Kpkα−1pk∈[0,1]Dir(\vec{p}|\vec{\alpha}) = \frac{1}{\Delta(\vec{\alpha})}\prod_{k=1}^{K}p_{k}^{\alpha-1} \ p_{k}\in[0,1]Dir(p​∣α)=Δ(α)1​k=1∏K​pkα−1​ pk​∈[0,1]
    其中
    Δ(α⃗)=∏kΓ(αk)Γ(∑kαk)E(pi)=αi∑kαk\Delta(\vec{\alpha}) = \frac{\prod_{k}\Gamma(\alpha_{k})}{\Gamma(\sum_{k}\alpha_{k})} \quad E(p_{i}) = \frac{\alpha_{i}}{\sum_{k}\alpha_{k}}Δ(α)=Γ(∑k​αk​)∏k​Γ(αk​)​E(pi​)=∑k​αk​αi​​
  • α\alphaα是参数向量,共K个。定义在x1,x2,…,xk−1x_1,x_2,\dots,x_{k-1}x1​,x2​,…,xk−1​维上。
    • x1+x2+⋯+xk=1x_1+x_2+\dots+x_{k}=1x1​+x2​+⋯+xk​=1
    • x1,x2,…,xK−1>0x_1,x_2,\dots,x_{K-1}>0x1​,x2​,…,xK−1​>0
    • 定义在K-1维的单纯形上,其他区域的概率密度为0。
  • 对称Dirichlet分布:
    Dir(p⃗∣α,K)=1ΔK(α⃗)∏k=1Kpkα−1Dir(\vec{p}|\alpha,K) = \frac{1}{\Delta_{K}(\vec{\alpha})}\prod_{k=1}^{K}p_{k}^{\alpha-1} Dir(p​∣α,K)=ΔK​(α)1​k=1∏K​pkα−1​
    其中,
    ΔK(α⃗)=ΓK(αk)Γ(K⋅α)\Delta_{K}(\vec{\alpha}) = \frac{\Gamma^{K}(\alpha_{k})}{\Gamma(K\cdot\alpha)}ΔK​(α)=Γ(K⋅α)ΓK(αk​)​
  • 参数alpha对Dirichlet分布的影响
  • 多项分布的共轭分布是Dirichlet分布
  1. LDA(Latent Dirichlet Allocation),生成模型,重要主题模型。

    其中,

    • K为主题个数
    • M为文档总数
    • NmN_{m}Nm​是第m个文档的单词总数
    • β\betaβ是每个主题下词的多项分布的Dirichlet先验参数
    • α\alphaα是每个文档下主题的多项分布的Dirichlet的先验参数
    • ZnmZ_{nm}Znm​是第m个文档中第n个词的主题
    • WmnW_{mn}Wmn​是第m个文档中的第n个词
    • θ\thetaθ是第m个文档下的主题分布,k维(主题数)
    • ϕ\phiϕ是第k个主题下的词分布,v维(词数)
  • 计算过程:

    其中,

    • nk(t)n^{(t)}_{k}nk(t)​表示第t个词在topic k中出现的次数
    • nm(k)n^{(k)}_{m}nm(k)​表示第k个主题在文档m中出现的次数
  • 应用:
    • 文本数据特征提取,用于分类回归预测模型
    • 聚类分析,提取文档主题信息
    • 推荐系统,可用于计算物品的相似度(KL散度)
  • LDA开源库
sklearn.decomposition.LatentDirichletAllocation/OnlineVB

Gensim OnlineVB:
http://www.cs.columbia.edu/~blei/topicmodeling_software.html

  1. TF-IDF(Term Frequency - Inverse Document Frequency)
    计算:TF*IDF,统计方法,TF为词出现的次数/文档中的总词数,IDF为lg(总文档数/出现该词的文档数)。值越大该词的重要程度越高。
  2. 卷积神经网络
  • 规则化:白化,去均值
  • 卷积:维度提升,过完备基
  • 非线性映射:稀疏化,边界消除
  • 池化:特征聚集,降维,光
  • 激励函数:主要为了引入非线性,增加拟合效果
  • Dropout:随机丢掉一部分单元。这一层类似于性别在 生物进化中的角色,物种为了适应不断变化的环境,性别的出现有效的防止了过拟合,即避免了环境改变时物种可能面临的灭亡。
  1. 隐马尔可夫模型(Hidden Markov Model, HMM)
  • 主要内容

    • 概率计算
    • 参数估计
    • 模型预测
  • 用途
    • 标注问题
    • 语音识别
    • NLP
    • 生物信息
    • 模式识别
  • HMM是关于时序的概率模型,描述由一个隐藏的马尔可夫链生成不可观测的状态随机序列,再由各个状态生成观测随机序列的过程。
  • 隐马尔可夫模型随机生成的状态随机序列,称为状态序列;每个状态生成一个观测,由此产生的观测随机序列,称为观测序列。
  • HMM由初始概率分布π\piπ,状态转移概率分布A以及观测概率分布B组成。
    λ=(A,B,π)\lambda = (A,B,\pi)λ=(A,B,π)
    I是长度为T的状态序列,O是对应的观测序列。
    I={i1,i2,…,iT}O={o1,o2,…,oT}I=\{i_1,i_2,\dots,i_{T}\} \quad O = \{o_1,o_2,\dots,o_{T}\}I={i1​,i2​,…,iT​}O={o1​,o2​,…,oT​}
    A是状态转移概率矩阵:
    A=[aij]N×NA = [a_{ij}]_{N\times N}A=[aij​]N×N​
    其中,aij=P(it+1=qj∣it=qi)a_{ij} =P(i_{t+1}=q_{j}|i_{t}=q_{i})aij​=P(it+1​=qj​∣it​=qi​),aija_{ij}aij​是在时刻t处于状态qiq_{i}qi​的条件下时刻t+1转移到状态qjq_{j}qj​的概率。
    BBB是观测矩阵:
    B[bik]N×MB[b_{ik}]_{N\times M}B[bik​]N×M​
    其中,bik=P(ot=vk∣it=qi)b_{ik} = P(o_{t}=v_{k}|i_{t}=q_{i})bik​=P(ot​=vk​∣it​=qi​),bikb_{ik}bik​是在时刻t处于状态qiq_{i}qi​的条件下生成规则vkv_{k}vk​的概率。
    π\piπ是初始状态概率向量,π=(πi)\pi = (\pi_{i})π=(πi​),其中πi=P(i1=qi)\pi_{i} = P(i_{1}=q_{i})πi​=P(i1​=qi​),πi\pi_{i}πi​是时刻t=1处于状态qiq_{i}qi​的概率。
  • HMM的两个基本性质:
    • 齐次假设:
      P(it∣it−1,ot−1,it−2,ot−2,…,t1,o1)=P(it∣it−1)P(i_{t}|i_{t-1},o_{t-1},i_{t-2},o_{t-2},\dots,t_1,o_1) = P(i_{t}|i_{t-1})P(it​∣it−1​,ot−1​,it−2​,ot−2​,…,t1​,o1​)=P(it​∣it−1​)
    • 观测独立性假设:
      P(ot∣iT,oT,iT−1,oT−1,…,t1,o1)=P(ot∣it)P(o_{t}|i_{T},o_{T},i_{T-1},o_{T-1},\dots,t_1,o_1) = P(o_{t}|i_{t})P(ot​∣iT​,oT​,iT−1​,oT−1​,…,t1​,o1​)=P(ot​∣it​)
  • HMM三个基本问题:
    • 概率计算问题:前向-后向问题 —— 动态规划
      给定模型λ=(A,B,π)\lambda = (A,B,\pi)λ=(A,B,π)和观测序列O={o1,o2,…,oT}O=\{o_1,o_2,\dots,o_{T}\}O={o1​,o2​,…,oT​},计算模型λ\lambdaλ下观测序列O出现的概率P(O∣λ)P(O|\lambda)P(O∣λ)


    • 学习问题:Baum - Welch算法(状态未知) —— EM
      已知观测序列O={o1,o2,…,oT}O=\{o_1,o_2,\dots,o_{T}\}O={o1​,o2​,…,oT​},估计模型λ=(A,B,π)\lambda = (A,B,\pi)λ=(A,B,π)的参数,使得在该模型下观测序列P(O∣λ)P(O|\lambda)P(O∣λ)最大
    • 预测问题:Viterbi算法 —— 动态规划
      解码问题,已知观测序列O={o1,o2,…,oT}O=\{o_1,o_2,\dots,o_{T}\}O={o1​,o2​,…,oT​},和模型λ=(A,B,π)\lambda = (A,B,\pi)λ=(A,B,π),求给定观测序列条件概率P(O∣λ)P(O|\lambda)P(O∣λ)最大的状态序列I。

机器学习7 - 算法进阶2相关推荐

  1. 机器学习入门到进阶学习路线图

    作者: 龙心尘 && 寒小阳 原文:http://blog.csdn.net/longxinchen_ml/article/details/50749614 http://blog.c ...

  2. Algorithm:【Algorithm算法进阶之路】之十大经典排序算法

    Algorithm:[Algorithm算法进阶之路]之十大经典排序算法 相关文章 Algorithm:[Algorithm算法进阶之路]之数据结构二十多种算法演示 Algorithm:[Algori ...

  3. Algorithm:【Algorithm算法进阶之路】之数据结构基础知识

    Algorithm:[Algorithm算法进阶之路]之数据结构基础知识 相关文章 Algorithm:[Algorithm算法进阶之路]之数据结构二十多种算法演示 Algorithm:[Algori ...

  4. Algorithm:【Algorithm算法进阶之路】之数据结构二十多种算法演示

    Algorithm:[Algorithm算法进阶之路]之数据结构二十多种算法演示 目录 一.数据结构算法 1.顺序表 2.链表 3.栈和队列 4.串的模式匹配 5.稀疏矩阵 6.广义表 7.二叉树 8 ...

  5. 【白话机器学习】算法理论+实战之EM聚类

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,常见的机器学习算法: 监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支持向量机,集成算法Ad ...

  6. 机器学习在算法交易中的应用现状

    算法交易简介 算法交易(Algorithm Trading)起源于美国,它是采用量化分析手段,由计算机根据算法模型决定交易委托的下单时机.委托价格以及委托笔数等,通过自动发出指令实现证券买卖和资产组合 ...

  7. 机器学习入门到进阶学习路线

    机器学习入门到进阶学习路线 参考:https://mp.weixin.qq.com/s/f-v-NUW7pTbVF9Sa3A4qUA 1. 定义 机器学习研究的是计算机怎样模拟人类的学习行为,以获取新 ...

  8. 【推荐】机器学习入门到进阶学习路线图

    作者: 龙心尘 && 寒小阳 原文:http://blog.csdn.net/longxinchen_ml/article/details/50749614 http://blog.c ...

  9. DL-Pytorch Task07:优化算法进阶;word2vec;词嵌入进阶

    目录 优化算法进阶 An ill-conditioned Problem Maximum Learning Rate Supp: Preconditioning Solution to ill-con ...

最新文章

  1. 996+GPA+500
  2. 史上最经典的数据库面试题之二
  3. 【机器学习】为什么在信用风险建模中首选树模型?
  4. hibernate3.2多表关联查询常见问题
  5. java激励_激励干个人java的不足之处
  6. 【转】WCF Data Service 使用小结(二) —— 使用WCF Data Service 创建OData服务
  7. 电容降压LED驱动电路
  8. 报告PPT--Python程序设计,不仅仅是学习编程(35页)
  9. SAP License:搽皮鞋的提示
  10. 蓝桥杯 BASIC-1 基础练习 闰年判断
  11. HttpServlet使用@WebServlet注解
  12. Charles Https 请求 SSL乱码问题 charles unreadable
  13. 【JAVA基础】Java基础之-代理详解
  14. 2019-01-19-build-xmr-stak-on-ubuntu
  15. linux虚拟磁盘服务,hintsoft Linux iscsi虚拟磁盘完全教程及优化攻略
  16. shell编程常用命令总结(二)
  17. 2016年最经典的高仿系列源码打包下载4.84G
  18. 基于STM32+UCOS的智能车载终端系统总结
  19. C++求最大公约数 两种方法
  20. 今年春季清华大学雨课堂主讲嘉宾邹晓辉讲授了融智学系列公益课:

热门文章

  1. P - Consumer
  2. java游戏 暴雨梨花,《梦幻西游》新足迹暴雨梨花和踩浪花游戏效果
  3. 零基础Bootstrap入门教程(25)--折叠面板、折叠面板导航
  4. UserAgent 解析, 在线api
  5. Oracle收集统计信息
  6. UE4-(反射)平面反射
  7. 【新书推荐】图神经网络导论,清华大学刘知远老师著作
  8. 刘知远:NLP研究入门之道(三)如何通过文献掌握学术动态
  9. Git基础(三)--常见错误及解决方案
  10. 如何按要求比较两个数的大小(不使用大于、小于以及if语句)