Perplexity，中文翻译为困惑度，是信息论中的一个概念，其可以用来衡量一个随机变量的不确定性，也可以用来衡量模型训练的好坏程度。通常情况下，一个随机变量的Perplexity数值越高，代表其不确定性也越高；一个模型推理时的Perplexity数值越高，代表模型表现越差，反之亦然。

随机变量概率分布的困惑度

对于离散随机变量 X X X，假设概率分布可以表示为 p ( x ) p(x) p(x)，那么对应的困惑度为： 2 H ( p ) = 2 − ∑ x ∈ X p ( x ) l o g 2 p ( x ) 2^{H(p)}=2^{-\sum_{x \in X}p(x) log_2p(x)} 2H(p)=2−∑x∈Xp(x)log2p(x)其中， H ( p ) H(p) H(p) 为概率分布 p p p 的熵。可以看到，一个随机变量熵越大，其对应的困惑度也就越大，随机变量的不确定性也就越大。

模型分布的困惑度

困惑度也可以用来衡量模型训练的好坏程度，即衡量模型分布和样本分布之间的差异。一般来讲，在模型的训练过程中，模型分布越接近样本分布，模型训练得也就越好。

假设现在有一批数据 x 1 , x 2 , x 3 , . . . , x n x_1,x_2,x_3,...,x_n x1,x2,x3,...,xn，其对应的经验分布为 p r ( x ) p_r(x) pr(x)。现在我们根据这些样本成功训练出了一个模型 p θ ( x ) p_θ(x) pθ(x)，那么模型分布 p θ ( x ) p_θ(x) pθ(x) 的好坏可以由困惑度进行定义： 2 H ( p r , p θ ) = 2 − ∑ i n p r ( x i ) l o g 2 p θ ( x i ) 2^{H(p_r,p_\theta)}=2^{-\sum^n_i p_r(x_i) log_2p_\theta(x_i)} 2H(pr,pθ)=2−∑inpr(xi)log2pθ(xi)其中， H ( p r , p θ ) H(p_r,p_θ) H(pr,pθ) 表示样本的经验分布 p ~ r \tilde p_r p~r和模型分布 p θ p_θ pθ之间的交叉熵。假设每个样本 x i xi xi 的生成概率是相等的，即 p r ( x i ) = 1 n p_r(x_i)=\frac 1 n pr(xi)=n1，则模型分布的困惑度可简化为： 2 H ( p r , p θ ) = 2 − 1 n ∑ i n l o g 2 p θ ( x i ) 2^{H(p_r,p_\theta)}=2^{-\frac 1 n\sum^n_i log_2p_\theta(x_i)} 2H(pr,pθ)=2−n1∑inlog2pθ(xi)

NLP领域中的困惑度

在NLP领域，语言模型可以用来计算一个句子的概率，假设现在有这样一句话 s = w 1 , w 2 , w 3 , . . . , w n s=w_1,w_2,w_3,...,w_n s=w1,w2,w3,...,wn, 我们可以这样计算这句话的生成概率： p ( x ) = p ( w 1 , w 2 , . . . , w n ) = ∏ i = 1 n p ( w i ∣ w 1 , w 2 , . . . , w i − 1 ) \begin{aligned} p(x)&=p(w_1,w_2,...,w_n)\\ &=\displaystyle \prod^n_{i=1}p(w_i|w_1,w_2,...,w_{i-1})\end{aligned} p(x)=p(w1,w2,...,wn)=i=1∏np(wi∣w1,w2,...,wi−1)在语言模型训练完成之后，如何去评判语言模型的好坏？这时，困惑度就可以发挥作用了。一般来讲，用于评判语言模型的测试集均是合理的、高质量的语料，只要语言模型在测试集上的困惑度越高，则代表语言模型训练地越好，反之亦然。

在了解了语句概率的计算后，则对于语句 s = w 1 , w 2 , w 3 , . . . , w n s=w_1,w_2,w_3,...,w_n s=w1,w2,w3,...,wn，其困惑度可以这样来定义： p e r p l e x i t y = p ( s ) − 1 n = p ( w 1 , w 2 , . . . , w n ) − 1 n = 1 p ( w 1 , w 2 , . . . , w n ) n = ∏ i = 1 n 1 p ( w i ∣ w 1 , w 2 , . . . , w i − 1 ) n \begin{aligned} perplexity&=p(s)^{- \frac 1 n} \\ &=p(w_1,w_2,...,w_n)^{- \frac 1 n} \\ &=\sqrt[n]{\frac {1} {p(w_1,w_2,...,w_n)}} \\ &=\sqrt[n]{\displaystyle \prod^n_{i=1}\frac 1 {p(w_i|w_1,w_2,...,w_{i-1})}} \end{aligned} perplexity=p(s)−n1=p(w1,w2,...,wn)−n1=np(w1,w2,...,wn)1 =ni=1∏np(wi∣w1,w2,...,wi−1)1 显然，测试集中句子的概率越大，困惑度也就越小。

评估指标（Metric）（三）相关推荐

1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 1.2 正交化回到目录 1.4 满足和优化指标单一数字评估指标 (Single Number Evaluation Metric) 无论你是调整超参数,或者是尝试不同的学 ...
模型评估与改进（三）// 评估指标
1.常用的评估指标有哪些? 回答:评估分类算法的性能用精度accuracy:评估回归算法的性能用R方(R的平方). 第一部分:二分类的评估指标 2.精度accuracy指标对评估二分类模型的不足? 回 ...
评估指标（Metric）（二）
对于GAN网络,需要对生成器的好坏做一些评估,有一些对应的评估指标.比如当生成器G训练好后,我们需要评价生成图片的质量好坏,主要分为主观评价和客观评价,接下来分别介绍这两类方法: 主观评价人眼去观察 ...
回归问题评估模型的三个指标
回归模型三种损失函数回归问题看的是我们预测的y值和原始的y值相差到底有多大,我们通常都会训练多个模型,可以通过下面几个方法来评估模型的好坏. 对于回归模型效果的判断指标经过了几个过程,从SSE到R- ...
推荐算法炼丹笔记：推荐系统采样评估指标及线上线下一致性问题
本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点: 在评估推荐算法的效果时,能不采样就不采样! 除了AUC, ...
Mechine Learing一：工程刚需的 “算法” 评估指标
当你的产品经理给你提出一系列看似合理却又矛盾的要求时,你该怎么优化你的算法来确保算法拥有: 运算速度快 (算力) 准确率高 (识别率) 抗干扰性强 (噪声) TP (Tr ...
最新目标跟踪评估指标汇总
前段时间接触了一些目标跟踪的场景,本文主要汇总目标跟踪的常用评估指标,主要包括下面几类: 容易理解的概念:FP.FN.TP.id switch.ML.MT 更加综合的概念:MOTA.IDF1.MOTP ...
文本生成任务常见评估指标
1. 引言在传统的文本生成任务中,对于模型生成的文本,往往很难评估他们的质量,对于以往的做饭,一般会通过人工评估的方式来评选最优的模型,但是其评估过程是非常昂贵和耗时的,而且每个人的评估标准 ...
目标检测中的评估指标：PR曲线、AP、mAP
文章目录 1.precision & recall 2.P-R曲线 3.AP计算 4.mAP计算 5.COCO Evaluation Result 1.precision & reca ...
ap 目标检测算法map_目标检测算法的评估指标：mAP定义及计算方式
前面依次介绍了: 本节介绍目标检测算法的评估指标:mAP定义及计算方式 mAP:mean Average Precision,平均精度均值,即AP(Average Precision)的平均值,它是目 ...

评估指标（Metric）（三）

随机变量概率分布的困惑度

模型分布的困惑度

NLP领域中的困惑度

评估指标（Metric）（三）相关推荐

最新文章

热门文章