Perplexity,中文翻译为困惑度,是信息论中的一个概念,其可以用来衡量一个随机变量的不确定性,也可以用来衡量模型训练的好坏程度。通常情况下,一个随机变量的Perplexity数值越高,代表其不确定性也越高;一个模型推理时的Perplexity数值越高,代表模型表现越差,反之亦然。

随机变量概率分布的困惑度

对于离散随机变量 X X X​,假设概率分布可以表示为 p ( x ) p(x) p(x)​​​,那么对应的困惑度为: 2 H ( p ) = 2 − ∑ x ∈ X p ( x ) l o g 2 p ( x ) 2^{H(p)}=2^{-\sum_{x \in X}p(x) log_2p(x)} 2H(p)=2−∑x∈X​p(x)log2​p(x)其中, H ( p ) H(p) H(p) 为概率分布 p p p ​​的熵。可以看到,一个随机变量熵越大,其对应的困惑度也就越大,随机变量的不确定性也就越大。

模型分布的困惑度

困惑度也可以用来衡量模型训练的好坏程度,即衡量模型分布和样本分布之间的差异。一般来讲,在模型的训练过程中,模型分布越接近样本分布,模型训练得也就越好。

假设现在有一批数据 x 1 , x 2 , x 3 , . . . , x n x_1,x_2,x_3,...,x_n x1​,x2​,x3​,...,xn​,其对应的经验分布为 p r ( x ) p_r(x) pr​(x)。现在我们根据这些样本成功训练出了一个模型 p θ ( x ) p_θ(x) pθ​(x),那么模型分布 p θ ( x ) p_θ(x) pθ​(x) ​​​​的好坏可以由困惑度进行定义: 2 H ( p r , p θ ) = 2 − ∑ i n p r ( x i ) l o g 2 p θ ( x i ) 2^{H(p_r,p_\theta)}=2^{-\sum^n_i p_r(x_i) log_2p_\theta(x_i)} 2H(pr​,pθ​)=2−∑in​pr​(xi​)log2​pθ​(xi​)其中, H ( p r , p θ ) ​ H(p_r,p_θ)​ H(pr​,pθ​)​ 表示样本的经验分布 p ~ r \tilde p_r p~​r​和模型分布 p θ ​ p_θ​ pθ​​之间的交叉熵。假设每个样本 x i xi xi 的生成概率是相等的,即 p r ( x i ) = 1 n p_r(x_i)=\frac 1 n pr​(xi​)=n1​,则模型分布的困惑度可简化为: 2 H ( p r , p θ ) = 2 − 1 n ∑ i n l o g 2 p θ ( x i ) 2^{H(p_r,p_\theta)}=2^{-\frac 1 n\sum^n_i log_2p_\theta(x_i)} 2H(pr​,pθ​)=2−n1​∑in​log2​pθ​(xi​)

NLP领域中的困惑度

在NLP领域,语言模型可以用来计算一个句子的概率,假设现在有这样一句话 s = w 1 , w 2 , w 3 , . . . , w n ​​​​​​ s=w_1,w_2,w_3,...,w_n​​​​​​ s=w1​,w2​,w3​,...,wn​​​​​​​, 我们可以这样计算这句话的生成概率: p ( x ) = p ( w 1 , w 2 , . . . , w n ) = ∏ i = 1 n p ( w i ∣ w 1 , w 2 , . . . , w i − 1 ) \begin{aligned} p(x)&=p(w_1,w_2,...,w_n)\\ &=\displaystyle \prod^n_{i=1}p(w_i|w_1,w_2,...,w_{i-1})\end{aligned} p(x)​=p(w1​,w2​,...,wn​)=i=1∏n​p(wi​∣w1​,w2​,...,wi−1​)​在语言模型训练完成之后,如何去评判语言模型的好坏?这时,困惑度就可以发挥作用了。一般来讲,用于评判语言模型的测试集均是合理的、高质量的语料,只要语言模型在测试集上的困惑度越高,则代表语言模型训练地越好,反之亦然。

在了解了语句概率的计算后,则对于语句 s = w 1 , w 2 , w 3 , . . . , w n ​​​​​​ s=w_1,w_2,w_3,...,w_n​​​​​​ s=w1​,w2​,w3​,...,wn​​​​​​​​​,其困惑度可以这样来定义: p e r p l e x i t y = p ( s ) − 1 n = p ( w 1 , w 2 , . . . , w n ) − 1 n = 1 p ( w 1 , w 2 , . . . , w n ) n = ∏ i = 1 n 1 p ( w i ∣ w 1 , w 2 , . . . , w i − 1 ) n \begin{aligned} perplexity&=p(s)^{- \frac 1 n} \\ &=p(w_1,w_2,...,w_n)^{- \frac 1 n} \\ &=\sqrt[n]{\frac {1} {p(w_1,w_2,...,w_n)}} \\ &=\sqrt[n]{\displaystyle \prod^n_{i=1}\frac 1 {p(w_i|w_1,w_2,...,w_{i-1})}} \end{aligned} perplexity​=p(s)−n1​=p(w1​,w2​,...,wn​)−n1​=np(w1​,w2​,...,wn​)1​ ​=ni=1∏n​p(wi​∣w1​,w2​,...,wi−1​)1​ ​​显然,测试集中句子的概率越大,困惑度也就越小。

评估指标(Metric)(三)相关推荐

  1. 1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 1.2 正交化 回到目录 1.4 满足和优化指标 单一数字评估指标 (Single Number Evaluation Metric) 无论你是调整超参数,或者是尝试不同的学 ...

  2. 模型评估与改进(三)// 评估指标

    1.常用的评估指标有哪些? 回答:评估分类算法的性能用精度accuracy:评估回归算法的性能用R方(R的平方). 第一部分:二分类的评估指标 2.精度accuracy指标对评估二分类模型的不足? 回 ...

  3. 评估指标(Metric)(二)

    对于GAN网络,需要对生成器的好坏做一些评估,有一些对应的评估指标.比如当生成器G训练好后,我们需要评价生成图片的质量好坏,主要分为主观评价和客观评价,接下来分别介绍这两类方法: 主观评价 人眼去观察 ...

  4. 回归问题评估模型的三个指标

    回归模型三种损失函数 回归问题看的是我们预测的y值和原始的y值相差到底有多大,我们通常都会训练多个模型,可以通过下面几个方法来评估模型的好坏. 对于回归模型效果的判断指标经过了几个过程,从SSE到R- ...

  5. 推荐算法炼丹笔记:推荐系统采样评估指标及线上线下一致性问题

    本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点: 在评估推荐算法的效果时,能不采样就不采样! 除了AUC, ...

  6. Mechine Learing一:工程刚需的 “算法” 评估指标

    当你的产品经理给你提出一系列看似合理却又矛盾的要求时,你该怎么优化你的算法来确保算法拥有: 运算速度快   (算   力) 准确率高      (识别率) 抗干扰性强   (噪   声) TP (Tr ...

  7. 最新目标跟踪评估指标汇总

    前段时间接触了一些目标跟踪的场景,本文主要汇总目标跟踪的常用评估指标,主要包括下面几类: 容易理解的概念:FP.FN.TP.id switch.ML.MT 更加综合的概念:MOTA.IDF1.MOTP ...

  8. 文本生成任务常见评估指标

    1. 引言     在传统的文本生成任务中,对于模型生成的文本,往往很难评估他们的质量,对于以往的做饭,一般会通过人工评估的方式来评选最优的模型,但是其评估过程是非常昂贵和耗时的,而且每个人的评估标准 ...

  9. 目标检测中的评估指标:PR曲线、AP、mAP

    文章目录 1.precision & recall 2.P-R曲线 3.AP计算 4.mAP计算 5.COCO Evaluation Result 1.precision & reca ...

  10. ap 目标检测算法map_目标检测算法的评估指标:mAP定义及计算方式

    前面依次介绍了: 本节介绍目标检测算法的评估指标:mAP定义及计算方式 mAP:mean Average Precision,平均精度均值,即AP(Average Precision)的平均值,它是目 ...

最新文章

  1. 深度分享:世界顶级神经科学家王小勤教授CCL 2018主旨报告(PPT全文,经报告人同意发布)...
  2. python中修改工作目录
  3. 【译】Why Decentralized AI Matters Part II: Technological Enablers
  4. javascript --- 尾递归优化的实现
  5. MITK医学Python开发入门详细版
  6. 利用高斯金字塔制作图像显著图
  7. racecar 尝试记录
  8. 计算机感染病毒后 一定不能清除的措施是,货物周转量比上年同期下降最多的是()。...
  9. 图像分割阈值选取技术综述
  10. 树莓派开发笔记(十):Qt读取ADC模拟量电压(ADS1115读取电压模拟量)
  11. 短信通道防盗刷,短信发送策略
  12. 支付宝 客户端 Android 集成流程
  13. win 桌面图标小箭头
  14. Temporal Action Proposal Generation with Transformers TAPG transformer论文阅读笔记
  15. Java序列化神器——Jprotobuf(小白篇)
  16. Android之butterknife(懒人库)
  17. 世界名模刘金金称赞续元金方是国宝,表示:振兴国医,义不容辞
  18. JavaScript去除字符串中所有的标点符号,只保留中文、英文和数字
  19. 【观察】致敬开发者,华为云最新地铁广告释放了哪些信号?
  20. MySQL使用空间索引问题

热门文章

  1. 【机器学习线性代数】05 封闭小世界:向量空间及其子空间
  2. 电脑提示不符合Windows11配置要求?
  3. 汉江师范数学与计算机科学院宿舍,汉江师范学院宿舍条件,宿舍环境图片(10篇)...
  4. 怎么在Win7服务器搭建SVN服务端
  5. 什么是0day漏洞,1day漏洞和nday漏洞?
  6. 自学网站 分享一波儿!
  7. 安装mysql5.6没有生成my.cnf文件
  8. 佳明手表同步失败显示服务器错误,解决佳明表盘设置无法同步
  9. 弱电工程师必知的LAN 交换机与 SAN 交换机,今天来盘它!
  10. 随机决策森林 Random Decision Forests(译自Tin Kam Ho)