PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize

PPL越小越好

公式为:


S – 当前句子;
N – 句子长度;
p(wi) – 第i个词的概率
p(wi|w1w2w3…wi-1) – 这个表示基于前i-1个词,计算得出第i个词的概率,但有的语言模型是可以利用双向的,不知道是不是会这样计算:p(wi|w1w2w3…wn) ;

ppl越小,p(wi)则越大,也就是说这句话中每个词的概率较高,说明这句话契合的表较好。

困惑度PPL (perplexity)相关推荐

  1. 语言模型评价指标 bpc(bits-per-character)和困惑度ppl(perplexity)

    首先简单介绍下语言模型的标准评价指标: 1. 混淆度 (Perplexity) 用来衡量一个语言模型在未见过的的字符串S上的表现.对于一个长度为N的字符串S,语言模型给出概率P(S),对应的混淆度 ( ...

  2. NLP基础知识点:困惑度(Perplexity)

    本篇内容翻译自Speech and Language Processing. Daniel Jurafsky & James H. Martin. 链接:https://web.stanfor ...

  3. 从交叉熵角度理解困惑度(perplexity)

    从交叉熵理解困惑度 我们通常使用困惑度(perplexity)来评价语言模型的好坏.通过理解困惑度,也可以让我们更加深入的理解交叉熵(CrossEntropy)的意义,也可以轻易量化模型的性能. 回顾 ...

  4. LDA主题模型绘制困惑度(perplexity)-主题数曲线——python

    主题建模作为一种基于机器学习的文本内容分析技术,一般用于推断文本文档中隐藏主题的技术.很多研究使用了基于Latent Dirichlet Allocation (LDA)的主题建模算法来处理大规模文档 ...

  5. 困惑度 (perplexity)

    困惑度 (perplexity) 在自然语言处理中,对于一个语言模型,一般用困惑度来衡量它的好坏,困惑度越低,说明语言模型面对一句话感到困惑的程度越低,语言模型就越好. 对于LDA模型,最常用的两个评 ...

  6. 深度学习 pytorch 困惑度计算方法

    以下是我 编写的 计算 困惑度 PPL的 代码 根据困惑度的定义:(其定义是其他形式的定义非书本上的定义,实验常用的就是这种形式) 来源解释:https://stackoverflow.com/que ...

  7. 自然语言处理 —— 困惑度

    我们通常用困惑度(perplexity)来评估语言模型的好坏.可以探索一下交叉熵损失函数的定义.困惑度是对交叉熵损失函数做指数运算后得到的值.特别地: 最佳情况下,模型总是把标签类别的概率预测为1,此 ...

  8. 统计语言模型,平滑方法,困惑度

    目录 统计语言模型 零概率问题和平滑方法 拉普拉斯平滑 Add‐One 平滑 Add‐K 平滑 插值平滑 古德-图灵估计 Katz平滑 困惑度(Perplexity) 统计语言模型 统计语言模型的意义 ...

  9. LDA主题模型困惑度计算

    对于LDA模型,最常用的两个评价方法困惑度(Perplexity).相似度(Corre). 其中困惑度可以理解为对于一篇文章d,所训练出来的模型对文档d属于哪个主题有多不确定,这个不确定成都就是困惑度 ...

最新文章

  1. WPF 支持分组互斥的 RadioButton 式单选菜单
  2. 测试build出来的dist文件夹是否编译成功
  3. 【数据竞赛】数据竞赛中最贵的四个特征
  4. SpringBoot高级-检索-Elasticsearch简介安装
  5. 网络安全:与 TCP 连接管理相关的网络攻击
  6. 正则表达式中的量词(限定符)含义的准确理解
  7. CC1101、SI4432、SI4463 相互通信的可能性与得失探讨
  8. 你也在你的应用上添加B站上的弹幕效果
  9. 0407 背景相关的作业
  10. 计算机算法设计与分析 最大子数组问题
  11. python的read_聊一聊python 的readinto
  12. mysql日志监控 zabbix_zabbix监控mysql+报警
  13. PyQt5简单的例子
  14. oracle访问syno,[Oracle]同义词(synonym)
  15. 使用randn实现randm的通用方法
  16. 游戏服务器的那些事儿
  17. 分享 60 个相见恨晚的神器工具
  18. os-003-protected-mode
  19. webrtc 搭建直播平台
  20. slqilabs靶场记录堆叠注入(八)

热门文章

  1. 这款3D打印材料或威胁身体健康
  2. FPGA数字信号处理(一)数字混频(NCO与DDS的使用)
  3. 修改家中的WiFi密码
  4. 面试经之给刚毕业的大学生和刚入门的程序员的忠告及图书推荐
  5. 启明星辰调整回购方案:回购价由不超过20元调整为不超过30元
  6. The Hitchhiker’s Guide to Python! — The Hitchhiker's Guide to Python
  7. Springcloud笔记(二)
  8. (1)搭建工程开发环境
  9. 《惢客创业日记》2018.10.26(周五) 健康=小米MIX3
  10. 护照识别(港澳台地区及境外护照)API 及 BASE64图片加密