BLEU:

所谓BLEU,最开始是用于机器翻译中。他的思想其实很native,对于一个给定的句子,有标准译文S1,还有一个神经网络翻译的句子S2。BLEU的思想就是对于出现机器翻译S2的所有短语,看有多少个短语出现在S1中,然后算一下这个比率就是BLEU的分数了。首先根据n-gram划分一个短语包含单词的数量,有BLEU-1,BLEU-2,BLEU-3,BLEU-4。分别就是把文章划分成长度为1个单词的短语,长度为2个单词的短语,。。然后统计她们出现在标准译文中个数,在分别除以划分总数,就是对应的BLEU-1分数,BLEU-2分数。。,其实就是准确率。看这些划分中有多少是出现在标准译文当中的。一般而言:unigram 的准确率可以用于衡量单词翻译的准确性,更高阶的 n-gram 的准确率可以用来衡量句子的流畅性,n{1,2,3,4}

但是BLEU会有个缺陷,假如我就翻译一个单词,而这个单词正好在标准译文中,那岂不是准确率100%,对于这个缺陷,BLEU算法会有个长度惩罚因子,就是翻译太短了就会有惩罚,不过,总的来说,还是偏向于短翻译分数高一点。

METOR:

其大意是说有时候翻译模型翻译的结果是对的,只是碰巧跟参考译文没对上(比如用了一个同义词),于是用 WordNet 等知识源扩充了一下同义词集,同时考虑了单词的词形(词干相同的词也认为是部分匹配的,也应该给予一定的奖励,比如说把 likes 翻译成了 like 总比翻译成别的乱七八糟的词要好吧?)。在评价句子流畅性的时候,用了 chunk 的概念(候选译文和参考译文能够对齐的、空间排列上连续的单词形成一个 chunk,这个对齐算法是一个有点复杂的启发式 beam serach),chunk 的数目越少意味着每个 chunk 的平均长度越长,也就是说候选译文和参考译文的语序越一致。最后还有召回率和准确率两者都要考虑,用 F 值作为最后的评价指标。

ROUGE:

ROUGE算法基本思路和BLEU差不多,不过它统计的是召回率,也就是对于标准译文中的短语,统计一下它们有多少个出现在机器翻译的译文当中,其实就是看机器翻译有多少个翻译对了,这个评价指标主要在于标准译文中的短语都出现过,那么自然机器翻译的译文越长结果越好。

CIDEr:

常用语图像字幕生成,CIDEr 是 BLEU 和向量空间模型的结合。它把每个句子看成文档,然后计算 TF-IDF 向量(只不过 term 是 n-gram 而不是单词)的余弦夹角,据此得到候选句子和参考句子的相似度,同样是不同长度的 n-gram 相似度取平均得到最终结果。优点是不同的 n-gram 随着 TF-IDF 的不同而有不同的权重,因为整个语料里更常见的 n-gram 包含了更小的信息量。图像字幕生成评价的要点是看模型有没有抓取到关键信息,比如说一幅图的内容是『白天一个人在游泳池游泳』,其中最关键的信息应该是『游泳』,生成字幕时如果包含或者漏掉了一些别的信息(比如说『白天』)其实是无关紧要的,所以需要这么一种对非关键词降权的操作。

参考: https://www.zhihu.com/question/304798594/answer/567383628

通俗解释NLP任务四种评价指标(BLEU,METOR,ROUGH,CIDEr)相关推荐

  1. perplexity 衡量指标_求通俗解释NLP里的perplexity是什么?

    前面的回答都很优秀,但我想基于我的理解做个补充. 困惑度 Perplexity 是衡量语言模型好坏的指标,为了更好地理解其意义,首先有必要回顾熵的概念.根据信息论与编码的知识,我们知道 熵代表着根据信 ...

  2. mpls工作原理通俗解释_用这两种方法向最终用户解释NLP模型的工作原理还是不错的...

    点击上方关注,All in AI中国 上周,我看了一个关于"NLP的实践特性工程"的演讲.主要是关于LIME和SHAP在文本分类可解释性方面是如何工作的. 我决定写一篇关于它们的文 ...

  3. 机器翻译, 文本生成等任务评价指标 BLEU, ROUGE, PPL(困惑度)

    一:BLEU  1.1  BLEU 的全称是 Bilingual evaluation understudy,BLEU 的分数取值范围是 0-1,分数越接近1,说明翻译的质量越高.BLEU 主要是基于 ...

  4. 协方差、相关系数---通俗解释

    一.协方差的意义 学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差.首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧 ...

  5. Fleury (弗罗莱) 算法通俗解释

    Fleury (弗罗莱) 算法通俗解释 1.定义 2.举例说明 图2为连通图G,现利用Fleury算法求它的欧拉通路.(注意区分:欧拉通路.欧拉回路) 其中一种欧拉通路如下:4 5 8 7 6 8 9 ...

  6. 依赖注入通俗解释_我如何向团队解释依赖注入

    依赖注入通俗解释 最近,我们公司开始开发一个新的基于Java的Web应用程序,经过一些评估过程,我们决定使用Spring. 但是许多团队成员并不了解Spring和Dependency Injectio ...

  7. Wasserstein metric的通俗解释

    Wasserstein metric的通俗解释 ​关注他 166 人赞同了该文章 本文收录在无痛的机器学习第二季目录. Wasserstein GAN可以算是GAN界的一大突破了,有关它的介绍和使用心 ...

  8. 主成份(PCA)与奇异值分解(SVD)的通俗解释

    主成份(PCA)与奇异值分解(SVD)的通俗解释 1. 问题描述 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量观测,收集大量数据以便进行分析,寻找规律.多变量大样本无疑会为研究和应用 ...

  9. 区块链是什么通俗解释_区块链技术是什么?区块链的通俗解释原来是这样!

    原标题:区块链技术是什么?区块链的通俗解释原来是这样! 区块链概念诞生已有一段时间,但一直都是少数人知道它是什么,有什么样的价值,同时伴随着区块链的有数字货币,公链,智能合约等新兴概念的产出,我们该怎 ...

  10. Linux与网络服务(一)网络服务相关概念通俗解释(科普向)

    Linux与网络服务(一)网络服务相关概念通俗解释(科普向) 前言 专业名词及概念的通俗解释 云服务器 云/云服务 云计算 弹性伸缩 负载均衡 公网IP 域名/域名备案 端口 SSH(安全外壳协议)/ ...

最新文章

  1. plsql 参数中in out in的区别讲解
  2. 我的RHCA之路随想
  3. UGUI 帧动画插件
  4. I/O端口地址分配表(转)
  5. 《大话数据结构》第9章 排序 9.8 归并排序(上)
  6. 小程序从浏览器返回有一个空白页_北京做一个小程序
  7. 16进制与字符串之间的相互转换
  8. close关闭指定窗口 matlab_Δ-Σ ADC设计笔记一:MATLAB环境设置
  9. 完成OSS.Http底层HttpClient重构封装 支持标准库
  10. desktop.ini winxp之马上更新图标
  11. JDK、JRE、JVM的区别及JavaSE、JavaEE和JavaME的区别?
  12. extjs 月份选择控件_Ext JS 4实现带week(星期)的日期选择控件(实战二)
  13. linux设置ip批处理文件,一篇详细的修改ip的方法
  14. 某车企笔试题解答(2)
  15. Hibernate 教程(一)[Hibernate的基本配置]
  16. Unable to modify the parent container element before the child element is closed
  17. 【直流无刷马达的调速方法
  18. 获取手机或电脑GPS位置信息(定位平台)
  19. 2018-09-11-二手车交易平台系统
  20. 使用在线链接阿里图标库(iconfont)(vue)

热门文章

  1. fwr310刷openwrt_迅捷FWR310无线路由器的刷机
  2. The following error occured:
  3. 条形图的几种处理方式
  4. Myshare.cc 图床对接ShareX自定义图片上传
  5. Flink常用算子Transformation介绍
  6. 掌握五个元组的用法,让python代码飞得更快
  7. HDU-1814 Peaceful Commission (2-SAT暴力模板 暴力染色+字典序最小)
  8. Spring Boot网上图书商城
  9. JS学习之路系列总结五行阵(此文犹如武林之中的易筋经,是你驰骋IT界的武功心法,学会JS五大阵法就学会了JS,博主建议先学三才阵)
  10. 算法——重构字符串使得相邻字符不同