文章目录

  • 前言
  • 一、CHRF
    • 1. 基础
    • 2. 实验
  • 二、CHRF++
  • 三、代码实现以及论文链接

前言

最近在帮忙做文本生成方面的内容,发现想要用的CHRF和CHRF++指标的资料很少或者不全。就去翻了一下论文,就来写一下自己对论文的总结和理解吧,如有错误还请帮忙指正。文章最后面会放实现代码和论文链接。


一、CHRF

这个方法比较新,我找到的论文是2015年的。所以网上资料不多。建议如果不了解【BLEU】的话建议先去找篇博客大概看一下,网上很多。然后在了解的基础上,才能更好理解chrF。

论文解读:

1. 基础

  • CHRF和BLEU类指标的最大不同之处在于,BLEU是单词级的,CHRF是字符级的,也就是基于字符n-gram计算的。
  • 通用的公式:
    c h r F β = ( 1 + β 2 ) c h r P ⋅ c h r R β 2 ⋅ c h r P + c h r R chrF\beta = (1+\beta ^{2}) \frac{chrP·chrR}{\beta ^{2}·chrP+chrR} chrFβ=(1+β2)β2⋅chrP+chrRchrP⋅chrR​
    其中:
  1. chrP是精确度(查准率),就是候选文和参考文匹配的字符级n-gram在候选文中占的比例。
  2. chrR是召唤率(查全率),就是候选文和参考文匹配的字符级n-gram在参考文中占的比例。
  • 那么当β=1时就是CHRF,当β=2时就是CHRF2,当β=3时就是CHRF3。论文当中使用的是β=3来做实验,而且并没说明为什么用3,只是一个初始值。论文最后也有提到应该多对β的值做做后续研究,以便改良。

2. 实验

  • 实验数据集为对WMT12, WMT13 以及WMT14。
  • 实验对CHRF和CHRF3以及WORDF对比BLEU、TER、METEOR等标准方法,发现CHRF3的表现最好。

二、CHRF++

CHRF++其实就是CHRF的改进,所以就更新了,论文是在2017年发表的。而且和CHRF的是同一个作者。

论文解读:

  • 论文开头提到别人研究过β最好为2,这一点论文后面也实验确认过。
  • CHRF++其实和CHRF差不多。但是CHRF++是字符级和单词级都用到了,然后算一个平均值。
  • 论文中提到别人研究过字符级n-gram的n最好不要超过6,单词级n-gram的n最好不要超过4。
  • CHRF++的字符级n-gram的n最好是6,单词级n-gram的n最好是1或2。

三、代码实现以及论文链接

  1. CHRF:

    nltk.translate.chrf_score #在这个包中有好几个计算CHRF的函数
    '''下面是包内函数'''
    nltk.translate.chrf_score.sentence_chrf #这个函数是实现的论文的
    nltk.translate.chrf_score.chrf_precision_recall_fscore_support
    nltk.translate.chrf_score.corpus_chrf
    '''具体使用看函数介绍或者文档吧'''
    '''推荐文档地址:http://www.nltk.org/api/nltk.translate.html?highlight=chrf#module-nltk.translate.chrf_score'''
    

    论文链接

  2. CHRF++
    论文给的实现代码链接
    论文链接

NLG评估指标chrF、chrF++介绍相关推荐

  1. 一文带你用Python玩转线性回归模型《加利福尼亚房价预测》回归模型评估指标介绍

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 前言 这 ...

  2. auuc 评估指标_分类之性能评估指标

    本文主要介绍几种常用的用于分类的性能评估指标,同时介绍如何绘制ROC曲线以及计算AUC值的便捷方法.最后再附上一个绘制ROC曲线和计算AUC的Python源码实现. Precision和Recall ...

  3. Lesson 5.分类模型决策边界与模型评估指标

    Lesson 5.分类模型决策边界与模型评估指标(上) 在逻辑回归的算法基础内容结束之后,我们还需要补充一些关于分类模型的基础知识,包括观察分类模型判别性能的决策边界基本的概念与实现方法,同时也包括对 ...

  4. 推荐算法炼丹笔记:推荐系统采样评估指标及线上线下一致性问题

    本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点: 在评估推荐算法的效果时,能不采样就不采样! 除了AUC, ...

  5. [深度概念]·评估指标EER(Equal Error Rate)介绍

    [深度概念]·评估指标EER(Equal Error Rate)介绍 深度学习文章一般用EER(Equal Error Rate)等错误概率作为衡量分类器的一个客观标准,博文ROC曲线解释了如何计算E ...

  6. 电商指标详细介绍和推荐系统常用评估指标

    本文主要是针对电商中的常见指标进行归类介绍,包括推荐系统中需要关注的指标.本文主要分为三部分进行说明: 电商分类介绍 电商的指标分类介绍 电商推荐系统常看的指标 1. 电商的分类 电子商务(Elect ...

  7. 绝对不容错过:最完整的检测模型评估指标mAP计算指南(附代码)在这里!

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 前言 本文翻译自Measuring Object Detectio ...

  8. nlp 优缺点 混淆度_NLP中文分词的评估指标

    1.背景 NLP中一个最基本任务就是分词,当我们分词完成之后怎么来评判分词结果的好坏呢?换句话来说就是我该如何对分词结果打分?这个分数怎么算法,依照的标准是什么?例如: 原句子:武汉市长江大桥 分词一 ...

  9. 六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步

    作者:Qiantong Xu.Gao Huang.Yang Yuan.Chuan Guo.Yu Sun.Felix Wu.Kilian Weinberger 生成对抗网络的评估目前仍以定性评估和一些可 ...

最新文章

  1. Java 旋转数组查找旋转点和任意元素(元素可重复)
  2. python绘图函数m_python绘图数据m
  3. 在使用flask下载文件时会出现的一个文件下载不到的问题
  4. C#与C++的几个不同之处知识点
  5. VMware linux 克隆机的配置
  6. 终于来了!微软正式推出 VS Code 测试 API
  7. python深度神经网络量化_「深度神经网络」(deep neural network)具体是怎样工作的?...
  8. simulink快捷键_从EPB模型谈谈Simulink代码生成
  9. 基于51单片机的音乐播放器
  10. Oracle数据库中IN参数个数超过1000的问题
  11. C#笔记03 运算符和分支结构
  12. Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/dom4j/io/SAXReader
  13. 服务器虚拟化2种架构,服务器虚拟化常用架构详解
  14. 微信小程序人脸识别认证-微信开放接口
  15. 计算机组成原理平均cpi怎么算_计算机组成原理-计算机的性能指标及计算题
  16. 给随便一个字符串加单位
  17. Swoole进阶——02 内存之Table
  18. 数字版权资源价值日益凸显
  19. FPGA中的LUT LUTRAM BRAM DSP FF
  20. OC swift 一些常用第三方收集整理 (第三方集合)

热门文章

  1. BZOJ1123BLO Tarjan割点+乘法原理+dfs
  2. android广告平台介绍
  3. HIS 与医保系统的接入方案及实现
  4. Tomcat 优化
  5. perror和strerror的使用和区别
  6. Neocities 免费HTML 网站空间,每月200 GB 流量托管静态网页超简单
  7. 网络七层结构(讲人话)
  8. 微型计算机的基本组成及各个部分的作用
  9. 生鲜小程序解决方案,微信水果生鲜小程序制作
  10. java生成word文档 图片_java生成带有图片的word的文档-Go语言中文社区