MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance

MoverScore是用来评测text generation的性能的。
一般常见的text generation任务有: summary、machine translation、image caption、data-to-text generation。

Introduction

在introduction中交代的目标是:
Our goal in this paper is to devise an automated evaluation metric assigning a single holistic score to any system-generated text by comparing it against human references for content matching。
从这个goal中,看出是和human annotated reference做的比较,生成的score分值。

不同于Bertscore评测方式,是以单个token为计量单位的方式(one to one),MoverScore是以n-gram为计量单位,评测相似度 (many to one)。

权重值采用IDF,逆文档频率。
x=[x1,x2,…xm]的sequence,变为n-gram后,表示为xn.
相似度评分矩阵表示为: d(xin,yjn),the distance between the i-th n-gram of x and the j-th n-gram of y。
距离度量公式采用的是欧式距离,Euclidean distance.

xin, the i-th n-gram的embedding表示为所含token的embedding的权重和:

如果不是只用最后一个layer的output,还需要考虑将多个layer的结果做concat,得到最终的表示结果,文中提出的是采用Pooling means方法:

Word Mover’s Distance (WMD) 表示为: <C,F>表示C和F中element做element-wise multiplication。

Variations

沿四个维度提出的变体:
(i) 嵌入的粒度,即 n-gram 的 n 大小,
(ii) 预训练嵌入机制的选择,static embedding with Word2vector & contextualized embedding with ELMO and Bert
(iii) 用于 BERT3 的微调任务, 是否在NLI(natural language inference)任务中微调,以得到更好的表示?
(iv) 聚合技术(p means或其他)

实验结果

W_{MD-1}+BERT+MNLI+PM_{EANS}: Bert表示PLM,MNLI表示NLI微调任务,PM_{EANS}表示多层的embedding获取采用pooling-means方法。

总结

一个欧式距离,一个余弦距离;
一个one2one,一个n-gram2one;

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance相关推荐

  1. BERT论文阅读(二): CG-BERT:Conditional Text Generation with BERT for Generalized Few-shot Intent Detection

    目录 The proposed method Input Representation The Encoder The Decoder fine-tuning discriminate a joint ...

  2. 【转载】Role of RL in Text Generation by GAN

    本篇随笔为转载,原贴作者:知乎 SCUT 胡杨,原贴地址:Role of RL in Text Generation by GAN(强化学习在生成对抗网络文本生成中扮演的角色). 转载于:https: ...

  3. AAAI2018-Long Text Generation via Adversarial Training with Leaked Information论文笔记

    这篇文章主要是名为 LeakGAN 的模型结构,同时处理 D 反馈信息量不足和反馈稀疏的两个问题.LeakGAN 就是一种让鉴别器 D 提供更多信息给生成器 G 的新方式,我自己的笔记: 转自:htt ...

  4. 相似度论文系列-1:入门方法Towards a Unified Multi-Dimensional Evaluator for Text Generation

    Towards a Unified Multi-Dimensional Evaluator for Text Generation 作者刘鹏飞,这篇文章是围绕相似度问题提出了一种统一的评测方法.区别与 ...

  5. 【论文阅读笔记1】:Pre-trained Language Models for Text Generation: A Survey

    前言 博客得主要目的是记录自己的学习收获,排版.行文都会比较随意,内容也主要以自己能理解的方式描述,还希望各位看客见谅. 本文为中国人民大学发表在IJCAI2021上的预训练语言模型文本生成综述论文. ...

  6. 【综述阅读】Pre-trained Language Models for Text Generation: A Survey

    Pre-trained Language Models for Text Generation: A Survey 中国人民大学 IJCAI 2021 论文链接:https://arxiv.org/p ...

  7. 可控文本生成系列-A Survey of Controllable Text Generation using Transformer-based Pre-trained

    一.Controlable Text Generation(CTG)定义与应用 1. 什么是CTG Controlable Text Generation,可控制的文本生成,就是能够在传统的文本生成的 ...

  8. CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning 代码执行记录

    CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning 代码执行踩坑记录 文章目 ...

  9. GlyphControl: Glyph Conditional Control for Visual Text Generation

    GlyphControl: Glyph Conditional Control for Visual Text Generation (Paper reading) Yukang Yang, Micr ...

最新文章

  1. 利用exchangelib快速上手使用python发邮件
  2. 长江存储推消费级固态硬盘,Xtacking技术加持
  3. java 抽象类与接口区别是什么_JAVA中抽象类与接口的区别,分别在什么情况下使用它们...
  4. expect详解及自动登录脚本的实现
  5. 动手学PaddlePaddle(5):迁移学习
  6. 数据挖掘算法_技术分享|大数据挖掘算法之KNNk近邻算法
  7. 线性代数 【22】 抽象的向量空间
  8. @RequestParam接收解析不到 POST 提交的 数据
  9. Cogs 2221. [SDOI2016 Round1] 数字配对(二分图)
  10. 机器学习八大优质数据库
  11. NEU 1683: H-Index
  12. 苹果11蓝牙配对不成功怎么办_【苹果手机蓝牙不能配对】苹果手机蓝牙无法配对_苹果手机蓝牙怎么配对...
  13. 14.程序员常用10种算法
  14. 学习spf记录引发的问题(一)
  15. 模式识别谱聚类matlab,基因表达谱聚类分析
  16. 【数据库内核】基于代价的优化器引擎-代价估算
  17. 中国火星车登陆,对地“网速“只有16bps
  18. python控制鼠标点击_python模拟点击中如何操作鼠标位置?
  19. APP界面设计必备,常用字体规范
  20. Android中UIL框架特点,聊聊Android优秀的图片加载缓存的开源框架?UIL、Glide、Picasso...

热门文章

  1. DeFi发币潮之下,散户真能赚到钱吗?
  2. busybox的init
  3. 思岚科技定位导航技术凸显 成为服务机器人企业首选品牌
  4. 微信公众平台服务号、订阅号的相关说明
  5. 再见了 SELECT *!大厂的 MySQL 查询优化方案,确实牛逼!
  6. Lucene学习——IKAnalyzer中文分词(一)
  7. 神经网络种类及应用领域,常用的神经网络有哪些
  8. 考研计算机专业课时长,计算机考研复习经验
  9. 汉诺塔III 汉诺塔IV 汉诺塔V
  10. 局域网即时通讯软件怎么部署