阅读论文《MOJITALK: Generating Emotional Responses at Scale》—

假设: 一句话中携带的emoji表情就能表达这句话的含义。

根据twitter上的emoji表情，建立一个大规模的有标签的情感数据集

现有的情感数据集的问题： 量小 / 粗粒度(pos,neg)

评测：automatically evaluated by a separate sentence-to-emoji classifer + human evaluation (AMT)

研究表明VAE模型生成的句子多样性远高于传统的seq2seq模型 (Recent research in dialog generation shows that language generated by BAE models enjoy significantly greater diversity than traditional seq2seq models)

数据集的预处理（比较特别的地方):

不允许出现任何的multimedia contents（URL, image, video等），如果出现，则直接舍弃这句tweet而不是单纯去除multimedia content。

一句话中含有多个emoji的情况：

按occurence最多的那个emoji来算

如果每个emoji出现的次数一样多，那么以在整个corpus上frequence最少的那个emoji来表示这句话

算法过程：

随机初始化词向量(dim=128) + emoji向量(emoji embedding)(dim=12)

baseline为普通的seq2seq模型

本文提出的模型基于CVAE(相关知识参见https://blog.csdn.net/NockinOnHeavensDoor/article/details/80372668)

上图中：

Decoder: approximate p(x|z,c)

Prior network: approximate p(z|c)

Recognition network: approximate p(z|x,c)

loss function即：

VAE处理文本时的问题：在处理text data时候，基于RNN的VAE模型中的encoder/decoder往往会先忽视隐变量，而用更容易优化的decoder去生成(explain)原数据。于是隐变量因此失去了其本身的意义，VAE退化成为朴素的seq2seq模型。

原文为: When handling text data, the VAE models that apply RNN as the structure of their encoders/decoders may first learn to ignore the latent variable, and explain the data with the more easily optimized decoder. The latent variables lose its functionality, and the VAE deteriorates to a plain Seq2Seq model mathematically.

解决上述问题的方法：early stopping + bag-of-words loss (L_bow) 见另一篇acl2017的论文（<Learning discourse-level diversity for neural dialog models using conditional variational autoencoders>）

训练完后的结果：For CVAE: KL loss = 27, reconstruction loss = 42.2. 模型在两个loss之间达到了平衡，说明模型的确学习到了有意义的隐向量z。

运用增强学习的部分：

先训练一个emoji classifier

如果将这个classifier的概率结果直接作为增强学习的baseline r, 由于此classifier的目标和response的生成并不是完全一致的（即，classifier的目标只是生成特定emotion，并不要求生成的text是twitter的response），于是整个的生成模型很快将会恶化成只生成特定emotion的通用回答。

预训练非常重要！！用完全收敛后的seq2seq模型的参数来初始化CVAE模型。

seq2seq模型生成的句子比较单一，趋向于生成通用回答，但是CVAE的结果就比较的多样化。（为什么呢？）

如论文中的例子里，seq2seq模型生成的句子都以I'm开头

而CVAE的缺点主要为：response太多样，以至于不太像是在回复tweet

而Reinforced CVAE的问题在于：通过堆叠相同语义的句子而合成了较长的句子，但也从另一个角度表明此种方法可以打破句子生成时的长度限制。

关于多样化的评测 -> 计算type-token ratios of unigrams/bigrams/trigrams

阅读论文《MOJITALK: Generating Emotional Responses at Scale》——ACL2018相关推荐

《论文阅读》MOJITALK: Generating Emotional Responses at Scale
<论文阅读>MOJITALK: Generating Emotional Responses at Scale 简介论文试图解决什么问题? 论文中提到的解决方案之关键是什么? 新的收获? ...
《论文复现》MOJITALK: Generating Emotional Responses at Scale 部分过程讲解
<论文复现>MOJITALK: Generating Emotional Responses at Scale 部分过程讲解论文解读数据集 emoji处理数据集获取论文解读 < ...
《论文阅读》CARE: Commonsense-Aware Emotional Response Generation with Latent Concepts
<论文阅读>CARE: Commonsense-Aware Emotional Response Generation with Latent Concepts 简介英文简写相关知识 ...
吴恩达：关于机器学习职业生涯以及阅读论文的一些建议
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达作者:Mohamed Ali Habib 编译:ronghuaiy ...
【阅读论文】博-自动化眼底图像分析技术可筛查糖尿病患者的视网膜疾病--第二章
[阅读论文]博-自动化眼底图像分析技术可筛查糖尿病患者的视网膜疾病 (1)评估和改善图像质量,(2)病变分割,(3)眼底病诊断 (1):ELVD质量指标利用脉管系统和基于颜色的特征对数字图像的质量进 ...
吴恩达亲述：如何高效阅读论文，开启一个新的领域！
AI 圈的朋友应该都知道吴恩达的大名,为了防止一些萌新还不知道,本菌这里先做一个简要的介绍. 吴恩达(英文名:Andrew Ng),是斯坦福大学计算机科学系和电子工程系教授,人工智能实验室主任,人 ...
三个牛人教你怎么高效阅读论文
本文来源:百度学术本文摘自:慧天地公众号科研牛人一从Ph.D到现在工作半年,发了12 篇paper, 7 篇first author \quad\quad我现在每天还保持读至少2-3 篇的文献的 ...
研究生入门，如何高效阅读论文
如何阅读论文? Tip : 阅读论文不要一字一句的从头到尾线性阅读 Paper阅读顺序: 1. 首先阅读论文题目,关键字,摘要 . (阅读完这三部分之后决定要不要继续阅读这篇Paper) 2. 阅读C ...
如何优雅的阅读论文——福昕阅读器
1. 情景介绍我们在阅读国外文献时,一般会对文章进行理解,从而在论文上做一点笔记.那么,之后回忆起该论文和笔记时,就会快速的想起论文的行文思路,从而节约时间. 在这里,博主给大家推荐一种阅读器,方便 ...
怎样阅读论文（台湾彭明辉）
怎样阅读论文(台湾彭明辉) 转载自http://blog.csdn.net/peonyding/article/details/39528381 生命是一种长期而持续的累积过程,绝不会因为单一的事件而 ...

阅读论文《MOJITALK: Generating Emotional Responses at Scale》——ACL2018

阅读论文《MOJITALK: Generating Emotional Responses at Scale》——ACL2018相关推荐

最新文章

热门文章