A Probabilistic Formulation of Unsupervised Text Style Transfer
A Probabilistic Formulation of Unsupervised Text Style Transfer
无监督的问题转化
设X={x(1),x(2),…,x(m)}X=\{x^{(1)}, x^{(2)},\dots,x^{(m)}\}X={x(1),x(2),…,x(m)}是领域D1D_1D1的数据,Y={y(m+1),y(m+2),…,y(n)}Y=\{y^{(m+1)}, y^{(m+2)},\dots,y^{(n)}\}Y={y(m+1),y(m+2),…,y(n)}是领域D2D_2D2的数据,相同的上标表示平行语句
考虑引入latent sentence将其补成平行语料库,设Xˉ={xˉ(m+1),xˉ(m+2),…,xˉ(n)}\bar{X}=\{\bar{x}^{(m+1)}, \bar{x}^{(m+2)},\dots,\bar{x}^{(n)}\}Xˉ={xˉ(m+1),xˉ(m+2),…,xˉ(n)}是D1D_1D1的latent部分。Yˉ={yˉ(1),yˉ(2),…,yˉ(m)}\bar{Y}=\{\bar{y}^{(1)}, \bar{y}^{(2)},\dots,\bar{y}^{(m)}\}Yˉ={yˉ(1),yˉ(2),…,yˉ(m)}是D2D_2D2的latent部分。
现在任务目标就变成从X,YX,YX,Y推测Xˉ,Yˉ\bar X, \bar YXˉ,Yˉ,也就是p(yˉ∣x),p(xˉ∣y)p(\bar y|x),p(\bar x|y)p(yˉ∣x),p(xˉ∣y)
概率模型
直接学习p(yˉ∣x),p(xˉ∣y)p(\bar y|x),p(\bar x|y)p(yˉ∣x),p(xˉ∣y)是很困难的,所以改成求联合概率p(X,Y,Xˉ,Yˉ)p(X,Y,\bar{X},\bar{Y})p(X,Y,Xˉ,Yˉ)
因为我们的句子都要从latent层来生成,所以有
p(X,Y,Xˉ,Yˉ)=(∏i=1mp(x(i)∣yˉ(i);θx∣yˉ)pD2(yˉ(i)))(∏j=m+1np(y(j)∣xˉ(j);θy∣xˉ)pD1(xˉ(j)))p(X,Y,\bar{X},\bar{Y}) = \left(\prod\limits_{i=1}^m p(x^{(i)}|\bar{y}^{(i)};\theta_{x|\bar{y}})p_{\mathcal{D}_2}(\bar{y}^{(i)})\right) \left(\prod\limits_{j=m+1}^n p(y^{(j)}|\bar{x}^{(j)};\theta_{y|\bar{x}})p_{\mathcal{D}_1}(\bar{x}^{(j)})\right)p(X,Y,Xˉ,Yˉ)=(i=1∏mp(x(i)∣yˉ(i);θx∣yˉ)pD2(yˉ(i)))(j=m+1∏np(y(j)∣xˉ(j);θy∣xˉ)pD1(xˉ(j)))
- p(x(i)∣yˉ(i);θx∣yˉ),p(y(j)∣xˉ(j);θy∣xˉ)p(x^{(i)}|\bar{y}^{(i)};\theta_{x|\bar{y}}),p(y^{(j)}|\bar{x}^{(j)};\theta_{y|\bar{x}})p(x(i)∣yˉ(i);θx∣yˉ),p(y(j)∣xˉ(j);θy∣xˉ)是D2D_2D2到D1D_1D1和D1D_1D1到D2D_2D2的转换模型
- θ\thetaθ是对应的参数
- pD1p_{\mathcal{D}_1}pD1和pD2p_{\mathcal{D}_2}pD2是先验信息
相对应的对数概率
logp(X,Y;θx∣yˉ,θy∣xˉ)=log∑Xˉ∑Yˉp(X,Xˉ,Y,Yˉ;θx∣yˉ,θy∣xˉ)\log p(X,Y;\theta_{x|\bar{y}},\theta_{y|\bar{x}})=\log \sum_{\bar{X}} \sum_{\bar{Y}} p(X,\bar{X},Y,\bar{Y};\theta_{x|\bar{y}},\theta_{y|\bar{x}})logp(X,Y;θx∣yˉ,θy∣xˉ)=logXˉ∑Yˉ∑p(X,Xˉ,Y,Yˉ;θx∣yˉ,θy∣xˉ)
论文用seq2seq作为上述转化模型
理论上,模型应该对上述概率进行学习,由于较难计算这个概率,我们使用Amortized变分推断得到对数概率下界(ELBO)。
其实这里就是用VAE的那套理论
q(yˉ∣x(i);ϕyˉ∣x)q(\bar{y}|x^{(i)};\phi_{\bar{y}|x})q(yˉ∣x(i);ϕyˉ∣x)和q(xˉ∣y(i);ϕxˉ∣y)q(\bar{x}|y^{(i)};\phi_{\bar{x}|y})q(xˉ∣y(i);ϕxˉ∣y)表示对模型真实后验p(yˉ∣x(i);θx∣yˉ)p(\bar{y}|x^{(i)};\theta_{x|\bar{y}})p(yˉ∣x(i);θx∣yˉ)和p(xˉ∣y(i);θy∣xˉ)p(\bar{x}|y^{(i)};\theta_{y|\bar{x}})p(xˉ∣y(i);θy∣xˉ)的近似
p(y∣xˉ(i);θy∣xˉ)p(y|\bar{x}^{(i)};\theta_{y|\bar{x}})p(y∣xˉ(i);θy∣xˉ)和q(yˉ∣x(i);ϕyˉ∣x)q(\bar{y}|x^{(i)};\phi_{\bar{y}|x})q(yˉ∣x(i);ϕyˉ∣x)都是D1D_1D1向D2D_2D2的转化,所以参数可以共享
- 所以有ϕxˉ∣y=θx∣yˉ\phi_{\bar{x}|y}=\theta_{x|\bar{y}}ϕxˉ∣y=θx∣yˉ
- 同理有ϕyˉ∣x=θy∣xˉ\phi_{\bar{y}|x}=\theta_{y|\bar{x}}ϕyˉ∣x=θy∣xˉ
所以这里只需要训练两个编码器
更进一步
- 一些在两个语料间互相转化的问题,可以使用同一个编码器与解码器,然后在中间使用一个对应域的embedding c来指明转化方向
梯度
由于重构项和KL损失项不好求梯度,这里使用Gumbel-softmax的方法来梯度估计,同时使用greedy decode的方式,不记录梯度来重构
自重构
- 由于在训练刚开始的时候,编码解码器难以有好的结果,所以模型加入自重构损失
- Lrec=−α⋅∑i[pdec(e(x(i),cx))]−α⋅∑j[pdec(e(y(j),cy))]\mathcal{L}_{rec}=-\alpha \cdot \sum_i[p_{dec}(e(x^{(i)},c_x))] -\alpha \cdot \sum_j[p_{dec}(e(y^{(j)},c_y))] Lrec=−α⋅i∑[pdec(e(x(i),cx))]−α⋅j∑[pdec(e(y(j),cy))]
- cx,cyc_x,c_ycx,cy是x和y的领域向量
- alphaalphaalpha是衰减参数,在k个epoch从1减到0,k在论文中是3
A Probabilistic Formulation of Unsupervised Text Style Transfer相关推荐
- A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer
无监督文本样式转换的分层增强序列运算方法 下载链接:https://arxiv.org/pdf/1906.01833.pdf 一.A Paper List for Style Transfer in ...
- 精读A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer
在HRL(强化学习)框架中,提出一种基于序列操作PTO(Point-Then-Operate):高级agent提出操作位置,低级agent修改句子.用于无监督文本样式的传输. 转换过程被建模为对输入句 ...
- 李宏毅DLHLP.21.Text Style Transfer
文章目录 介绍 Cycle GAN Generator Gumbel-softmax Continuous Input for Discriminator Reinforcement Learning ...
- 李宏毅nlp学习笔记06:Text Style Transfer
1.Text Style Transfer 可以把消极的消息变成积极的消息: 进行的应该是无监督的学习. 以把消极的句子转为积极的句子为例. G:模型是消极的模型转化为积极的模型 D:则应该能够判断转 ...
- 学习笔记:Controllable Artistic Text Style Transfer via Shape-Matching GAN 基于形状匹配生成对抗网络的可控艺术文本风格迁移
[ICCV-2019] Controllable Artistic Text Style Transfer via Shape-Matching GAN 基于形状匹配生成对抗网络的可控艺术文本风格迁移 ...
- IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation 大致流程 1.Matching:在目 ...
- 【论文笔记】An Unsupervised Style Transfer Framework for Profanity Redaction
Towards A Friendly Online Community: An Unsupervised Style Transfer Framework for Profanity Redactio ...
- Chapter7-6_Text Style Transfer
文章目录 1 什么是Text Style Transfer 2 Cycle GAN 2.1 Gumbel-softmax 2.2 Continuous Input for Discriminator ...
- Unsupervised person re‑identification via K‑reciprocal encoding and style transfer
1 Introduction 该文献研究完全无监督的re-ID问题,设计的算法主要基于以下三个方面:(1)克服不同相机的图像风格差异,例如照明.遮挡和视点(使用StarGAN生成多张不同风格的图片,并 ...
最新文章
- 前四次作业--个人总结
- 洛谷P4114 Qtree1(树链剖分+线段树)
- openstack运维实战系列(十七)之glance与ceph结合
- Linux查ip出来的pp0,linux下使用shell查看apache IP访问量
- 如何告别脂肪肝?要注意什么?
- Atitit..net clr il指令集 以及指令分类 与指令详细说明
- php导出指定格式excel,php导出excel格式文件的例子
- ElasticSearch安装
- foxmai邮件服务器pop,常见pop和stmp服务器地址-foxmail6或outlook邮件管理
- 其它——简历编写、五险一金、补充一些就业相关的东西
- 征集国内操作系统项目列表 zz
- 基于实物的智能化仓储管理-InStock
- 麻省理工学院计算机科学,麻省理工学院素以世界顶尖的工程学和计算机科学而享誉世界[1-2] ,位列2015-16年世...
- Linux 固件子系统----如何更新固件
- C# 有符号整数 无符号整数
- web自动化测试-绕过验证码登录
- 淘宝/Tmall商品详情页视频数据接口(视频数据,销量数据,sku属性数据,页面上有的数据均可以拿到,支持高并发)
- 几种搜索引擎算法研究
- 容联云通讯—+springboot
- 七律《细雨》《彩虹》