A Probabilistic Formulation of Unsupervised Text Style Transfer

无监督的问题转化

X={x(1),x(2),…,x(m)}X=\{x^{(1)}, x^{(2)},\dots,x^{(m)}\}X={x(1),x(2),,x(m)}是领域D1D_1D1的数据,Y={y(m+1),y(m+2),…,y(n)}Y=\{y^{(m+1)}, y^{(m+2)},\dots,y^{(n)}\}Y={y(m+1),y(m+2),,y(n)}是领域D2D_2D2的数据,相同的上标表示平行语句

考虑引入latent sentence将其补成平行语料库,设Xˉ={xˉ(m+1),xˉ(m+2),…,xˉ(n)}\bar{X}=\{\bar{x}^{(m+1)}, \bar{x}^{(m+2)},\dots,\bar{x}^{(n)}\}Xˉ={xˉ(m+1),xˉ(m+2),,xˉ(n)}D1D_1D1的latent部分。Yˉ={yˉ(1),yˉ(2),…,yˉ(m)}\bar{Y}=\{\bar{y}^{(1)}, \bar{y}^{(2)},\dots,\bar{y}^{(m)}\}Yˉ={yˉ(1),yˉ(2),,yˉ(m)}D2D_2D2的latent部分。

现在任务目标就变成从X,YX,YX,Y推测Xˉ,Yˉ\bar X, \bar YXˉ,Yˉ,也就是p(yˉ∣x),p(xˉ∣y)p(\bar y|x),p(\bar x|y)p(yˉx),p(xˉy)

概率模型

直接学习p(yˉ∣x),p(xˉ∣y)p(\bar y|x),p(\bar x|y)p(yˉx),p(xˉy)是很困难的,所以改成求联合概率p(X,Y,Xˉ,Yˉ)p(X,Y,\bar{X},\bar{Y})p(X,Y,Xˉ,Yˉ)
因为我们的句子都要从latent层来生成,所以有
p(X,Y,Xˉ,Yˉ)=(∏i=1mp(x(i)∣yˉ(i);θx∣yˉ)pD2(yˉ(i)))(∏j=m+1np(y(j)∣xˉ(j);θy∣xˉ)pD1(xˉ(j)))p(X,Y,\bar{X},\bar{Y}) = \left(\prod\limits_{i=1}^m p(x^{(i)}|\bar{y}^{(i)};\theta_{x|\bar{y}})p_{\mathcal{D}_2}(\bar{y}^{(i)})\right) \left(\prod\limits_{j=m+1}^n p(y^{(j)}|\bar{x}^{(j)};\theta_{y|\bar{x}})p_{\mathcal{D}_1}(\bar{x}^{(j)})\right)p(X,Y,Xˉ,Yˉ)=(i=1mp(x(i)yˉ(i);θxyˉ)pD2(yˉ(i)))(j=m+1np(y(j)xˉ(j);θyxˉ)pD1(xˉ(j)))

  • p(x(i)∣yˉ(i);θx∣yˉ),p(y(j)∣xˉ(j);θy∣xˉ)p(x^{(i)}|\bar{y}^{(i)};\theta_{x|\bar{y}}),p(y^{(j)}|\bar{x}^{(j)};\theta_{y|\bar{x}})p(x(i)yˉ(i);θxyˉ),p(y(j)xˉ(j);θyxˉ)D2D_2D2D1D_1D1D1D_1D1D2D_2D2的转换模型
  • θ\thetaθ是对应的参数
  • pD1p_{\mathcal{D}_1}pD1pD2p_{\mathcal{D}_2}pD2是先验信息

相对应的对数概率
log⁡p(X,Y;θx∣yˉ,θy∣xˉ)=log⁡∑Xˉ∑Yˉp(X,Xˉ,Y,Yˉ;θx∣yˉ,θy∣xˉ)\log p(X,Y;\theta_{x|\bar{y}},\theta_{y|\bar{x}})=\log \sum_{\bar{X}} \sum_{\bar{Y}} p(X,\bar{X},Y,\bar{Y};\theta_{x|\bar{y}},\theta_{y|\bar{x}})logp(X,Y;θxyˉ,θyxˉ)=logXˉYˉp(X,Xˉ,Y,Yˉ;θxyˉ,θyxˉ)

论文用seq2seq作为上述转化模型

理论上,模型应该对上述概率进行学习,由于较难计算这个概率,我们使用Amortized变分推断得到对数概率下界(ELBO)。
其实这里就是用VAE的那套理论

q(yˉ∣x(i);ϕyˉ∣x)q(\bar{y}|x^{(i)};\phi_{\bar{y}|x})q(yˉx(i);ϕyˉx)q(xˉ∣y(i);ϕxˉ∣y)q(\bar{x}|y^{(i)};\phi_{\bar{x}|y})q(xˉy(i);ϕxˉy)表示对模型真实后验p(yˉ∣x(i);θx∣yˉ)p(\bar{y}|x^{(i)};\theta_{x|\bar{y}})p(yˉx(i);θxyˉ)p(xˉ∣y(i);θy∣xˉ)p(\bar{x}|y^{(i)};\theta_{y|\bar{x}})p(xˉy(i);θyxˉ)的近似

p(y∣xˉ(i);θy∣xˉ)p(y|\bar{x}^{(i)};\theta_{y|\bar{x}})p(yxˉ(i);θyxˉ)q(yˉ∣x(i);ϕyˉ∣x)q(\bar{y}|x^{(i)};\phi_{\bar{y}|x})q(yˉx(i);ϕyˉx)都是D1D_1D1D2D_2D2的转化,所以参数可以共享

  • 所以有ϕxˉ∣y=θx∣yˉ\phi_{\bar{x}|y}=\theta_{x|\bar{y}}ϕxˉy=θxyˉ
  • 同理有ϕyˉ∣x=θy∣xˉ\phi_{\bar{y}|x}=\theta_{y|\bar{x}}ϕyˉx=θyxˉ

所以这里只需要训练两个编码器

更进一步

  • 一些在两个语料间互相转化的问题,可以使用同一个编码器与解码器,然后在中间使用一个对应域的embedding c来指明转化方向

梯度

由于重构项和KL损失项不好求梯度,这里使用Gumbel-softmax的方法来梯度估计,同时使用greedy decode的方式,不记录梯度来重构

自重构

  • 由于在训练刚开始的时候,编码解码器难以有好的结果,所以模型加入自重构损失
  • Lrec=−α⋅∑i[pdec(e(x(i),cx))]−α⋅∑j[pdec(e(y(j),cy))]\mathcal{L}_{rec}=-\alpha \cdot \sum_i[p_{dec}(e(x^{(i)},c_x))] -\alpha \cdot \sum_j[p_{dec}(e(y^{(j)},c_y))] Lrec=αi[pdec(e(x(i),cx))]αj[pdec(e(y(j),cy))]
    • cx,cyc_x,c_ycx,cy是x和y的领域向量
    • alphaalphaalpha是衰减参数,在k个epoch从1减到0,k在论文中是3

A Probabilistic Formulation of Unsupervised Text Style Transfer相关推荐

  1. A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer

    无监督文本样式转换的分层增强序列运算方法 下载链接:https://arxiv.org/pdf/1906.01833.pdf 一.A Paper List for Style Transfer in ...

  2. 精读A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer

    在HRL(强化学习)框架中,提出一种基于序列操作PTO(Point-Then-Operate):高级agent提出操作位置,低级agent修改句子.用于无监督文本样式的传输. 转换过程被建模为对输入句 ...

  3. 李宏毅DLHLP.21.Text Style Transfer

    文章目录 介绍 Cycle GAN Generator Gumbel-softmax Continuous Input for Discriminator Reinforcement Learning ...

  4. 李宏毅nlp学习笔记06:Text Style Transfer

    1.Text Style Transfer 可以把消极的消息变成积极的消息: 进行的应该是无监督的学习. 以把消极的句子转为积极的句子为例. G:模型是消极的模型转化为积极的模型 D:则应该能够判断转 ...

  5. 学习笔记:Controllable Artistic Text Style Transfer via Shape-Matching GAN 基于形状匹配生成对抗网络的可控艺术文本风格迁移

    [ICCV-2019] Controllable Artistic Text Style Transfer via Shape-Matching GAN 基于形状匹配生成对抗网络的可控艺术文本风格迁移 ...

  6. IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation

    IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation 大致流程 1.Matching:在目 ...

  7. 【论文笔记】An Unsupervised Style Transfer Framework for Profanity Redaction

    Towards A Friendly Online Community: An Unsupervised Style Transfer Framework for Profanity Redactio ...

  8. Chapter7-6_Text Style Transfer

    文章目录 1 什么是Text Style Transfer 2 Cycle GAN 2.1 Gumbel-softmax 2.2 Continuous Input for Discriminator ...

  9. Unsupervised person re‑identification via K‑reciprocal encoding and style transfer

    1 Introduction 该文献研究完全无监督的re-ID问题,设计的算法主要基于以下三个方面:(1)克服不同相机的图像风格差异,例如照明.遮挡和视点(使用StarGAN生成多张不同风格的图片,并 ...

最新文章

  1. 前四次作业--个人总结
  2. 洛谷P4114 Qtree1(树链剖分+线段树)
  3. openstack运维实战系列(十七)之glance与ceph结合
  4. Linux查ip出来的pp0,linux下使用shell查看apache IP访问量
  5. 如何告别脂肪肝?要注意什么?
  6. Atitit..net clr il指令集 以及指令分类  与指令详细说明
  7. php导出指定格式excel,php导出excel格式文件的例子
  8. ElasticSearch安装
  9. foxmai邮件服务器pop,常见pop和stmp服务器地址-foxmail6或outlook邮件管理
  10. 其它——简历编写、五险一金、补充一些就业相关的东西
  11. 征集国内操作系统项目列表 zz
  12. 基于实物的智能化仓储管理-InStock
  13. 麻省理工学院计算机科学,麻省理工学院素以世界顶尖的工程学和计算机科学而享誉世界[1-2] ,位列2015-16年世...
  14. Linux 固件子系统----如何更新固件
  15. C# 有符号整数 无符号整数
  16. web自动化测试-绕过验证码登录
  17. 淘宝/Tmall商品详情页视频数据接口(视频数据,销量数据,sku属性数据,页面上有的数据均可以拿到,支持高并发)
  18. 几种搜索引擎算法研究
  19. 容联云通讯—+springboot
  20. 七律《细雨》《彩虹》

热门文章

  1. 从 Notion 分片 Postgres 中吸取的教训(Notion 工程团队)
  2. 创建带图文的超级菜单(导航菜单)(二)
  3. 直播+时尚跨界掀起新玩法,传统时装行业变革在即
  4. 微信开放平台扫码登陆
  5. 6.HDFS文件上传和下载API
  6. 使用matlab判别的NaN
  7. SQL Server 进阶 01 数据库的设计
  8. 用gd扩展调用imagegrabscreen截图,完全黑屏!允许服务与桌面交互没用!
  9. SpringSecurity学习笔记(三)自定义资源拦截规则以及登录界面跳转
  10. 刘海洋《LaTex入门》学习笔记5