A Probabilistic Formulation of Unsupervised Text Style Transfer

无监督的问题转化

设 $X={x(1),x(2),…,x(m)}X=\{x^{(1)}, x^{(2)},\dots,x^{(m)}\}$ 是领域 $D_1$ 的数据， $Y={y(m+1),y(m+2),…,y(n)}Y=\{y^{(m+1)}, y^{(m+2)},\dots,y^{(n)}\}$ 是领域 $D_2$ 的数据，相同的上标表示平行语句

考虑引入latent sentence将其补成平行语料库，设 $Xˉ={xˉ(m+1),xˉ(m+2),…,xˉ(n)}\bar{X}=\{\bar{x}^{(m+1)}, \bar{x}^{(m+2)},\dots,\bar{x}^{(n)}\}$ 是 $D_1$ 的latent部分。 $Yˉ={yˉ(1),yˉ(2),…,yˉ(m)}\bar{Y}=\{\bar{y}^{(1)}, \bar{y}^{(2)},\dots,\bar{y}^{(m)}\}$ 是 $D_2$ 的latent部分。

现在任务目标就变成从 $X, Y$ 推测 $Xˉ,Yˉ\bar X, \bar Y$ ，也就是 $p(yˉ∣x),p(xˉ∣y)p(\bar y|x),p(\bar x|y)$

概率模型

直接学习 $p(yˉ∣x),p(xˉ∣y)p(\bar y|x),p(\bar x|y)$ 是很困难的，所以改成求联合概率 $p(X,Y,Xˉ,Yˉ)p(X,Y,\bar{X},\bar{Y})$
因为我们的句子都要从latent层来生成，所以有
$p(X,Y,Xˉ,Yˉ)=(∏i=1mp(x(i)∣yˉ(i);θx∣yˉ)pD2(yˉ(i)))(∏j=m+1np(y(j)∣xˉ(j);θy∣xˉ)pD1(xˉ(j)))p(X,Y,\bar{X},\bar{Y}) = \left(\prod\limits_{i=1}^m p(x^{(i)}|\bar{y}^{(i)};\theta_{x|\bar{y}})p_{\mathcal{D}_2}(\bar{y}^{(i)})\right) \left(\prod\limits_{j=m+1}^n p(y^{(j)}|\bar{x}^{(j)};\theta_{y|\bar{x}})p_{\mathcal{D}_1}(\bar{x}^{(j)})\right)$

$p(x(i)∣yˉ(i);θx∣yˉ),p(y(j)∣xˉ(j);θy∣xˉ)p(x^{(i)}|\bar{y}^{(i)};\theta_{x|\bar{y}}),p(y^{(j)}|\bar{x}^{(j)};\theta_{y|\bar{x}})$ 是 $D_2$ 到 $D_1$ 和 $D_1$ 到 $D_2$ 的转换模型
$θ\theta$ 是对应的参数
$pD1p_{\mathcal{D}_1}$ 和 $pD2p_{\mathcal{D}_2}$ 是先验信息

相对应的对数概率
$log⁡p(X,Y;θx∣yˉ,θy∣xˉ)=log⁡∑Xˉ∑Yˉp(X,Xˉ,Y,Yˉ;θx∣yˉ,θy∣xˉ)\log p(X,Y;\theta_{x|\bar{y}},\theta_{y|\bar{x}})=\log \sum_{\bar{X}} \sum_{\bar{Y}} p(X,\bar{X},Y,\bar{Y};\theta_{x|\bar{y}},\theta_{y|\bar{x}})$

论文用seq2seq作为上述转化模型

理论上，模型应该对上述概率进行学习，由于较难计算这个概率，我们使用Amortized变分推断得到对数概率下界(ELBO)。
其实这里就是用VAE的那套理论

$q(yˉ∣x(i);ϕyˉ∣x)q(\bar{y}|x^{(i)};\phi_{\bar{y}|x})$ 和 $q(xˉ∣y(i);ϕxˉ∣y)q(\bar{x}|y^{(i)};\phi_{\bar{x}|y})$ 表示对模型真实后验 $p(yˉ∣x(i);θx∣yˉ)p(\bar{y}|x^{(i)};\theta_{x|\bar{y}})$ 和 $p(xˉ∣y(i);θy∣xˉ)p(\bar{x}|y^{(i)};\theta_{y|\bar{x}})$ 的近似

$p(y∣xˉ(i);θy∣xˉ)p(y|\bar{x}^{(i)};\theta_{y|\bar{x}})$ 和 $q(yˉ∣x(i);ϕyˉ∣x)q(\bar{y}|x^{(i)};\phi_{\bar{y}|x})$ 都是 $D_1$ 向 $D_2$ 的转化，所以参数可以共享

所以有 $ϕxˉ∣y=θx∣yˉ\phi_{\bar{x}|y}=\theta_{x|\bar{y}}$
同理有 $ϕyˉ∣x=θy∣xˉ\phi_{\bar{y}|x}=\theta_{y|\bar{x}}$

所以这里只需要训练两个编码器

更进一步

一些在两个语料间互相转化的问题，可以使用同一个编码器与解码器，然后在中间使用一个对应域的embedding c来指明转化方向

梯度

由于重构项和KL损失项不好求梯度，这里使用Gumbel-softmax的方法来梯度估计，同时使用greedy decode的方式，不记录梯度来重构

自重构

由于在训练刚开始的时候，编码解码器难以有好的结果，所以模型加入自重构损失
$Lrec=−α⋅∑i[pdec(e(x(i),cx))]−α⋅∑j[pdec(e(y(j),cy))]\mathcal{L}_{rec}=-\alpha \cdot \sum_i[p_{dec}(e(x^{(i)},c_x))] -\alpha \cdot \sum_j[p_{dec}(e(y^{(j)},c_y))]$ $L^{r e c} = - α \cdot i \sum [p^{d e c} (e (x^{(i)}, c^{x}))] - α \cdot j \sum [p^{d e c} (e (y^{(j)}, c^{y}))]$
- $c_x,c_y$ 是x和y的领域向量
- $a l p h a$ 是衰减参数，在k个epoch从1减到0，k在论文中是3