Reasoning with Sarcasm by Reading In-between

click here：文章下载

方法综述：

本文提出了新的模型SIARN(Singal-dimensional Intra-Attention Recurrent Networks)和MIARN(Multi-dimensional Intra-Attention Recurrent Networks)。

先给出一个定义，关系得分si,js_{i,j}si,j表示单词wiw_iwi、wjw_jwj间的信息关联程度。二者的区别仅在于，SIARN中只考虑单词对间的一种内在关系，si,js_{i,j}si,j是个标量；而MIARN考虑单词对间的多种(k种)内在关系，si,js_{i,j}si,j是个k维向量，再将其融合为一个标量。

模型中包含三个子模型：Singal/Multi-dimensional Intra-Attention、LSTM、Prediction Layer：
Singal/Multi-dimensional Intra-Attention：通过单词对间的信息，得到句子的Intra-Attentive Representation
LSTM：通过句子的序列信息，得到句子的Compositional Representation
Prediction Layer： 融合两种信息表示，进行二分类预测

各模型算法：

Singal/Multi-dimensional Intra-Attention

Sigal-dimensional：

si,j=Wa([wi;wj])+ba⟹si,j∈Rs_{i,j}=W_a([w_i;w_j])+b_a \implies s_{i,j} \in Rsi,j=Wa([wi;wj])+ba⟹si,j∈R 标量

Wa∈R2n×1,ba∈R;W_a \in R^{2n \times 1},b_a \in R;Wa∈R2n×1,ba∈R;

Multi-dimensional：

si,j^=Wq([wi;wj])+bq⟹si,j^∈Rk\hat{s_{i,j}}=W_q([w_i;w_j])+b_q \implies \hat{s_{i,j}} \in R^ksi,j^=Wq([wi;wj])+bq⟹si,j^∈Rk k维向量
Wq∈R2n×k,bq∈Rk;W_q \in R^{2n \times k},b_q \in R^k;Wq∈R2n×k,bq∈Rk;

si,j=Wp(ReLU(si,j^))+bps_{i,j}=W_p(ReLU(\hat{s_{i,j}}))+b_psi,j=Wp(ReLU(si,j^))+bp
Wp∈Rk×1,bp∈R;W_p \in R^{k \times 1},b_p \in R;Wp∈Rk×1,bp∈R;

⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓\Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow \Downarrow⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓

si,j=Wp(ReLU(Wq([wi;wj])))+bps_{i,j}=W_p(ReLU(W_q([w_i;w_j])))+b_psi,j=Wp(ReLU(Wq([wi;wj])))+bp
Wq∈R2n×k,bq∈Rk,Wp∈Rk×1,bp∈R;W_q \in R^{2n \times k},b_q \in R^k,W_p \in R^{k \times 1},b_p \in R;Wq∈R2n×k,bq∈Rk,Wp∈Rk×1,bp∈R;

从而，对于长度为lll的句子，可以得到对称矩阵s∈Rl×ls \in R^{l \times l}s∈Rl×l。
对矩阵s进行row-wise max-pooling，即按行取最大值，得到attention vector：a∈Rla \in R^la∈Rl

有了权重向量a，便可以对句子单词进行加权求和，得到Intra-Attentive Representation：va∈Rnv_a \in R^nva∈Rn:

LSTM

LSTM的每个时间步输出hi∈Rdh_i \in R^dhi∈Rd，可以表示为:

hi=LSTM(w,i),∀i∈[1,...,l]h_i=LSTM(w,i),\forall i \in [1,...,l]hi=LSTM(w,i),∀i∈[1,...,l]

本文使用LSTM的最后时间步输出，作为Compositional Representation：vc∈Rdv_c \in R^dvc∈Rd

vc=hlv_c=h_lvc=hl

ddd是LSTM隐藏层单元数，lll是句子的最大长度。

Prediction Layer

融合上述得到的Intra-Attentive Representation va∈Rnv_a \in R^nva∈Rn、Compositional Representation vc∈Rdv_c \in R^dvc∈Rd，得到融合表示向量 v∈Rdv \in R^dv∈Rd，再进行二分类输出y^∈R2\hat{y} \in R^2y^∈R2:

v=ReLU(Wz([va;vc])+bz)v=ReLU(W_z([v_a;v_c]) + b_z)v=ReLU(Wz([va;vc])+bz)
y^=Softmax(Wfv+bf)\hat{y}=Softmax(W_fv+b_f)y^=Softmax(Wfv+bf)

其中，Wz∈R(d+n)×d,bz∈Rd,Wf∈Rd×2,Wf∈Rd×2,bf∈R2W_z \in R^{(d+n) \times d},b_z \in R^d,W_f \in R^{d \times 2},W_f \in R^{d \times 2}, b_f \in R^2Wz∈R(d+n)×d,bz∈Rd,Wf∈Rd×2,Wf∈Rd×2,bf∈R2

训练目标：

待学习参数：θ={Wp,bp,Wq,bq,Wz,bz,Wf,bf}\theta = \{W_p,b_p,W_q,b_q,W_z,b_z,W_f,b_f\}θ={Wp,bp,Wq,bq,Wz,bz,Wf,bf}
超参数：k,n,d,λk, n, d, \lambdak,n,d,λ