IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation
大致流程
- 1、Matching:在目标语料库构造语义相似的伪平行样本
- 2、使用seq2seq类的模型,学习一个文本生成器
- 3、通过细化对齐中不完善的部分,迭代反复提高transfer的功能
1、Matching
在第0( t = 0 t=0 t=0)次迭代时,通过在两个语料库中配对来构造伪平行样本 X ^ , Y ^ ( 0 ) \hat X,\hat Y^{(0)} X^,Y^(0)
- 计算句子x和每个句子y的余弦相似度,取最高的
- 只在相似度大于阈值 γ \gamma γ时保留句子对
- 所以 X ^ \hat X X^表示能找到匹配的句子的集合,即 X X X的子集
在 t ≥ 1 t\geq 1 t≥1
- 在t-1次迭代的第三部得到的 Y ( t ) 来 匹 配 Y , 找 到 余 弦 相 似 度 最 相 似 的 , 得 到 Y^{(t)}来匹配Y,找到余弦相似度最相似的,得到 Y(t)来匹配Y,找到余弦相似度最相似的,得到 M a t c h ( t ) Match^{(t)} Match(t)
- 比较 Y ^ ( t ) \hat Y^{(t)} Y^(t)与 M a t c h ( t ) Match^{(t)} Match(t),取与 X ^ \hat X X^的WMD分数(word mover distance)较小的那个
- 得到 Y ^ ( t ) \hat Y^{(t)} Y^(t)
WMD
WMD用于测量内容从原句到重写内容的转化
W M D ( s a , s b ) = min T ≥ 0 ∑ i , j = 1 n T i , j ⋅ c ( i , j ) WMD(s_a,s_b)=\min_{T\geq 0}\sum_{i,j=1}^n T_{i,j}\cdot c(i,j) WMD(sa,sb)=T≥0mini,j=1∑nTi,j⋅c(i,j)
- i in s a , j in s b \text{i in }s_a,\text{j in }s_b i in sa,j in sb
- travel distance : T ( i , j ) \text{travel distance}:T(i,j) travel distance:T(i,j)
- corresponding cost of "word travel" : c ( i , j ) \text{corresponding cost of "word travel"}:c(i,j) corresponding cost of "word travel":c(i,j)
由于已经构建了较好的伪平行语料,所以通过与原句的最小变化来最大限度的减少内容的转移
相对于句子相似性的其他标准:
- 1、没有超参调整
- 2、能适当处理句子长度不平衡的问题
- 3、词级别
- 4、有很高的准确性
2、Translation
- 在 t ≥ 0 t\geq 0 t≥0时,用seq2seq模型,得到attention分数 M ( t ) M^{(t)} M(t)
3、Refinement
这里使用步骤2得到的attention分数 M ( t ) M^{(t)} M(t)来refine步骤1得到的 Y ^ ( t ) \hat Y^{(t)} Y^(t)
- 使用 M ( t ) M^{(t)} M(t)针对句子 x i ∈ X ^ x_i\in \hat X xi∈X^得到 t r a n s i ( t ) trans_i^{(t)} transi(t),并形成一个暂时的语料 T r a n s ( t ) Trans^{(t)} Trans(t)
- 比较 W M D ( x i , y ^ i ) WMD(x_i,\hat y_i) WMD(xi,y^i)和 W M D ( x i , t r a n s i ) WMD(x_i,trans_i) WMD(xi,transi),把较小的填进 Y ^ ( t + 1 ) \hat Y^{(t+1)} Y^(t+1)
伪代码
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation相关推荐
- A Probabilistic Formulation of Unsupervised Text Style Transfer
A Probabilistic Formulation of Unsupervised Text Style Transfer 无监督的问题转化 设X={x(1),x(2),-,x(m)}X=\{x^ ...
- A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer
无监督文本样式转换的分层增强序列运算方法 下载链接:https://arxiv.org/pdf/1906.01833.pdf 一.A Paper List for Style Transfer in ...
- 精读A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer
在HRL(强化学习)框架中,提出一种基于序列操作PTO(Point-Then-Operate):高级agent提出操作位置,低级agent修改句子.用于无监督文本样式的传输. 转换过程被建模为对输入句 ...
- 李宏毅DLHLP.21.Text Style Transfer
文章目录 介绍 Cycle GAN Generator Gumbel-softmax Continuous Input for Discriminator Reinforcement Learning ...
- 李宏毅nlp学习笔记06:Text Style Transfer
1.Text Style Transfer 可以把消极的消息变成积极的消息: 进行的应该是无监督的学习. 以把消极的句子转为积极的句子为例. G:模型是消极的模型转化为积极的模型 D:则应该能够判断转 ...
- 【论文阅读笔记】Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer
摘要: 本文主要研究训练和测试类别不相交时(即没有目标类别的训练示例)的对象分类问题.在此之前并没有对于毫无关联的训练集和测试集进行对象检测的工作,只是对训练集所包含的样本进行分类.实验表明,通过使用 ...
- 【论文阅读】Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval
Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval 介绍 模型 跨膜态特征表 ...
- Visual Attribute Transfer through Deep Image Analogy论文阅读笔记
Visual Attribute Transfer through Deep Image Analogy论文阅读笔记 介绍 论文提出了一种新的两张图片直接进行视觉属性迁移的方法.该方法针对的是两张具有 ...
- Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings
Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings Abstract 该论文提出了一种无监督 ...
最新文章
- 区域经济、地理信息、互联网三者交叉之行业背景分析
- Media Player控件常用的样式
- (学)DEV在设计界面部分组件显示红叉并报错的问题
- 文巾解题 8. 字符串转换整数 (atoi)
- php后台无法登入,PHP magento后台无法登录问题解决方法
- 具备自动刷新功能的 SAP ABAP ALV 报表
- jdbc事务和事务的隔离级别
- 关于Tomcat双击startup.bat文件一闪而过问题
- tensorflow中optimizer minimize自动训练简介和选择训练variable的方法
- php ddos防御,网站防御DDOS的PHP代码
- SDCMS1.3.1 发布插件
- 码农小汪之Alibaba-fastjson的基本使用
- Spring中@DependsOn注解的作用及实现原理解析
- DHCP报文单播/广播分析
- esp8266舵机驱动_使用Arduino和ESP8266通过网页控制舵机
- Telnet远程和tracert跟踪命令
- Bolb转String
- c++-文件操作-1.创建文件夹
- linux操作系统下c语言编程入门
- 猿辅导:一个班主任老师的影响力能有多大?
热门文章
- iMeta |吴小立/谢黎炜综述肠道菌群可能作为精神分裂症和肥胖症发病机制的共同枢纽...
- iOS pods组件化私有的framework 、xcframework
- 篇百度前员工发表的博客,在这篇长文里回忆了他离开百度的原因、他眼中的百度乱
- 腾讯暑期实习笔经面经-为你准备(独家资料)
- linux文件类型doc修改,Linux中常见的文件类型.doc
- 判别数据是否满足正态分布,将非正态分布转化为正态分布
- 尚学堂Oracle经验
- 55. 精读《async await 是把双刃剑》
- 计算机毕业设计Python+uniapp基于微信小程序的订房系统(小程序+源码+LW)
- seo如何和ajax和睦相处