《Improving Cross-lingual Text Classification with Zero-shot Instance-Weighting》论文笔记
1. Motivation
跨语言文本分类(CLTC)是一项具有挑战性的任务,由于缺乏低资源语言中的标记数据,因此变得更加困难。在文中,作者提出了零目标实例加权,一个通用的模型无关的零目标学习框架,通过利用源实例加权来改进CLTC。它在预先训练过的语言模型上添加了一个模块,用于实例权重的相似性计算,从而将每个源实例与目标语言对齐。在训练过程中,该框架利用由实例权重加权的梯度下降来更新参数。
2. Contribution
- 引入了零目标实例加权,这是一个简单但有效的、可扩展的框架,以支持零目标CLTC的实例加权迁移学习。
- 本文提出的方法在具有7个 不同语言的三个跨语言分类任务上进行评估,结果表明,该方法在单源传输中提高了4%,在多源传输中提高了8%,为利用未标记数据的知识确定了一个有前途的方向
3. Method
zero-shot的CLTC框架如上图所示。源语言输入和目标语言输入分别为xsx_sxs和xtx_txt,在训练期间,只有源标签ysy_sys可用,其任务是预测目标标签yty_tyt。首先应用预先训练好的模型作为编码器对输入进行编码,编码后的表示用hsh_shs和hth_tht表示。该图说明了小批处理中每种语言的四个实例。然后有一个实例加权模块,通过考虑隐藏的表示hsh_shs和hth_tht来为源语言实例赋权重。
3.1 Instance Weighting-based Gradient Descent
Vanilla小批量梯度下降法的定义为:
θ←θ−α∑i=1k▽θf(yi,gθ(xi))(1)\theta \leftarrow \theta - \alpha \sum_{i=1}^k \triangledown_\theta f(y_i,g_\theta(x_i))(1)θ←θ−αi=1∑k▽θf(yi,gθ(xi))(1)
其中α\alphaα为学习速率,θ\thetaθ为要更新的参数,gθ(xi)g_\theta(x_i)gθ(xi)为xix_ixi的模型预测,▽θ\triangledown \theta▽θ为偏导数,f(⋅)f(·)f(⋅)为损失函数。修改公式,以包括实例的权重:
θ←θ−α∑i=1kwi⋅▽θf(yi,gθ(xi))(2)\theta \leftarrow \theta - \alpha \sum_{i=1}^k w_i·\triangledown_\theta f(y_i,g_\theta(x_i)) (2)θ←θ−αi=1∑kwi⋅▽θf(yi,gθ(xi))(2)
为一个小批中的每个实例分配一个权重wiw_iwi,并且有一个小批中所有实例的梯度的加权和,然后更新参数θ\thetaθ。它可以很容易地扩展到多种源语言,在这种情况下,xsx_sxs可能是来自多个语言的训练样本。
3.2 Unsupervised Weighting Metrics
每个批处理,为了获得每个源实例iii的权重wiw_iwi,作者遵循基于相似度的方法,定义了一个评分函数来计算当前源实例表示hih_ihi和目标实例表示hjh_jhj之间的分数。然后,对这批DtD_tDt中的目标实例集进行一个总和,作为源实例iii的最终分数。对于i∈Dsi∈D_si∈Ds:
wi=score(i,Dt)=∑j∈Dtscore(i,j)w_i=score(i,D_t)=\sum_{j∈D_t}score(i,j)wi=score(i,Dt)=j∈Dt∑score(i,j)
对这批中的每个wiw_iwi进行规范化,以确保和是1,它们被插入公示2中。
多种方法来定义评分函数评分(i,j)(i,j)(i,j),余弦评分函数表现最好,因此作者没有使用Euclidean Distance和CORAL Function,在主要实验中报告余弦函数,基于cos弦相似度的评分函数定义为:
score(i,j)=12(hi⋅hj∣∣hi∣∣∣∣hj∣∣+1)score(i,j)=\frac{1}{2}(\frac{h_i·h_j}{||h_i|| ||h_j||}+1)score(i,j)=21(∣∣hi∣∣∣∣hj∣∣hi⋅hj+1)
4. Experiment
在意见目标提取、文档分类和情绪分类三个任务中,由于选择了预先训练好的模型,两种基础模型对所有语言都取得了较好的结果。实例加权对几乎所有的目标语言都比基本模型产生了一致的改进。
- 最佳模型XLMR+IW平均比最佳基线高出4.65%,在俄语上比XLMR提高了4%,在其他目标语言上也大幅提高;
- XLMR+IW的表现超过了基线,并稳步超过了XLMR,在俄罗斯,中国和西班牙方面有令人印象深刻的增长。
- 最佳模型在大多数情况下都显示出相同的趋势。虽然本文方法与模型无关,可以看到从mBERT切换到XLMR所获得的改进结果看出,但当基本模型或嵌入得到改进时,实例加权仍然会有帮助。
- 考虑到这些观察结果,该框架很简单,但也很有效。最重要的是,它不需要额外的外部数据,并且很容易适应于任何深度模型。
- 通过轻松地扩展到多源语言培训,在所有目标语言中都得到了显著的提升。具体来说,俄语提高了8.1%。
- 通过易于适应,展示了可扩展性和多语言迁移在零射击学习中是一个很有前途的方向。
《Improving Cross-lingual Text Classification with Zero-shot Instance-Weighting》论文笔记相关推荐
- 论文笔记之Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...
- 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...
- 论文笔记Understanding and Diagnosing Visual Tracking Systems
最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...
- 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...
- 追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems)
追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...
- ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记
目录 写在前面 文章大意 一些benchmark 实验 实验设置 基本模型 数据集 实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...
- Understanding and Diagnosing Visual Tracking Systems
文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...
- CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...
- ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...
- CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...
最新文章
- 物理学在计算机领域的应用,物理学在计算机中的应用.doc
- html监听页面关闭事件,JS针对浏览器窗口关闭事件的监听方法集锦
- Matlab 非线性规划问题模型代码
- 使用 inline 内联函数对抗逆向分析
- 如何用c语言验证一个定理,验证动量定理方法一
- [jQuery] 你知道自定义事件吗?jQuery里的fire函数是什么意思,什么时候用?
- mysql+msi+asc_mysql之select+五种子句的理解
- 【GitHub】用Bash编写的 Linux 资源监视器
- 修改Tomcat窗口名称
- SpringCache @Cacheable 在同一个类中调用方法,导致缓存不生效的问题及解决办法...
- RESTful Web Services简单介绍
- atitit.TokenService token服务模块的设计
- QImage图片裁剪
- Apache Tomcat7.0 Tomcat7启动不了的解决问题
- 服务器执行MySQL耗时问题解决全过程
- apache ftpserver 被动模式配置
- 小米路由器拨号显示无法连接服务器,小米路由器4连不上网(不能上网)怎么办? | 192路由网...
- 重磅:2019 前端开发者进阶指南.pdf
- CSA标准|《物联网安全规范》(征求意见稿)意见征集
- BIOS+MBR无损转UEFI+GPT(Windows+Manjaro双系统)
热门文章
- 小雨伞java下载安装教程_TinyUmbrella小雨伞怎么用_TinyUmbrella小雨伞下载及使用教程 - 软件教程 - 格子啦...
- 深圳计算机免考申请在哪,深圳自考申请免考要什么条件
- Python运用Xpath爬取故宫壁纸
- 微信投票显示服务器异常,为何微信投票显示账号异常
- Linux基金会的执行董事Jim Zemlin:开源不能没有“信任”
- appcan mysql_AppCan 双击返回按钮退出应用 | 学步园
- pytorch多进程加速及代码优化
- Ubuntu配置静态IP以及interfaces配置不生效问题解决
- 【xposed】虚拟机安装Magisk和LSPoesd
- 就业形势严峻,应届生应该如何做好职业规划?