虽然现有的大部分工作都集中在单语prompt上,但研究了多语言PLM的多语言prompt,尤其是在zero-shot setting下。为了减轻为多种语言设计不同prompt的工作量,我们提出了一种新的模型,该模型对所有语言使用统一的提示,称为UniPrompt。与离散prompt和soft-prompt不同,UniPrompt是基于模型的而与语言无关的。具体来说,UniPrompt由多语言PLM初始化,以生成独立于语言的表示,然后与文本输入融合在推理过程中,可以预先计算prompt,这样就不需要额外的计算成本。为了配合统一prompt,我们提出了一种新的目标标签词初始化方法,以进一步提高模型跨语言的可移植性。大量的实验表明,我们提出的方法在不同语言中的性能明显优于baseline。

UniPrompt基于模型,与语言无关。它由一个以英语prompt为输入的多语言PLM初始化,并通过多语言PLM的可转移性产生与语言无关的representation。在推理过程中,可以预先计算prompt,这样就不会引入额外的计算成本。通过这种方式,我们可以减轻不同语言的prompt engineering的影响,同时保留PLMs的能力。为了更好结合统一提示,我们提出了一种新的标签词初始化方法,而不是使用PLM中的语言模型头。这进一步提高了模型跨语言的可移植性。

1. UniPrompt

对于templete, use two independent encoder towers, template towercontext tower模板塔用于编码prompt的模板,而上下文塔用于原始文本输入。两个塔都由多语言PLM的底层初始化。然后,将模板和上下文的表示连接起来,作为fusion tower的输入。fusion tower由多语言PLM的顶层初始化。研究发现,预训练语言模型的较低层次与语言迁移有关,而较高层次与实际语义有关,因此,它可以摆脱模板对特定的语种的依赖,但也保留了prompt的能力,以激活PLM的潜在知识

由于prompt tower的输出可以在推理之前预先计算,因此该模型不会在推理阶段引入额外的参数或计算成本。对于标签词,我们使用人工标记,因此它与语言无关。与这些工作不同,我们提出了一种新的标签词初始化方法。具体来说,我们最小化了label words和sentence embeddings之间的距离,微调前的句子嵌入。这是通过简单平均sentence embeddings作为同一类别的label words。这样,标签词不仅有一个良好的起点,而且与语言无关。

2. Two-tower Prompt Encoder

跨语言prompt,如果直接使用词汇表中现有的tokens,则会偏向于某些特定的语言,因此在这个任务中设计模板的第一个目标是:模板不能依赖于任何特定的语言,实现这一目标的一个直观想法是使用soft-prompt,这是与特定语言无关的人工标记。然而:i)由于在few-shot场景中数据量很少,因此无法充分训练;ii)未在pretrain阶段出现。因此,可能无法由prompt激活PLMs的潜在知识。鉴于,对于软提示的问题,可以得出设计模板的第二个目标:最小化预训练和提示调整之间的差距。

对于soft-prompt的问题,可以得出设计templete的第二个目标:最小化pre-training 和 prompt-tuning之间的差距

为了实现这些目标,我们现在描述我们对prompt进行建模的方法,称为two-tower prompt encoder。根据之前的工作,PLMs的底层对特定语言标记/语法相关的信息进行编码,而顶层对语义信息进行建模。因此,我们将PLM编码器的底部1-p层建立two independent encoder towers,分别对模板和上下文进行编码。在形式上,我们可以将其定义为

然后,我们concatenate the outputs of the two enocders 作为fusion tower的初始化输入

在multilingual PLM帮助下, the template tower 帮助template在languages上更好的迁移.

3. Initialization of Soft Label Words

对于label words,我们使用真实tokens,由于针对于特定的语言任务,因此采用soft label words,即人工标记,以实现语言独立。为了进一步减少soft label words的预训练和微调之间的差距,提出了一种新的标签词初始化方法

如果将输出投影矩阵视为label words的word embedding,则微调的目标是最小化encoder输出和相应label word embedding的距离。因此,如果label word embeddings已经接近编码器输出,这将是模型的良好起点,尤其是在少数镜头设置中。

基于此,我们建议计算所有训练样本的encoder outputs,根据它们的labels对它们进行分组,然后对每组中的所有编码器输出进行简单平均,以初始化标签词

注意到对于few shot learning,预计算encoder outputs的计算成本很小。这样,在不改变PLM主体的情况下,我们只使输出层适应下游任务。换句话说,这些模型将对下游任务具有良好的优先级,同时保留来自PLM的知识。我们为每个label i构造soft-label Li,并根据label将训练样本分组到Ci中。然后,我们将训练示例与相应的模板连接起来,以计算编码器输出。我们取每组编码器输出中[mask]表示h(c,m)的平均值来初始化label word。label word Li的embedding可以定义为

Avg means average pooling, Ci is the set containing the training cases with label i.

http://www.taodudu.cc/news/show-6340807.html

相关文章:

  • OCI指南—OCIStmtExecute()函数
  • 函数getopt(),及其参数optind
  • OpenRisc-OptiMSoC
  • 【trajectory optimization】1 intro
  • integrationobjects点com all OPC Crack
  • linux实现数据完整性检查工具 tripwire
  • Linux文件系统保护最佳实践:Tripwire
  • C语言打开QQ
  • 电脑无法打开计算机的策略对象,win10系统提示“无法打开此计算机上的组策略对象”的解决方法...
  • Python镜像安装vim
  • ubuntu18.04安装vim
  • CentOS 安装Vim 编辑器
  • 证明完全立方数模9同余_牡丹江2立方玻璃钢蓄水池报价
  • 用户行为分析面面观(之二)-----特征2:流动性
  • JVM分析调优指标
  • JVM问题分析调优经验
  • 5招教你如何做用户行为分析
  • 最近在做的用户留存分析,和几种方法。
  • 每天一道算法练习题--Day25 第一章 --算法专题 --- ----------蓄水池抽样
  • 单片机c语言中p1asf,基于51单片机的蓄水池自动控制系统 毕业设计.doc
  • 从蓄水池算法到大数据算法一般性的一点看法
  • 蓄水池问题c语言编程,基于51单片机的蓄水池自动控制系统(35页)-原创力文档...
  • 动态图连通性总结
  • 静态顺序表和动态顺序表区别的优缺点比较
  • Java动态连接
  • 动态软件体系结构
  • Java语言的动态性-invokedynamic
  • 国密算法:利用python进行sm3 hash算法,计算hash值,国密算法库gmssl的使用
  • 网络安全之蜜罐是什么?有哪些不同的类型?
  • 【信息安全】-蜜罐

Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt相关推荐

  1. 飞浆AI studio人工智能课程学习(2)-Prompt优化思路|十个技巧高效优化Prompt|迭代法|Trick法|通用法|工具辅助

    文章目录 优化思路 上节课的例子 问题分析 思路解析 Prompt优化技巧 Prompt优化原理 十个技巧高效优化Prompt 迭代法 Trick法 工具法 通用技巧│定基础 通用技巧│做强调 需求强 ...

  2. Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人

    Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting.Self-Consistency等:项目实战搭建知识库内容机器人 1. ...

  3. 论文笔记 NAACL findings 2022|Zero-Shot Event Detection Based on Ordered Contrastive Learning and Prompt-

    文章目录 1 简介 1.1 动机 1.2 创新 2 方法 2.1 Contrastive sample generator 2.2 Event encoder 2.3 Ordered contrast ...

  4. A new deep transfer learning network based on convolutional auto-encoder for mechanical fault diagno

    基于卷积自编码器的机械故障诊断深度迁移学习网络 摘要 CAE去噪 不同噪声下准确率比较 各模型得到的T-SNE映射 三级目录 摘要 深度学习在旋转机械故障智能诊断方面取得了很大的成就.但在实际工程中, ...

  5. 万能Prompt句式拆解,人人都是Prompt 工程师

    正文共 1318字,阅读大约需要 5 分钟 内容特辑,介绍单一技能的同时今天我们添加一个Prompt造句模板,学会这个,你会成为一个优秀的Prompt Engineer ~ 快去学习.收藏.下载资料包 ...

  6. Prompt learning系列之入门篇

    提纲 1 简介 2 NLP发展的四个阶段 3 Prompt learning 4 Prompt engineering 5 Answer engineering 6 Multi-prompt lear ...

  7. NLP千亿预训练模型的“第四范式”之Prompt Learning介绍分享

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 论文转载自知乎专栏:ai炼丹师 作者:避暑山庄梁朝伟 一.背景 随着GPT-3诞生,最 ...

  8. NLP的“第四范式”之Prompt Learning总结:44篇论文逐一梳理

    作者 | 杨浩 @阿里达摩院 研究方向 | 自然语言处理 整理 | Paperweekly 背景 随着 GPT-3 诞生,最大的版本多达 1750 亿参数,是 BERT-BASE 的一千多倍.事实上 ...

  9. seed+transformer+finetune+图文融合+VLP+Prompt Learning整合

    1.Seed 在神经网络中,参数默认是进行随机初始化的.不同的初始化参数往往会导致不同的结果,如果不设置的话每次训练时的初始化都是随机的,导致结果不确定.当得到比较好的结果时我们通常希望这个结果是可以 ...

最新文章

  1. AI大厂算法测试心得:人脸识别关键性能指标有哪些?
  2. php 大牛生小牛,C#算法之关于大牛生小牛的问题
  3. 使用IDEA界面或者命令行进行git cherry-pick
  4. Docker用Dockerfile定制镜像
  5. 分子排列不同会导致_刘珏文: DNA寡核苷酸的冷冻定向拉伸和排列
  6. Java Stream:第2部分,计数始终是计数吗?
  7. HTML中制作循环广告条,一种循环展示广告的广告箱的制作方法
  8. HTML+CSS制作3D步数统计界面
  9. 2017蓝桥杯B组:最长公共子序列(动态规划详解(配图))
  10. 2010.11.03_ximo_过VMP加壳程序的自效验(vmp 2.06)
  11. KL距离(Kullback-Leibler Divergence)
  12. windows下搭建voip服务器
  13. 简述计算机键盘上shift键的作用,shift键的作用是什么
  14. mysql通过Navcat 备份数据.psc 还原数据时 只有表没有数据解决方法
  15. 冰狐智能辅助入门教程
  16. ptp输出内容包含什么_04-PTP命令
  17. RAC-OCR,VIP,VOTEING DISK
  18. python后端常见架构_常见的后端框架
  19. Vue exports is not defined 问题解决(@svgdotjs/svg.js)
  20. 刚刚大学毕业,自己搭网站遇到的问题 一:tomcat中同时部署两个项目的问题

热门文章

  1. java记事本编程工作原理_Java文件(io)编程之记事本开发详解
  2. 82天公众号破万的感悟 - 走心篇
  3. Lucene学习总结
  4. Bursuite暴力破解实践
  5. linux下的IDE--codelite
  6. 华住证券损失通知书:Rosen Law Firm宣布针对华住酒店集团提起证券集体诉讼和参加集体诉讼的重要截止日期
  7. python数据分析库pandas-三、: python数据分析处理库-Pandas
  8. python并发测试脚本语言_python并发测试脚本
  9. POST,PUT和PATCH的区别
  10. 2019 年第 13 周 DApp 影响力排行榜 | TokenInsight