原文来源:arxiv

作者:Jeremy Howard、Sebastian Ruder

「雷克世界」编译:嗯~是阿童木呀

可以这样说,迁移学习已经促使计算机视觉领域发生了具有革命性的变化,但对于自然语言处理(NLP)中的现有方法来说,仍然需要从零开始对其进行针对于特定任务的修改和训练。我们提出了微调语言模型(Fine-tuned Language Models,FitLaM),这是一种有效的迁移学习方法,可以应用于NLP中的任何任务,并且引入一些关键技术以对现有最先进的语言模型进行微调。我们的方法在五个文本分类任务上的性能表现要明显优于现有最先进的技术,在大多数数据集上的实施中能够将误差减少18-24%。我们对我们的预训练模型和代码进行了开源设置,以便社区采用,使该方法具有更为广泛的应用。

迁移学习对于计算机视觉(CV)的发展起着很大的作用。应用型CV模型(包括目标检测、分类和分割)很少是从零开始进行训练的,而是对已经在ImageNet、MS-COCO和其他数据集上进行预训练的模型进行细微调整得到的(Sharif Razavian等人于2014年、Long等人于2015年、He等人于2016年、Huang等人于2017年提出)。

文本分类是一类常见的自然语言处理(NLP)任务,它涉及许多诸如垃圾邮件、欺诈和机器人检测、应急响应和商业文件分类(如法律发现)等重要的实际应用。

文本分类中的数据集和任务

尽管深度学习模型已经在诸多自然语言处理任务上达到了当前最先进的技术水平,但这些模型都是从零开始进行训练的,这需要大量的数据集,而且需要若干天的时间才能达到收敛状态。对于利用迁移学习的自然语言处理任务来说,这已经处于算机视觉领域中较为落后的状态了。对预训练的词嵌入进行微调,是一个简单的迁移学习技术,它只针对模型的第一层,已经在实践中产生了超乎想象的影响力,并在大多数当前最为先进的模型中进行使用。考虑到对模型进行预训练的好处,我们应该能够比随机初始化模型其余参数这一举措做得更好。

当前常用的方法是将来自诸如语言建模或机器翻译等其他任务的嵌入与不同层的输入连接在一起。然而,这些方法存在着这样一个问题,它们仍然是从零开始对主要的任务模型进行训练,并将预训练的嵌入作为固定参数进行处理,从而限制了它们的实用性。

在两种文本分类数据集上进行测试,所取得的精确度得分情况

可以这样说,一个成功的NLP迁移学习技术应该能够达到与其计算机视觉技术相对应的类似标准:a)该方法应该能够充分利用大量的可用数据;b)它应该利用一个可以独立进行优化的任务,从而进一步实现下游的改进;c)它应该依赖于一个可以应用于大多数NLP任务的单一模型;d)在实践中应该很容易进行使用。

在三个文本分类数据集上进行测试,所达到的误差率(%)情况

我们提出将微调语言模型(FitLaM)作为NLP的一种有效的迁移学习形式,它完全满足上述标准。我们方法使用的是语言建模,这是一项几乎具有无限数据量的任务,并且能够推动当前最先进技术取得最新进展。它通过预训练,能够将大量的外部数据以及域内数据进行集成。

FitLaM依赖于一个简单的循环神经网络(RNN),而不需要对其进行任何的修改。我们只需要使用一个或多个针对于特定任务的线性层对模型进行扩充,相较于现有的方法来说,它只需要考虑少量的参数。我们提出了一种新的微调技术,即判别式微调(discriminative fine-tuning),它对较低层进行微调以调到一个相较于较高层较低的程度,从而保留通过语言建模所获得的知识。我们还介绍了一些技术,这些技术示微调能够取得较好性能和进行更快训练的关键所在。

我们在五个经过广泛研究,具有不同大小和类型的文本分类任务中对我们的迁移学习方法进行了评估,实验结果表明,相较于以往高度针对于特定任务的研究和当前最先进的方法来说,我们方法的性能表现具有显著的优越性。

我们所取得的成就大致如下所示:

1.我们归纳总结了CV和NLP中迁移学习的相似之处,并为NLP中有效的迁移学习方法提供了相关的依据。

2.我们提出了微调语言模型(FitLaM),这种方法对于NLP的任何任务来说,可以用以实现类似于CV中那样的迁移学习方法。

3.我们提出使用判别式微调以保留以往的知识,并避免在微调过程中产生严重的遗忘。

4.我们引入了一种用于文本分类的基于时间的反向传播(Back-Propagation Through Time,BPT3C),这是一种新的方法,通过线性层将分类器的损失反向传播到任何序列大小的RNN输出中。

5.我们引入了一些技术,它们是对预训练语言模型进行微调的关键所在。

6.我们在五个代表性的文本分类数据集上的性能表现要明显优于现有的文本分类方法,其中,在大多数数据集的误差减少了18-24%。

7.我们开源了我们的预训练模型以及相关代码,从而希望能够实现更为广泛的应用。

我们提出了一种适用于NLP任务的有效迁移学习方法——FitLaM,以及一种称之为判别式微调的方法,这种有效的微调方法可以对不同层进行不同程度的调整,以避免过程中的灾难性遗忘。我们已经引入了于文本分类的基于时间的反向传播(BPT3C),这种方法能够将分类器的损失反向传播到任何序列大小的RNN输出中,除此之外,我们还引入了若干起着关键作用的好方法,从而能够实现较好的微调性能表现和更快速地进行训练。实验结果表明,我们的方法要明显优于现有的迁移学习技术,以及用于五个具有代表性的文本分类任务的最新技术。总的来说,我们已经证明了用于NLP的迁移学习的优势所在,并希望我们的研究结果将能够促进用于NLP的迁移学习能够取得更好的新进展。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

Fast.ai推出NLP最新迁移学习方法「微调语言模型」,可将误差减少超过20%!相关推荐

  1. python 怎么得到图像深度图 软件_如何用 Python 和 fast.ai 做图像深度迁移学习?...

    本文带你认识一个优秀的新深度学习框架,了解深度学习中最重要的3件事. 框架 看到这个题目,你可能会疑惑:老师,你不是讲过如何用深度学习做图像分类了吗?迁移学习好像也讲过了啊! 说得对!我要感谢你对我专 ...

  2. DeepMind最新研究:如何将「大语言模型」 训练到最优?

    来源:AI科技评论   作者:维克多 Transformer的提出距离我们已经有5年的时间,随着模型规模的不断增长,性能提升也逐渐出现边际效益递减的情况.如何训练出最优性能的大模型? 最近,DeepM ...

  3. 鸿蒙手机发布失败,华为:没有推出鸿蒙手机计划,「自拍」会让人觉得你孤独和失败...

    大家好,今天是 8 月 23 日,科技圈未雨绸缪.先计后战的一天.以下是今天的科技大新闻,听听有什么新鲜大事吧. 华为:没有推出鸿蒙手机的计划 外媒的报道,华为虽然大力宣传 Harmony OS 的强 ...

  4. Jina AI 受邀出席 WAIC 2023「科技无障碍」论坛,与行业专家共话 AI 普惠未来

    7 月 6 日,2023 世界人工智能大会(WAIC)在上海世博中心及世博展览馆开幕,并在浦东张江.徐汇西岸设分会场,同步在闵行等产业集聚区开展同期活动.本届大会由上海市人民政府和国家发改委.工信部. ...

  5. BTC闪崩闪跳:什么「交易策略」能让交易员减少资金损失?

    从2018-19年的漫长熊市.到2020年的「黑色星期四」,加密货币行业经历过一次又一次的挫折和挑战,但每一次都能浴火重生,每一次都能达到新的高度.虽然比特币经常「闪跳闪崩」,但越来越多的人认识到,在 ...

  6. 锁死AI基础研究的两个「智子」是什么?

    作者 | 青暮.维克多 编辑 | 王亚峰 不像20世纪初飘在物理学上空的两朵乌云,如今AI面对的两个困境似乎更加飘渺无踪. 在小说<三体>中,当物理学家杨冬得知地球基础科学是被" ...

  7. AI预测30秒内火灾「轰燃」,准确率92.1%,未来或可帮助拯救消防员生命

    来源:大数据文摘 本文约1800字,建议阅读5分钟本文结合扫了最新研究通过AI预测30S内火灾的轰燃,准确率高达92.1%. 这段时间天气巨热,天干物燥,也是火灾高发的时候. 近期就接连发生了一些火灾 ...

  8. 华为AI再进化,CANN 3.0释放「算力狂魔」

    2020-08-14 14:41:45 [新智元导读]如今,AI已经进入了全面落地的阶段,但未来想要让AI真正像水和电一样无处不在,还面临着巨大的鸿沟.为了解决算力成本高.模型开发效率低的问题,华为专 ...

  9. 我所知道的中国NLP「破圈」十年

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,我们已经习惯了全球各类顶级学术会议上的中国力量. 从论文入选,到参会面孔,抑或赞助企业,中国代表几乎无处不在. 前不久刚落幕的ACL ...

最新文章

  1. 今晚8点直播 | 双11的背后除了阿里还有顺丰,智慧物流是如何利用深度学习赋能的?...
  2. jetty9 web app的部署
  3. hibernate(七) hibernate中查询方式详解
  4. libevent中事件的添加与删除
  5. 约瑟夫环之循环链表实现
  6. android tabhost黑色背景,android更改FragmentTabHost背景和文本颜色
  7. USTC 2011 homework list [现代软件工程 作业]
  8. php 多态有什么用,php面向对象多态的介绍与优势
  9. 暴露的全局方法_Dubbo源码解析实战 - 服务暴露原理
  10. angularjs html压缩,Angularjs 依赖压缩及自定义过滤器写法
  11. Python time和datetime模块
  12. Spring源码分析
  13. 【windows10】对系统盘瘦身
  14. 对封装继承多态的理解
  15. 【Protobuf】pb跨语言传输文件签名验证
  16. 北京专精特新企业申报攻略
  17. Hexo写博客时的图片问题
  18. 从COD着陆页设计优化谈起
  19. 2020-11-24--源赖氏佐天
  20. 安全行业从业人员自研开源扫描器合集

热门文章

  1. 8800个机器学习开源项目为你精选TOP30!
  2. 手把手教你搭建AI开发环境 !(附代码、下载地址)
  3. Leetcode: 112. Path Sum
  4. 软硬兼施极限轻量BERT!能比ALBERT再轻13倍?!
  5. 2022互联网大厂薪资大比拼
  6. 达摩院浙大上海人工智能实验室推出洛犀平台:大小模型端云协同进化
  7. 刚刚引来985大学建校区,这座城市再牵手世界名校办学!
  8. 字节跳动:年前再招1万人!员工总数将突破10万
  9. 谷歌 NAS + 目标检测:SpineNet论文详解
  10. 【炫酷秀】仅用4行代码再现《黑客帝国》数字雨,可立即在终端实现!