卷友们好,我是rumor。

又出新SOTA了。

每个新SOTA,都意味着下一位要卷得更辛苦、调得更猛烈一些。

而这个SOTA还出在我一直关注的文本表示赛道。

这次谷歌用了T5,把STS的平均分从82.52提到了83.34

题目:Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models
地址:https://arxiv.org/abs/2108.08877

模型结构

乍一看题目还是蛮期待的,用T5做文本表示,会不会玩出什么花来?不过读了之后有些略微调低期望,这篇文章提出了三种从T5拿文本表示的方法:

  1. 直接拿encoder输出的第一个token表示,类似CLS,但由于T5在训练时就没有CLS,实验下来效果不好就去掉了

  2. 直接拿encoder输出的mean pooling,实验下来发现这个最好,不精调的时候也比BERT的好很多,作者分析是T5更多的训练数据+预训练时加了下游任务

  3. 拿decoder的第一个输出,直接用不太好,但精调后还可以,作者分析是这个相当于加了attention pooling

有监督Loss

精调时采用了双塔结构,比以往不同的是多加了一层投影和L2-Norm。

在精调时参考了对比学习的NT-Xent loss,但输入的都是有监督数据(不用对比学习的数据增强了,直接输入有标注的正负样本)。

同时提出了tow-stage的精调:先用网上挖掘的20亿弱监督QA对精调,再用NLI精调(entailment=1,contradict=0)。

实验结果

除了在STS上对比之外,还在SentEval上进行了实验(给表示加一个分类器,测试embedding迁移到下游任务的效果):

最终加了其他数据的Sentence-T5以不到1个点的微弱优势登上SOTA。

同时作者验证了尺寸越大效果越好:

总结

看得出来我这篇文章写得不是很快乐,主要是感觉新意比较有限,懒穷的我可能也不会去挖20亿的数据,也没有卡去跑更大的模型。

不过!还是有几点启发可以分享一下:

  1. 作者加了Proj&Norm层但是没有做消融实验,这个对效果究竟有多少影响呢?

  2. 作者在对比loss上的temperature=100,之前无监督对比学习的T都很小,这是为什么呢?

  3. 最近一直在想prompt learning怎么用来做文本表示,而T5天生就契合prompt,既然作者证实了decoder精调后是可以用的,那是不是。。。


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑黄海广老师《机器学习课程》课件合集
本站qq群851320808,加入微信群请扫码:

【NLP】Sentence-T5|谷歌提出文本表示新SOTA相关推荐

  1. seq2seq模型_推断速度达seq2seq模型的100倍,谷歌开源文本生成新方法LaserTagger

    使用 seq2seq 模型解决文本生成任务伴随着一些重大缺陷,谷歌研究人员提出新型文本生成方法 LaserTagger,旨在解决这些缺陷,提高文本生成的速度和效率. 选自arXiv,作者:Eric M ...

  2. 推断速度达seq2seq模型的100倍,谷歌开源文本生成新方法LaserTagger

    选自arXiv 作者:Eric Malmi等 机器之心编译 序列到序列(seq2seq)模型给机器翻译领域带来了巨大变革,并成为多种文本生成任务的首选工具,如文本摘要.句子融合和语法纠错.模型架构改进 ...

  3. 谷歌开源文本生成新方法 LaserTagger,直击 seq2seq 效率低、推理慢、控制差三大缺陷!

    目前,在序列到序列( seq2seq )的自然语言生成任务中,主流预训练模型仍然面临一些重大缺陷,例如:生成输出与输入文本之间长度匹配问题.需要大量训练数据才能实现较高性能.推断速度慢等. 因此,Go ...

  4. 超越SimCSE两个多点,Prompt+对比学习的文本表示新SOTA

    可能是因为对比学习,今年以来文本表示方向突然就卷起来了,SOTA刷的嗖嗖的,我还停留在我们ConSERT的阶段,结果别人不精调就已经超了. 昨天实习同学发了我几篇Open Review上ACL的投稿, ...

  5. Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度

    作者 | Google 译者 | 刘畅 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) [导语]目前,深度卷积(Depthwise convolution)在追求高性能的卷积 ...

  6. 谷歌提出新分类损失函数:将噪声对训练结果影响降到最低

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 训练数据集里的标签通常不会都是正确的,比如图像分类,如果有人错误地把猫标记成狗,将会对训练结果造成不良的影响. 如何在不改变训练样本的情况 ...

  7. 谷歌提出 RNN 版 Transformer,或为长文本建模的当前最优解

    文 | 小轶 今天给大家介绍一篇谷歌的最新工作,解决的是 Transformer 的长文本处理问题.在原生 Transformer 中,attention 的复杂度是输入序列长度的平方级别,因此限制了 ...

  8. 谷歌提出「卷积+注意力」新模型,超越ResNet最强变体!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI Tran ...

  9. YOTO来了!你只需训练一次,谷歌大脑提出调参新trick

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转载自|极市平台 整理 | CVer 在许多深度学习问题中,损失 ...

最新文章

  1. Facebook面经全披露,我是怎么拿到机器学习工程师offer的?
  2. 使用ffmpeg从mp4文件中提取视频流到h264文件中
  3. delphi中,idftp怎样查找ftp服务器的是否存在一个文件,delphi – IDFTP DirExists和MakeDir...
  4. CF-241 E.Flights(差分约束)
  5. display:inline-block的深入理解 转
  6. Python_多项式拟合
  7. redis 集群环境部署
  8. 信安精品课:2020年软考信息安全工程师备考公开课
  9. smarty模板基础知识
  10. 关于直播视频平台与监控视频平台技术架构方案
  11. mysql问题排查_mysql问题排查
  12. android banner的比例,Android_首页Banner的封装
  13. VTD的官方help翻译-ROD部分(10~15章)
  14. php留言板系统制作,php制作留言板讲解
  15. python爬12306余票_Python 爬取12306火车票
  16. 大数据项目实战——电信业务大数据分析系统
  17. 【ROSE】1. Rational Rose简介
  18. 2022年全球打鼾解决方案行业分析报告
  19. python批量识别二维码图片_python批量操作生成二维码
  20. 五级流水线CPU的实现与改进

热门文章

  1. tomcat服务器访问网址组成
  2. javascript基础(第二天)
  3. iis 重新安装后 重新注册asp.net
  4. 安卓学习之--如何关闭所有的activity
  5. 深入理解JVM类加载机制
  6. 从0开始学Swift笔记整理(一)
  7. 获取表单提交的数据getParameter()方法
  8. 一根Express Route同时支持ARM和ASM的VNET
  9. Win32 SDK 编写截图小工具
  10. WP7上Metro风格的程序栏图标汇总