作者:Xavier Amatriain

翻译: 炼丹小生(炼丹笔记)

很多人的“记忆”并没那么好,特别是对名字.这些年各种各样的transformer涌现出来,各有各的优势,但是他们的名字却不能直白的看出该版本的transformer到底做了什么.这篇的目的就是把所有流行的transformer进行清晰简单的分类,以便大家对transformer家族快速梳理

简介

Transformer是什么就不用多说了,2017年开始至今引用量将近4w的论文<Attention is All you Need>提出了一个encoder-decoder的模型取代了历年一直用的LSTM或者其他RNN,正如标题所述该论文最重要的就是Attention结构了.Transformer最基础的结构如下所示:

顺便温习一下最"核心"的multi-headed attention结构,该结构"匹配"query和key-value对,并且输出value的权重和,value的权重来自于query和key的attention值.Transformer结构使用了多头机制,并行计算特定的attention值,计算方式采用的是Scaled Dot-Product Attentio,如下图所示:

总结transformer主要由以下几个部分组成:

预训练架构: Encoder-Decoder

预训练任务: 

  • Language Modeling(LM) 预测下个token

  • Masked Language Modeling(MLM) 完形填空

  • Permuted Language Modeling(PLM) 对句子做排列

  • Denoising Autoencoder(DAE): 句子中做随机采样,或者随机删除一些token,又或是打乱句子顺序,目标是恢复之前的输入

  • Contrastive Learning(CTL): 各种对比学习方法

应用:问答、情感分析、实体识别等.

Catalog table

看不清打开该路径:

https://docs.google.com/spreadsheets/d/1ltyrAB6BL29cOv2fSpNQnnq2vbX8UrHl47d7FkIf6t4/edit#gid=0

Transfromer族谱及时间线

参考文献

1.https://xamat.medium.com/transformers-models-an-introduction-and-catalogue-2022-edition-2d1e9039f376

点个在看 paper不断!

一篇非常好的transformer年度总结相关推荐

  1. 推荐五篇论文| 轻量级的Transformer; 对比学习;ResNeSt;Shortcut Learning等

    本文介绍了最近比较有意思的五篇文章: 轻量级的transformer 监督式的对比学习 shortcur learning ResNeSt Attention模块的分析 Lite Transforme ...

  2. 图解Transformer-一篇文章看懂transformer

    原文标题:The Illustrated Transformer 原文链接:https://jalammar.github.io/illustrated-transformer/ 论文地址:https ...

  3. 华为BEM·第1篇:从战略方向到年度重点工作

    来源:咖啡小宇宙 作者:石头 战略系列的华为方法的初步打通,是今年石头的既定目标:从华为战略方法到战略方法本身,是明年要追求的目标:后年的重点,放在战略认知到战略实践的渗透,哪怕做不到融会贯通,也想在 ...

  4. 写一篇作为软件测试工程师的年度总结,从以下方面进行描述:本年度的工作概况、个人主要存在的问题及解决措施、收获与心得体会、给团队的建议、下一年的目标与规划。...

    这一年来作为一名软件测试工程师,我负责了多个项目的测试工作.在这些项目中,我负责了测试用例的编写.执行和维护,参与了 bug 的提交.修复和验证,并协助团队优化测试流程. 在本年度的工作中,我发现我存 ...

  5. 优秀!303篇论文获2020年度“优秀博士学位论文”!

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:科奖中心 AI博士笔记系列推荐 周志华<机器学习> ...

  6. 小学计算机表格制作教学,小学计算机年度教学工作计划表格(四篇).docx

    参考范本 小学计算机年度教学工作计划表格(四篇 ) 目录: 小学计算机年度教学工作计划表格一 小学语文教学工作计划报告二 小学语文教学工作计划样本三 小学语文教学工作计划范文四 - 1 - 小学计算机 ...

  7. 苹果让Transformer抛弃注意力机制,一切只为效率,项目已开源丨华人一作

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2017 ...

  8. 堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的

    视学算法报道 转载自公众号:机器之心 作者:魔王 谷歌研究科学家 David Ha:Transformer 是新的 LSTM. 2017 年 6 月谷歌发布论文<Attention is All ...

  9. 语音中的 Transformer一文打尽!

    写在前面-- 自 2017 年 Transformer 技术出现以来,便在 NLP.CV.语音.生物.化学等领域引起了诸多进展. 知源月旦团队期望通过"Transformer+X" ...

最新文章

  1. 深度学习“三部曲”重磅资源、python、DL理论、工程实战全覆盖(附免费下载)...
  2. mac Path had bad ownership/permissions
  3. 01_AssignmentOperator详细解释
  4. opencv学习(part1)--OpenCv框架介绍
  5. python长度多少_用Python求最长子串长度快速版
  6. ajax入门体会(转)
  7. 风湿病年鉴 | scRNA-seq研究揭示骨关节炎患者的半月板退变新机制
  8. html实现登录界面
  9. 运动控制第一篇之直流电动机建模
  10. 创业经验谈(转自:ouravr.com)
  11. 量子计算机旋转硬币,量子行走漫谈
  12. 禅道、码云、coding、redmine、jira、teambition几大敏捷开发项目管理系统试用对比体验
  13. iredmail mysql_iRedmail配置手册
  14. 高校学生档案管理系统(Angularjs+HTML+CSS+bootstrap)
  15. Command rejected: Bad VLAN list
  16. 微信公众号主体注册数量提升申请方法
  17. 北航计算机学院 高小鹏,毕业季 | 以来自学院的深情祝福,定格属于你的最美青春(二)...
  18. HEVC中低复杂度量化技术
  19. 模拟动态登录,获取cookie和图片验证码登录(AcFun和豆瓣)
  20. Pycharm下同一目录的py文件不能相互调用的原因分析

热门文章

  1. 项目中WebService使用Spring容器的配置
  2. 浅浅认识之VBS脚本访问接口与COMODO拦截COM接口
  3. vs2008 常用快捷键
  4. 前后端分离的探索(五)
  5. 策略模式(Strategy)
  6. SIFT 特征检测及匹配
  7. Sobel 边缘实现
  8. 连华为都在研究的计算机视觉,到底有多牛?
  9. 关于Python 3.9,那些你不知道的事
  10. 一次对语音技术的彻底批判