一篇非常好的transformer年度总结
作者:Xavier Amatriain
翻译: 炼丹小生(炼丹笔记)
很多人的“记忆”并没那么好,特别是对名字.这些年各种各样的transformer涌现出来,各有各的优势,但是他们的名字却不能直白的看出该版本的transformer到底做了什么.这篇的目的就是把所有流行的transformer进行清晰简单的分类,以便大家对transformer家族快速梳理
简介
Transformer是什么就不用多说了,2017年开始至今引用量将近4w的论文<Attention is All you Need>提出了一个encoder-decoder的模型取代了历年一直用的LSTM或者其他RNN,正如标题所述该论文最重要的就是Attention结构了.Transformer最基础的结构如下所示:
顺便温习一下最"核心"的multi-headed attention结构,该结构"匹配"query和key-value对,并且输出value的权重和,value的权重来自于query和key的attention值.Transformer结构使用了多头机制,并行计算特定的attention值,计算方式采用的是Scaled Dot-Product Attentio,如下图所示:
总结transformer主要由以下几个部分组成:
预训练架构: Encoder-Decoder
预训练任务:
Language Modeling(LM) 预测下个token
Masked Language Modeling(MLM) 完形填空
Permuted Language Modeling(PLM) 对句子做排列
Denoising Autoencoder(DAE): 句子中做随机采样,或者随机删除一些token,又或是打乱句子顺序,目标是恢复之前的输入
Contrastive Learning(CTL): 各种对比学习方法
应用:问答、情感分析、实体识别等.
Catalog table
看不清打开该路径:
https://docs.google.com/spreadsheets/d/1ltyrAB6BL29cOv2fSpNQnnq2vbX8UrHl47d7FkIf6t4/edit#gid=0
Transfromer族谱及时间线
参考文献
1.https://xamat.medium.com/transformers-models-an-introduction-and-catalogue-2022-edition-2d1e9039f376
点个在看 paper不断!
一篇非常好的transformer年度总结相关推荐
- 推荐五篇论文| 轻量级的Transformer; 对比学习;ResNeSt;Shortcut Learning等
本文介绍了最近比较有意思的五篇文章: 轻量级的transformer 监督式的对比学习 shortcur learning ResNeSt Attention模块的分析 Lite Transforme ...
- 图解Transformer-一篇文章看懂transformer
原文标题:The Illustrated Transformer 原文链接:https://jalammar.github.io/illustrated-transformer/ 论文地址:https ...
- 华为BEM·第1篇:从战略方向到年度重点工作
来源:咖啡小宇宙 作者:石头 战略系列的华为方法的初步打通,是今年石头的既定目标:从华为战略方法到战略方法本身,是明年要追求的目标:后年的重点,放在战略认知到战略实践的渗透,哪怕做不到融会贯通,也想在 ...
- 写一篇作为软件测试工程师的年度总结,从以下方面进行描述:本年度的工作概况、个人主要存在的问题及解决措施、收获与心得体会、给团队的建议、下一年的目标与规划。...
这一年来作为一名软件测试工程师,我负责了多个项目的测试工作.在这些项目中,我负责了测试用例的编写.执行和维护,参与了 bug 的提交.修复和验证,并协助团队优化测试流程. 在本年度的工作中,我发现我存 ...
- 优秀!303篇论文获2020年度“优秀博士学位论文”!
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:科奖中心 AI博士笔记系列推荐 周志华<机器学习> ...
- 小学计算机表格制作教学,小学计算机年度教学工作计划表格(四篇).docx
参考范本 小学计算机年度教学工作计划表格(四篇 ) 目录: 小学计算机年度教学工作计划表格一 小学语文教学工作计划报告二 小学语文教学工作计划样本三 小学语文教学工作计划范文四 - 1 - 小学计算机 ...
- 苹果让Transformer抛弃注意力机制,一切只为效率,项目已开源丨华人一作
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2017 ...
- 堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的
视学算法报道 转载自公众号:机器之心 作者:魔王 谷歌研究科学家 David Ha:Transformer 是新的 LSTM. 2017 年 6 月谷歌发布论文<Attention is All ...
- 语音中的 Transformer一文打尽!
写在前面-- 自 2017 年 Transformer 技术出现以来,便在 NLP.CV.语音.生物.化学等领域引起了诸多进展. 知源月旦团队期望通过"Transformer+X" ...
最新文章
- 深度学习“三部曲”重磅资源、python、DL理论、工程实战全覆盖(附免费下载)...
- mac Path had bad ownership/permissions
- 01_AssignmentOperator详细解释
- opencv学习(part1)--OpenCv框架介绍
- python长度多少_用Python求最长子串长度快速版
- ajax入门体会(转)
- 风湿病年鉴 | scRNA-seq研究揭示骨关节炎患者的半月板退变新机制
- html实现登录界面
- 运动控制第一篇之直流电动机建模
- 创业经验谈(转自:ouravr.com)
- 量子计算机旋转硬币,量子行走漫谈
- 禅道、码云、coding、redmine、jira、teambition几大敏捷开发项目管理系统试用对比体验
- iredmail mysql_iRedmail配置手册
- 高校学生档案管理系统(Angularjs+HTML+CSS+bootstrap)
- Command rejected: Bad VLAN list
- 微信公众号主体注册数量提升申请方法
- 北航计算机学院 高小鹏,毕业季 | 以来自学院的深情祝福,定格属于你的最美青春(二)...
- HEVC中低复杂度量化技术
- 模拟动态登录,获取cookie和图片验证码登录(AcFun和豆瓣)
- Pycharm下同一目录的py文件不能相互调用的原因分析