Go Forth And Transform

I hope you’ve found this a useful place to start to break the ice with the major concepts of the Transformer. If you want to go deeper, I’d suggest these next steps:

  • Read the Attention Is All You Need paper, the Transformer blog post (Transformer: A Novel Neural Network Architecture for Language Understanding), and the Tensor2Tensor announcement.
  • Watch Łukasz Kaiser’s talk walking through the model and its details
  • Play with the Jupyter Notebook provided as part of the Tensor2Tensor repo
  • Explore the Tensor2Tensor repo.

Follow-up works:

  • Depthwise Separable Convolutions for Neural Machine Translation
  • One Model To Learn Them All
  • Discrete Autoencoders for Sequence Models
  • Generating Wikipedia by Summarizing Long Sequences
  • Image Transformer
  • Training Tips for the Transformer Model
  • Self-Attention with Relative Position Representations
  • Fast Decoding in Sequence Models using Discrete Latent Variables
  • Adafactor: Adaptive Learning Rates with Sublinear Memory Cost

Acknowledgements

Thanks to Illia Polosukhin, Jakob Uszkoreit, Llion Jones , Lukasz Kaiser, Niki Parmar, and Noam Shazeer for providing feedback on earlier versions of this post.

Please hit me up on Twitter for any corrections or feedback.

转载自:http://jalammar.github.io/illustrated-transformer/

Transformer architecture的解释相关推荐

  1. UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation

    UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation UTNet:一种用于医学图像分割的混合transform ...

  2. 【论文笔记】TransFG: A Transformer Architecture for Fine-Grained Recognition

    TransFG 简介 与基于CNN的模型在细粒度任务上的对比 disadvantages of CNN advantage of Transformer 整体结构 改进点 1.overlapping ...

  3. 论文解读TransFG: A Transformer Architecture for Fine-grained Recognition

    此篇文章是transformer在细粒度领域的应用. 问题:Transformer还未应用在图像细分类领域中 贡献点:1.vision transformer的输入把图像切分成patch,但是是没有o ...

  4. 论文笔记33 -- (细粒度识别)【CVPR2021】TransFG: A Transformer Architecture for Fine-grained Recognition

    Transformer在细粒度领域的应用 论文:点这里 代码:点这里 Ju He,Jie-Neng Chen,Shuai Liu,Adam Kortylewski,Cheng Yang,Yutong ...

  5. 追溯XLNet的前世今生:从Transformer到XLNet

    作者丨李格映 来源 | 转载自CSDN博客 导读:2019 年 6 月,CMU 与谷歌大脑提出全新 XLNet,基于 BERT 的优缺点,XLNet 提出一种泛化自回归预训练方法,在 20 个任务上超 ...

  6. 《Deep Learning With Python second edition》英文版读书笔记:第十一章DL for text: NLP、Transformer、Seq2Seq

    文章目录 第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...

  7. DL:深度学习算法(神经网络模型集合)概览之《THE NEURAL NETWORK ZOO》的中文解释和感悟(六)

    DL:深度学习算法(神经网络模型集合)概览之<THE NEURAL NETWORK ZOO>的中文解释和感悟(六) 目录 DRN DNC NTM CN KN AN 相关文章 DL:深度学习 ...

  8. 自然语言处理模型:bert 结构原理解析——attention+transformer(翻译自:Deconstructing BERT)

    原文:Deconstructing BERT: Distilling 6 Patterns from 100 Million Parameters 关于transformer 和attention的机 ...

  9. LeViT: aVision Transformer in ConvNet‘s Clothing for Fast in

    摘要 我们设计了一系列图像分类架构,可以在高速模式下优化精度和效率之间的平衡.我们的工作利用了基于注意力的体系结构的最新发现,这种体系结构在高度并行处理硬件上具有竞争力.我们重温了大量文献中关于卷积神 ...

最新文章

  1. 毫米波雷达基本技术与应用
  2. python — 列表与元组
  3. 【mysql处理远程登陆授权及数据库迁移备份问题】
  4. html一级子元素,获取子元素_html/css_WEB-ITnose
  5. 2017《面向对象程序设计》课程作业五
  6. MYSQL临时表,大数据查询优化
  7. 【FPGA】FPGA程序的固化和下载(sd卡)
  8. SpringBoot项目resources下指定目录的所有文件下载到Centos服务器上,浏览器访问API后资源包直接下载本地磁盘,Java删除linux文件,zip文件打包
  9. [Java][详解]使用jintellitype实现键盘全局监听
  10. 华为matebook X 笔记本没开什么程序,有时经常慢卡
  11. 2019年8月7日暑假训练
  12. svg上传服务器无法显示,让WordPress支持上传SVG格式图片并显示在媒体库中的方法...
  13. 最通俗易懂的理解什么是数据库
  14. 什么是光时域反射仪,OTDR的工作原理是什么
  15. H5游戏定制开发要点全解析
  16. torch.contiguous()函数用法
  17. Verilog HDL基础知识
  18. C语言之对char*与char[]的理解
  19. ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器
  20. 基于ESP8266与51单片机的震动报警器(车辆报警器)(简单向)

热门文章

  1. Python 的类其实是一个特殊的对象
  2. python中对list去重的多种方法
  3. Django中自定义实现RESTful API
  4. 电大2007计算机机考专科试题,中央电大2007-2008学年度第一学期期末考试计算机网络专业计算机网络试题2008年1月...
  5. mysql数据库前端缓存_MySQL数据库性能优化--缓存参数优化
  6. C语言socket bind()函数(为socket套接字关联了一个相应的地址与端口号)
  7. Couldn‘t connect to session bus: Did not receive a reply. Possible causes include: the remote applic
  8. JavaScript中匿名函数的作用和用法
  9. Java DelayQueue延迟队列的使用和源码分析
  10. nstall.php a data,通过Typecho install.php 后门理解PHP对象注入 - 嘶吼 RoarTalk – 回归最本质的信息安全,互联网安全新媒体,4hou.com...