Transformer architecture的解释
Go Forth And Transform
I hope you’ve found this a useful place to start to break the ice with the major concepts of the Transformer. If you want to go deeper, I’d suggest these next steps:
- Read the Attention Is All You Need paper, the Transformer blog post (Transformer: A Novel Neural Network Architecture for Language Understanding), and the Tensor2Tensor announcement.
- Watch Łukasz Kaiser’s talk walking through the model and its details
- Play with the Jupyter Notebook provided as part of the Tensor2Tensor repo
- Explore the Tensor2Tensor repo.
Follow-up works:
- Depthwise Separable Convolutions for Neural Machine Translation
- One Model To Learn Them All
- Discrete Autoencoders for Sequence Models
- Generating Wikipedia by Summarizing Long Sequences
- Image Transformer
- Training Tips for the Transformer Model
- Self-Attention with Relative Position Representations
- Fast Decoding in Sequence Models using Discrete Latent Variables
- Adafactor: Adaptive Learning Rates with Sublinear Memory Cost
Acknowledgements
Thanks to Illia Polosukhin, Jakob Uszkoreit, Llion Jones , Lukasz Kaiser, Niki Parmar, and Noam Shazeer for providing feedback on earlier versions of this post.
Please hit me up on Twitter for any corrections or feedback.
转载自:http://jalammar.github.io/illustrated-transformer/
Transformer architecture的解释相关推荐
- UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation
UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation UTNet:一种用于医学图像分割的混合transform ...
- 【论文笔记】TransFG: A Transformer Architecture for Fine-Grained Recognition
TransFG 简介 与基于CNN的模型在细粒度任务上的对比 disadvantages of CNN advantage of Transformer 整体结构 改进点 1.overlapping ...
- 论文解读TransFG: A Transformer Architecture for Fine-grained Recognition
此篇文章是transformer在细粒度领域的应用. 问题:Transformer还未应用在图像细分类领域中 贡献点:1.vision transformer的输入把图像切分成patch,但是是没有o ...
- 论文笔记33 -- (细粒度识别)【CVPR2021】TransFG: A Transformer Architecture for Fine-grained Recognition
Transformer在细粒度领域的应用 论文:点这里 代码:点这里 Ju He,Jie-Neng Chen,Shuai Liu,Adam Kortylewski,Cheng Yang,Yutong ...
- 追溯XLNet的前世今生:从Transformer到XLNet
作者丨李格映 来源 | 转载自CSDN博客 导读:2019 年 6 月,CMU 与谷歌大脑提出全新 XLNet,基于 BERT 的优缺点,XLNet 提出一种泛化自回归预训练方法,在 20 个任务上超 ...
- 《Deep Learning With Python second edition》英文版读书笔记:第十一章DL for text: NLP、Transformer、Seq2Seq
文章目录 第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...
- DL:深度学习算法(神经网络模型集合)概览之《THE NEURAL NETWORK ZOO》的中文解释和感悟(六)
DL:深度学习算法(神经网络模型集合)概览之<THE NEURAL NETWORK ZOO>的中文解释和感悟(六) 目录 DRN DNC NTM CN KN AN 相关文章 DL:深度学习 ...
- 自然语言处理模型:bert 结构原理解析——attention+transformer(翻译自:Deconstructing BERT)
原文:Deconstructing BERT: Distilling 6 Patterns from 100 Million Parameters 关于transformer 和attention的机 ...
- LeViT: aVision Transformer in ConvNet‘s Clothing for Fast in
摘要 我们设计了一系列图像分类架构,可以在高速模式下优化精度和效率之间的平衡.我们的工作利用了基于注意力的体系结构的最新发现,这种体系结构在高度并行处理硬件上具有竞争力.我们重温了大量文献中关于卷积神 ...
最新文章
- 毫米波雷达基本技术与应用
- python — 列表与元组
- 【mysql处理远程登陆授权及数据库迁移备份问题】
- html一级子元素,获取子元素_html/css_WEB-ITnose
- 2017《面向对象程序设计》课程作业五
- MYSQL临时表,大数据查询优化
- 【FPGA】FPGA程序的固化和下载(sd卡)
- SpringBoot项目resources下指定目录的所有文件下载到Centos服务器上,浏览器访问API后资源包直接下载本地磁盘,Java删除linux文件,zip文件打包
- [Java][详解]使用jintellitype实现键盘全局监听
- 华为matebook X 笔记本没开什么程序,有时经常慢卡
- 2019年8月7日暑假训练
- svg上传服务器无法显示,让WordPress支持上传SVG格式图片并显示在媒体库中的方法...
- 最通俗易懂的理解什么是数据库
- 什么是光时域反射仪,OTDR的工作原理是什么
- H5游戏定制开发要点全解析
- torch.contiguous()函数用法
- Verilog HDL基础知识
- C语言之对char*与char[]的理解
- ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器
- 基于ESP8266与51单片机的震动报警器(车辆报警器)(简单向)
热门文章
- Python 的类其实是一个特殊的对象
- python中对list去重的多种方法
- Django中自定义实现RESTful API
- 电大2007计算机机考专科试题,中央电大2007-2008学年度第一学期期末考试计算机网络专业计算机网络试题2008年1月...
- mysql数据库前端缓存_MySQL数据库性能优化--缓存参数优化
- C语言socket bind()函数(为socket套接字关联了一个相应的地址与端口号)
- Couldn‘t connect to session bus: Did not receive a reply. Possible causes include: the remote applic
- JavaScript中匿名函数的作用和用法
- Java DelayQueue延迟队列的使用和源码分析
- nstall.php a data,通过Typecho install.php 后门理解PHP对象注入 - 嘶吼 RoarTalk – 回归最本质的信息安全,互联网安全新媒体,4hou.com...