文章目录

  • Transformer 中 比较晦涩难懂的东西
    • keras 实现mask
      • encoder部分[对输入进行操作]
      • decoder部分[对注意力矩阵操作]
    • Output的输入
    • ==来自我亲爱的师兄问的问题,让我学到很多很多!!!==
      • transformer参数初始化是怎么样的
      • 普通的归一化
      • LN公式(俗称横向归一化,一个batch中每一行特征作为一组)
      • LN会削弱残差易于训练的效果,也是让梯度消失的“元凶”之一
      • 顺便回顾BN(俗称纵向归一化,一个batch中每一列特征作为一组)
      • dropout放哪里的
      • 位置编码有几种,是什么
      • pre norm 和 post norm 作用有啥区别
      • 注意力机制中的head_size为什么要64,或者说,多少才合适?
      • 为什么要warmup

Transformer 中 比较晦涩难懂的东西

(若文章存在错误,还请读者批评指正、多多包涵)

keras 实现mask

encoder部分[对输入进行操作]

mask = Lambda(lambda x: K.cast(K.greater(K.expand_dims(x, 2), 0), 'float32'))  # 传入[batch, time_step]
# 如果生成的是相加后变得很小而用来减少对softmax影响的可以是这样的mask												

Transformer 中 比较晦涩难懂的东西相关推荐

  1. 「建议观看」史上超长,前端css晦涩难懂的点都在这啦

    前言 CSS大家肯定都是会的但是每个人所撑握的情况都不一样,特别是已经工作几年的前辈很多CSS玩法都不知道,可能他们已经习惯了用组件, 但是面试的时候又不可避免问,所以我整理了下CSS比较晦涩难懂的点 ...

  2. 深入理解transformer中的位置编码

    文章目录 总览 问题1 问题2 问题3 问题4 问题5 问题6 总览 我们今天需要讲解transformer中的位置编码,这其实属于进阶内容.既然你会到这里,我默认你已经看过了transformer的 ...

  3. 改善C++ 程序的150个建议学习之建议8:拒绝晦涩难懂的函数指针

    建议8:拒绝晦涩难懂的函数指针 在C/C++程序中,数据指针是最直接也是最常用的,理解起来也相对简单容易,但是函数指针理解起来却并不轻松.函数指针在运行时的动态调用中应用广泛,是一种常见而有效的手段. ...

  4. Transformer解读之:Transformer 中的 Attention 机制

    encoder 的 attention 场景:现在要训练的内容是 I love my dog -> 我喜欢我的狗 那么在 encoder 端的输入是: I love my dog: 假设经过 e ...

  5. transformer中QKV的通俗理解(渣男与备胎的故事)

    transformer中QKV的通俗理解(渣男与备胎的故事) 用vit的时候读了一下transformer的思想,前几天面试结束之后发现对QKV又有点忘记了, 写一篇文章来记录一下 参考链接: 哔哩哔 ...

  6. 【建议收藏】css晦涩难懂的点都在这啦

    首发原文链接: https://juejin.im/post/6888102016007176200 前言 CSS大家肯定都是会的但是每个人所撑握的情况都不一样,特别是已经工作几年的前辈(这里指的是我 ...

  7. 铂金02:豁然开朗-“晦涩难懂”的ReadWriteLock竟如此妙不可言

    欢迎来到<并发王者课>,本文是该系列文章中的第15篇. 在上篇文章中,我们介绍了Java中锁的基础Lock接口.在本文中,我们将介绍Java中锁的另外一个重要的基本型接口,即ReadWri ...

  8. 并发王者课-铂金2:豁然开朗-“晦涩难懂”的ReadWriteLock竟如此妙不可言

    欢迎来到<并发王者课>,本文是该系列文章中的第15篇. 在上篇文章中,我们介绍了Java中锁的基础Lock接口.在本文中,我们将介绍Java中锁的另外一个重要的基本型接口,即ReadWri ...

  9. jQuery 在Table中选择input之类的东西注意事项

    jQuery 在Table中选择input之类的东西注意事项: 如果不在td标签中,是不能进行正确选择的: <table id="tblFormId"><tr&g ...

最新文章

  1. Microbiome:掠食性粘细菌通过调节土壤微生物群落来控制黄瓜枯萎病
  2. java frame 不显示_win7系统下eclipse不显示JFrame界面的解决方法
  3. FPGA逻辑设计回顾(3)多比特信号上升沿检测的设计方式与陷阱?
  4. python classmethod知识_python基础知识讲解——@classmethod和@staticmethod的作用
  5. Go如何使用session
  6. 路由器漏洞:***展示如何攻陷百万台
  7. 微软面试题目(一) 计算两个日期之间的天数
  8. signature=94f3cd0155e1d8c8ff09aa94177adccd,研擬顆粒流與連體數值耦合方法模擬山崩產生之震動訊號...
  9. 统计学习方法笔记(李航)———第三章(k近邻法)
  10. maven项目部署到Repository(Nexus)
  11. Caffeine 和 Redis 居然可以这么搭,想不到吧!
  12. 会做饭的机器人曰记_做饭机器人作文作文300字
  13. 怎么锁定电脑屏幕_锁定流行趋势,信霆为你盘点3C数码配件中的人气单品
  14. python3 tkinter教程
  15. 联发科Helio X23/27十核发布:性能大提升/优化双摄
  16. 2023最新行业圈子系统小程序/语音房APP/短视频APP/商城APP/相亲APP/开黑陪玩APP
  17. python 爬网站上的图片
  18. 深度学习真的working吗
  19. 戴尔G15-5520蓝屏解决方法
  20. 3.13 小红书笔记怎样带话题,才能增加曝光?【玩赚小红书】

热门文章

  1. [集合源码]——ConcurrentHashMap源码分析
  2. (转)超棒的EXCEL使用技巧
  3. excel切片器_大部分人都不知道Excel切片器还能这么用,建议收藏
  4. 一篇文章告诉你,事件知识图谱核心关键技术有哪些?
  5. 前端人脸识别解决方案
  6. windows oracle out of memory,windows 32位ORA-27102: out of memory错误
  7. python 赋值语句
  8. contains( )方法
  9. linux jfs文件名长度,Linux环境下使用JFS文件系统
  10. CDN进行防御的两大原理