Alibi:Attention With Linear Biases Enables Input Length Extrapolation

  • Introduction
  • Method
  • Result
  • 参考

Introduction

假设一个模型在512token上做训练,在推理的时候,模型在更长的序列上表现叫做模型的外推性。作者表明以前的位置编码如Sin、Rotary、T5 Bias 的外推性都随着推理长度的增加变得越来越差。基于此,坐着的提出了Alibi,如下图:

Alibi与其他位置编码相比,随着推理token长度的增加模型对token的困惑度基本不变。
同时,Ailibi在训练速度与推理速度上都比T5与Rotary要快,与Sin相当,内存占用上也要比前者少11%。

Method

Alibi的方法十分简单,如上图,在计算 attention score的时候,会对以前的分数按照与当前的位置差距进行不同程度的惩罚。假设在计算q3与k3的attention时,q3还会考虑 k1,k2的attention,其中对q3k1就-2,对q3k2就-1。然后在乘上坡度m,其中作者发现m不需要根据不同数据选择不同的值,在使用的时候不变即可,m在不同的head上设置方法如下:

Result

参考

https://arxiv.org/pdf/2108.12409.pdf

Alibi:Attention With Linear Biases Enables Input Length Extrapolation相关推荐

  1. android java.nio.charset.MalformedInputException: Input length = 1

    java.nio.charset.MalformedInputException: Input length = 1 现象 What went wrong: Execution failed for ...

  2. 成功解决pypmml.base.PmmlError: (‘MalformedInputException‘, ‘Input length = 1‘)

    成功解决raise PmmlError(je.getClass().getSimpleName(), je.getMessage())  pypmml.base.PmmlError: ('Malfor ...

  3. JAVA实现AES 解密报错Input length must be multiple of 16 when decrypting with padded cipher

    加密代码 /*** 加密* * @param content 需要加密的内容* @param password 加密密码* @return*/public static byte[] encrypt( ...

  4. javax.crypto.IllegalBlockSizeException: Input length not multiple of 8 bytes

    使用java des加密算法时,出现javax.crypto.IllegalBlockSizeException: Input length not multiple of 8 bytes错误, 必须 ...

  5. AES解密报错,Input length must be multiple of 16 when decrypting with padded cipher

    项目场景:对登录用户名.密码前端加密,后端解密失败 问题描述 在做login登录页面的用户名和密码加密时,前端加密后端解密,但是抛出报错:Input length must be multiple o ...

  6. 【例4-3】利用数组,给定N个正整数数据(N<=100),查找最大值和最小值并输出。【输入输出样例】Input length (N<=100):(此处括号、冒号为英文符号,后面无空格;leng

    [例4-3]利用数组,给定N个正整数数据(N<=100),查找最大值和最小值并输出. [输入输出样例] Input length (N<=100):(此处括号.冒号为英文符号,后面无空格: ...

  7. AES加密/解密报错,Input length must be multiple of 16 when decrypting with padded cipher

    背景:需要存储一个类似密钥的字符串,密文存储,并要求能逆向解密出来. 问题描述:使用AES对该字符串进行加密后生成byte数组,使用new String()方法转为字符串后存储到数据库. 从数据库中取 ...

  8. java.nio.charset.MalformedInputException: Input length = 2

    问题: 项目在idea中编译运行没有问题,数据能入库.但是当java项目打包成jar包,运行该jar包后 下图蓝色的代码行报错: java.nio.charset.MalformedInputExce ...

  9. 解决AppCrawler自定义配置后报:java.nio.charset.MalformedInputException: Input length = 1的解决方法

    解决方案: 自动生成demo.yml文件后,使用sublime打开,我这边默认是是gbk打开的,左下角如图: 所以更改文件格式,文件-设置文件编码-utf8 即可正常运行文件: java -jar a ...

最新文章

  1. C/C++中inline/static inline/extern inline的区别及使用
  2. web前端培训之Javascript如何改变数组的长度?
  3. [转]搞ACM的你伤不起(转自Roba大神)
  4. 图论复习usaco2006jan gold分离的路径
  5. 一个Portal处理流程
  6. zoj 2709 Lottery 组合数,概率,贪心 (8-F)
  7. Windows核心编程 第十四章 虚拟内存
  8. 【算法】双指针算法 ( 有效回文串 II )
  9. Py之requests:python的requests包的简介、安装、使用方法详细攻略
  10. Python Django HttpResponse响应json数据
  11. 负margin在布局中的运用(*****************************************************************)...
  12. SQL Server数据库持续集成简介
  13. sublime Text3下sass环境配置(windows)
  14. Hbase启动hbase shell运行命令报Class path contains multiple SLF4J bindings.错误
  15. 中标麒麟系统安装步骤
  16. 利用jquery制作出网页对话框的效果
  17. hen Content must be served over https解决方案
  18. 搜索引擎的查找算法实现
  19. 模拟频率f、模拟角频率Ω 、数字频率ω之间的关系
  20. GHOST重装系统详解

热门文章

  1. ubuntu下Xshell传输文件
  2. 20190306 开发安卓,手机开发者模式连接
  3. Linux Xshell Putty中常用的命令(积累,更新中)
  4. 服务器下查看tensorboard结果(Xshell的隧道法)
  5. java打包exe方案(自动携带jre)
  6. 理论七:为何说要多用组合少用继承?如何决定该用组合还是继承?
  7. 深入理解java虚拟机 第7章 虚拟机类加载机制
  8. 属牛起名字不能用的字启萌星
  9. 【整理】Dword、LPSTR、LPWSTR、LPCSTR、LPCWSTR、LPTSTR、LPCTSTR
  10. 技巧分享:如何去视频水印?