Alibi:Attention With Linear Biases Enables Input Length Extrapolation
Alibi:Attention With Linear Biases Enables Input Length Extrapolation
- Introduction
- Method
- Result
- 参考
Introduction
假设一个模型在512token上做训练,在推理的时候,模型在更长的序列上表现叫做模型的外推性。作者表明以前的位置编码如Sin、Rotary、T5 Bias 的外推性都随着推理长度的增加变得越来越差。基于此,坐着的提出了Alibi,如下图:
Alibi与其他位置编码相比,随着推理token长度的增加模型对token的困惑度基本不变。
同时,Ailibi在训练速度与推理速度上都比T5与Rotary要快,与Sin相当,内存占用上也要比前者少11%。
Method
Alibi的方法十分简单,如上图,在计算 attention score的时候,会对以前的分数按照与当前的位置差距进行不同程度的惩罚。假设在计算q3与k3的attention时,q3还会考虑 k1,k2的attention,其中对q3k1就-2,对q3k2就-1。然后在乘上坡度m,其中作者发现m不需要根据不同数据选择不同的值,在使用的时候不变即可,m在不同的head上设置方法如下:
Result
参考
https://arxiv.org/pdf/2108.12409.pdf
Alibi:Attention With Linear Biases Enables Input Length Extrapolation相关推荐
- android java.nio.charset.MalformedInputException: Input length = 1
java.nio.charset.MalformedInputException: Input length = 1 现象 What went wrong: Execution failed for ...
- 成功解决pypmml.base.PmmlError: (‘MalformedInputException‘, ‘Input length = 1‘)
成功解决raise PmmlError(je.getClass().getSimpleName(), je.getMessage()) pypmml.base.PmmlError: ('Malfor ...
- JAVA实现AES 解密报错Input length must be multiple of 16 when decrypting with padded cipher
加密代码 /*** 加密* * @param content 需要加密的内容* @param password 加密密码* @return*/public static byte[] encrypt( ...
- javax.crypto.IllegalBlockSizeException: Input length not multiple of 8 bytes
使用java des加密算法时,出现javax.crypto.IllegalBlockSizeException: Input length not multiple of 8 bytes错误, 必须 ...
- AES解密报错,Input length must be multiple of 16 when decrypting with padded cipher
项目场景:对登录用户名.密码前端加密,后端解密失败 问题描述 在做login登录页面的用户名和密码加密时,前端加密后端解密,但是抛出报错:Input length must be multiple o ...
- 【例4-3】利用数组,给定N个正整数数据(N<=100),查找最大值和最小值并输出。【输入输出样例】Input length (N<=100):(此处括号、冒号为英文符号,后面无空格;leng
[例4-3]利用数组,给定N个正整数数据(N<=100),查找最大值和最小值并输出. [输入输出样例] Input length (N<=100):(此处括号.冒号为英文符号,后面无空格: ...
- AES加密/解密报错,Input length must be multiple of 16 when decrypting with padded cipher
背景:需要存储一个类似密钥的字符串,密文存储,并要求能逆向解密出来. 问题描述:使用AES对该字符串进行加密后生成byte数组,使用new String()方法转为字符串后存储到数据库. 从数据库中取 ...
- java.nio.charset.MalformedInputException: Input length = 2
问题: 项目在idea中编译运行没有问题,数据能入库.但是当java项目打包成jar包,运行该jar包后 下图蓝色的代码行报错: java.nio.charset.MalformedInputExce ...
- 解决AppCrawler自定义配置后报:java.nio.charset.MalformedInputException: Input length = 1的解决方法
解决方案: 自动生成demo.yml文件后,使用sublime打开,我这边默认是是gbk打开的,左下角如图: 所以更改文件格式,文件-设置文件编码-utf8 即可正常运行文件: java -jar a ...
最新文章
- C/C++中inline/static inline/extern inline的区别及使用
- web前端培训之Javascript如何改变数组的长度?
- [转]搞ACM的你伤不起(转自Roba大神)
- 图论复习usaco2006jan gold分离的路径
- 一个Portal处理流程
- zoj 2709 Lottery 组合数,概率,贪心 (8-F)
- Windows核心编程 第十四章 虚拟内存
- 【算法】双指针算法 ( 有效回文串 II )
- Py之requests:python的requests包的简介、安装、使用方法详细攻略
- Python Django HttpResponse响应json数据
- 负margin在布局中的运用(*****************************************************************)...
- SQL Server数据库持续集成简介
- sublime Text3下sass环境配置(windows)
- Hbase启动hbase shell运行命令报Class path contains multiple SLF4J bindings.错误
- 中标麒麟系统安装步骤
- 利用jquery制作出网页对话框的效果
- hen Content must be served over https解决方案
- 搜索引擎的查找算法实现
- 模拟频率f、模拟角频率Ω 、数字频率ω之间的关系
- GHOST重装系统详解