2023/5/29 更新
给 注意力层 和 FFN层 恢复 bias项。可以大幅度缓解潜变量统计量爆炸现象。
在24层模型+softplus4 注意力激活函数 的测试中,从统计量 1800 降低到 100 以内。

2023/5/26 更新
原优化器是 Lion ,学习率 1e-4。
更换到 Adan 优化器后,学习率也是 1e-4,但统计量再也没这么高了,记忆随机序列的统计量最高也是在500以内,自然语言序列的统计量则是在10以内。


只是一个记录

8层12头512维度的 GPT 模型,使用它来记忆 10000 条 512长度 的无序序列,vocab_size 为100。

模型要自回归生成这些序列,不可能依赖局部推理,必须依赖全局视野,即记住前面的序列。

然后统计 最后一个norm层前的 latent 的 均方根值。然后发现,这个值会在训练初期迅速飙升到1e4 - 1e6 的域,非常巨大,如果使用半精度训练,会直接撑爆然后变成nan,只能使用float32值域训练。
一开始,我以为这模型又完蛋了,但后面让他继续训练,发现它居然在缓缓下降,当下降到 1e2 - 1e3 的以内的域时,模型基本记忆正确率已经 90%以上了。

在自然语言序列的训练中,这个值从来没有这么大过,最大也就500以内。

然后检查了这么巨大的值的来源,发现来源有两个,一个是注意力计算的第二个矩阵乘法。
out = v @ a
一个是 注意力计算的最后一个层。
但是神奇的是,这个注意层的各个权重是正常的,即权重的标准差均在1以内。(不过这也是能收敛的基础,权重不正常那基本不可能收敛)
下面的 z_loss 就是潜变量的 均方根

还是老问题,全局能力强的,局部能力就差。局部能力强的,全局能力就差。
写的在全局性能上很好的,在无序序列的模型收敛很快,在自然语言上被普通gpt秒成渣(指验证集分数提升慢,最终分数也差一点)
而普通的gpt模型,在自然语言上效果很好,但在记忆无序序列上,收敛速度极慢。

不知道有什么办法能结合他们优点,搞一个全局性能和局部性能兼优的模型

记录:自回归 模型在记忆 全随机序列 的潜变量 统计量爆炸现象相关推荐

  1. 通过深度学习偏微分方程模型估计剩余使用寿命:使用潜变量的 退化的动力学解释框架/PINN 在发动机寿命预测的应用 文献总结和内容概要

    PINN 在发动机寿命预测的应用 文献总结 内容概要 一.引言 二.物理信息神经网络PINN 三.本文所提出的框架 3.1当前DL-PHM所面临的三个问题 3.2 本文相应的解决方案 3.3 DNN框 ...

  2. R与结构方程模型(2):潜变量

    R与结构方程模型 降维 主成分分析 因子分析(Factor Analysis) 结构和测量模型 因子分析的其他问题 术语 潜变量的其他用途 总结 R包 原文链接:https://m-clark.git ...

  3. 时间序列预测任务的模型选择最全总结

    在第一部分,将了解多种时间序列的模型,如 经典的时间序列模型 监督学习模型 基于深度学习的模型 在第二部分,将建立几个时间序列模型来预测股市的应用案例,并了解一些时间序列建模技术.这些模型将相互比较, ...

  4. 平板就是生产力?东京大学研究者“辟谣”了,用纸笔记录,更有利于记忆

    子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 不少人都有过为「提高学习效率」而购买平板电脑或其他电子设备的经历. 然而在新鲜劲儿过去之后,又直呼"买前生产力,买后只追剧&quo ...

  5. 【模型解读】“全连接”的卷积网络,有什么好?

    [模型解读]"全连接"的卷积网络,有什么好? 这是深度学习模型解读第8篇,本篇我们简单介绍Densenet. 作者&编辑 | 言有三 1 从skip connect到den ...

  6. 数学建模学习记录——数学规划模型

    数学建模学习记录--数学规划模型 一.线性规划问题 MatLab中线性规划的标准型 MatLab中求解线性规划的命令 二.整数线性规划问题 三.非线性规划问题 MatLab中非线性规划的标准型 Mat ...

  7. 路面病害检测-从数据清洗到模型部署的全流程方案

    转自AI Studio,原文链接: 路面病害检测-从数据清洗到模型部署的全流程方案 - 飞桨AI Studio 1. 项目说明 无论是水泥还是沥青路面,在通车使用一段时间之后,都会陆续出现各种损坏.变 ...

  8. 记录一次Monkey测试全流程

    记录一次Monkey测试全流程 1.检查设备连接 ZHR:~ zc$ adb devices List of devices attached JPF4C19123011893 device 2.查看 ...

  9. amos调节变量怎么画_结构方程模型建模思路及Amos操作--调节变量效果确定(一)(满满都是骚操作)...

    2233镇楼~新年第一篇当然是给陪伴吾等死肥宅这么久的B站,新年快乐~新的一年,穷B不买化妆品也要为自己氪大会员...(゜▽゜)つロ po一下天依老婆跨年的歌,烘托新年的气氛[洛天依|周华健]江苏卫视 ...

最新文章

  1. java 非模态_Qt 之 模态、非模态、半模态窗口的介绍及 实现QDialog的exec()方法
  2. [转载]用数据说话 Pytorch详解NLLLoss和CrossEntropyLoss
  3. java -Djava.library.path -Djava.ext.dirs 的区别
  4. JavaScript 如何使用闭包
  5. WebView你真的熟悉吗?看了才知道
  6. python全栈开发中级班全程笔记(第二模块、第四章)(常用模块导入)
  7. 前端学习(2219):react之jsx小案例
  8. 中科院C语言应聘机试编程题6,中科院计算所保研笔试+机试+面试经验分享
  9. MATLAB FOR PROE
  10. hnu 暑期实训之愚人节的礼物
  11. zabbix server下数据库日志报错
  12. 实验楼Python项目
  13. PHP报错 File:E:\\...\index\\controller\\Test.php Line(18) Illegal offset type in isset or empty
  14. 概率算法(随机化算法)
  15. 读取 system serial number
  16. 数据挖掘之航空公司客户价值分析
  17. [数值计算-2]:数值计算算法好坏的判断标准
  18. adb 备份和还原apk应用数据
  19. 斑马打印机 android驱动,斑马ZC300驱动-斑马Zebra ZC300打印机驱动下载 v01.03.00官方版 - 51驱动网...
  20. 【Derivation】采样定理证明

热门文章

  1. Linux下为何8g的内存实际空间只有7g
  2. 20120716(2)
  3. 害死人不偿命的(3n+1)猜想
  4. Houdini-学习之路(一)
  5. 什么是SSD固态硬盘的QLC、SLC、MLC、TLC
  6. 舒适!当PicGo使用Gitee作为图床时
  7. Oracle中的instr()函数 详解及应用
  8. Spring数据脱敏
  9. taobao平台上关键字的API接口接入说明
  10. word2019 2016 ppt - mathtype