来自:ChallengeHub

进NLP群—>加入NLP交流群

1

LLama

  • [GPT3] 使用RMSNorm(即Root Mean square Layer Normalization)对输入数据进行标准化,RMSNorm可以参考论文:Root mean square layer normalization。

  • [PaLM]使用激活函数SwiGLU, 该函数可以参考PALM论文:Glu variants improve transformer。

  • [GPTNeo]使用Rotary Embeddings进行位置编码,该编码可以参考论文 Roformer: Enhanced transformer with rotary position embedding。

  • 使用了AdamW优化器,并使用cosine learning rate schedule,

  • 使用因果多头注意的有效实现来减少内存使用和运行时间。该实现可在xformers

2

Palm

  • 采用SwiGLU激活函数:用于 MLP 中间激活,采用SwiGLU激活函数:用于 MLP 中间激活,因为与标准 ReLU、GELU 或 Swish 激活相比,《GLU Variants Improve Transformer》论文里提到:SwiGLU 已被证明可以显著提高模型效果

  • 提出Parallel Layers:每个 Transformer 结构中的“并行”公式:与 GPT-J-6B 中一样,使用的是标准“序列化”公式。并行公式使大规模训练速度提高了大约 15%。消融实验显示在 8B 参数量下模型效果下降很小,但在 62B 参数量下没有模型效果下降的现象。

  • Multi-Query Attention:每个头共享键/值的映射,即“key”和“value”被投影到 [1, h],但“query”仍被投影到形状 [k, h],这种操作对模型质量和训练速度没有影响,但在自回归解码时间上有效节省了成本。

  • 使用RoPE embeddings:使用的不是绝对或相对位置嵌入,而是RoPE,是因为 RoPE 嵌入在长文本上具有更好的性能 ,

  • 采用Shared Input-Output Embeddings:输入和输出embedding矩阵是共享的,这个我理解类似于word2vec的输入W和输出W':

3

GLM

  • Layer Normalization的顺序和残差连接被重新排列,

  • 用于输出标记预测的单个线性层;

  • ReLU s替换为GELU s

  • 二维位置编码

4

BLOOM

  • 使用 ALiBi 位置嵌入,它根据键和查询的距离直接衰减注意力分数。与原始的 Transformer 和 Rotary 嵌入相比,它可以带来更流畅的训练和更好的下游性能。ALiBi不会在词嵌入中添加位置嵌入;相反,它会使用与其距离成比例的惩罚来偏向查询键的注意力评分。

  • Embedding Layer Norm 在第一个嵌入层之后立即使用,以避免训练不稳定。

  • 使用了 25 万个标记的词汇表。使用字节级 BPE。这样,标记化永远不会产生未知标记

  • 两个全连接层:

5

GPT

GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention,如下图所示:


进NLP群—>加入NLP交流群

LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比相关推荐

  1. 【LLM大模型】模型和指令微调方法

    note Hugging Face 的 PEFT是一个库(LoRA 是其支持的技术之一,除此之外还有Prefix Tuning.P-Tuning.Prompt Tuning),可以让你使用各种基于 T ...

  2. [大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

    文章目录 LLaMA大模型及其衍生模型 1. LLaMA 2. stanford_alpaca 3. ChatDoctor 4. alpaca-lora 5. Chinese-LLaMA-Alpaca ...

  3. 【自然语言处理】【大模型】PaLM:基于Pathways的大语言模型

    PaLM:基于Pathways的大语言模型 <PaLM: Scaling Language Modeling with Pathways> 论文地址:https://arxiv.org/p ...

  4. Meta最新模型LLaMA细节与代码详解

    Meta最新模型LLaMA细节与代码详解 0. 简介 1. 项目环境依赖 2. 模型细节 2.1 RMS Pre-Norm 2.2 SwiGLU激活函数 2.3 RoPE旋转位置编码 3. 代码解读 ...

  5. LLM大模型中文开源数据集集锦(三)

    文章目录 1 ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调 1.1 数据集 1.2 ChatGLM+P-tuning V2微调 1.3 Llama + Alpaca的Lora微调 ...

  6. 【自然语言处理】【大模型】大语言模型BLOOM推理工具测试

    相关博客 [深度学习][分布式训练]DeepSpeed:AllReduce与ZeRO-DP [自然语言处理][大模型]BLOOM模型结构源码解析(单机版) [自然语言处理][大模型]极低资源微调大模型 ...

  7. NLP之GPT-3:NLP领域没有最强,只有更强的模型—GPT-3的简介(本质、核心思想、意义、特点、优缺点、数据集、实际价值,模型强弱体现,开源探讨,GPT系列对比与总结)、安装、使用方法之详细攻略

    NLP之GPT-3:NLP领域没有最强,只有更强的模型-GPT-3的简介(本质.核心思想.意义.特点.优缺点.数据集.实际价值,模型强弱体现,开源探讨,GPT系列对比与总结).安装.使用方法之详细攻略 ...

  8. LangChain+LLM大模型问答能力搭建与思考

    1. 背景 最近,大模型(LLMs,Large Language Models)可谓是NLP领域,甚至整个科技领域最火热的技术了.凑巧的是,我本人恰好就是NLP算法工程师,面临着被LLMs浪潮淘汰的窘 ...

  9. 又一个国内类ChatGPT模型?【秘塔科技上线自研LLM大模型「对话写作猫」】

    又一个国内类ChatGPT模型?[秘塔科技上线自研LLM大模型「对话写作猫」] (马上被打脸 ~ ~) 一直期待中国有没有类ChatGPT产品可以出现. 昨天,2023年2月27日,秘塔科技上线了自研 ...

最新文章

  1. 51单片机好学嘛?学完51单片机学什么?
  2. 【GAN】GAN 也可以大幅压缩,来自MIT 韩松团队的最新研究!算力消耗不到1/9,现已开源!...
  3. 分析了 600 多种烘焙配方,机器学习开发出新品
  4. MongoDB.Update
  5. HDU(1856),裸的带权并查集
  6. 解决微信小程序 picker 模式日期,设置默认当前时间
  7. 使用FLANN进行特征点匹配
  8. 《大话数据结构》第9章 排序 9.5 直接插入排序
  9. 背压加载文件– RxJava常见问题解答
  10. 数据质量才是数据分析的关键
  11. 通过TCP/IP实现PC(客户端)远程控制开发板(服务器)上LED灯的实验
  12. mongodb下载安装和基本操作
  13. 手机连接360免费WIFI一直显示正在获取IP地址、无法连接的解决方法
  14. java web 下载文件 浏览器弹出下载框
  15. 虚拟机远程连接USB SERVER
  16. AcWing 4489. 最长子序列
  17. 千锋重庆Java基础之Java拼图游戏的代码
  18. MC最强辅助模组,有了它从此下矿再也不怕了
  19. 线性回归统计指标 SSE、MSE、RMSE、MAE、R-square
  20. tps协议和onvif协议_onvif协议是什么

热门文章

  1. saspython知乎_python 被神化了么?
  2. 配置iOS证书 (2) -- 配置P12文件
  3. python+selenium自动化测试框架详解,我就讲一遍
  4. 【忏悔的博客】2020普及组三校联考(西附)
  5. Go并发编程(1)-Mutex源码实现
  6. matlab 绘制一分钟k线图,超短线分钟,1分钟k线图最佳买卖点
  7. cygwinrsync_cygwin使用笔记
  8. 小海燕少年合唱团 我和我的祖国 伴奏 原版立体声伴奏
  9. 电脑中毒,所有exe文件打不开的处理方法
  10. 移动互联网最贴心 易信用户隔空晒思念