一、Meta 全新大语言模型 LLaMA 正通过种子公开发放

2 月 24 日,Meta 公司发布了新的大模型系列 —— LLaMA(Large Language Model Meta AI)。Meta 宣称,LLaMA 规模仅为竞争对手 ChatGPT 的“十分之一”,但性能却优于 OpenAI 的 GPT-3 模型。

并且,提到了“通过使用torrent更高效地分发,节省带宽”,github截图:

GitHub 链接:https://github.com/facebookresearch/llama/pull/73/files

对此,下面发表了不同的意见:

二、超越 ChatGPT,LLaMA 强在哪里?

文中指出,这个LLaMA名字的由来?反正Large Language Model Meta Artificial Intelligence缩写为LLMMAI,有点太接近LMAO了。我们可以将 LLMMAI 制作成该主题的各种变体,甚至有相当数量的咒骂。Large Language AI Model 会缩写为 LLAIM,这很有趣——“是的,我们正在使用来自 Facebook 的 LLAIM 基础模型”——显然是威尔士盖尔语,但你可以看到为什么 Meta Platforms 没有使用这些名称它的基础模型。“Large Language As Meta Ascertains”会让 LLAMA 成为现实,但它并不十分成功。这是一个想法:嘿元平台,你实际上可以使用人工智能想出一个更好的名字来打 LLAMA 缩写——不允许小写的“A”,那是作弊——或者更好的是,应用一些好的 ol' 人类智慧,想出一个允许双关式缩写的东西,但仍然很好感觉。

还指出,LLaMA 模型是根据世界上二十种最流行的拉丁语和西里尔字母表语言的文本进行训练的。论文LLaMA:Open and Efficient Foundation Language Models描述了该模型以及它与 GPT、Gopher、Chinchilla 和 PaLM 的比较。后一种模型利用了广泛的公共数据,但也有非公开可用或未记录的文本数据。LLaMA 专门针对公开可用的数据集进行培训,因此与开源兼容——尽管它本身尚未开源。

LLaMA 在某种意义上是对Training Compute-Optimal Large Language Models论文的直接反应,该论文于 2022 年 3 月发表,描述了 Chinchilla 模型及其竞争对手。并且在模型大小、计算预算、令牌数量、训练时间、推理延迟和性能方面进行了对比。

LLaMA 模型已使用 67 亿、130 亿、320 亿和 652 亿个参数进行训练,其中两个较小的参数使用 1 万亿个代币,两个较大的参数使用 1.4 万亿个代币。Meta Platforms 在 2,048 个 Nvidia“Ampere”A100 GPU 加速器和 80 GB HBM2e 内存上使用这 1.4 万亿个令牌测试了最大的 LLaMA-65.2B 模型,并且花费了 21 天(以每个 GPU 每秒 380 个令牌的速度)训练模型。这不是特别快。然而,Meta AI 研究人员表示,LLaMA-13B 模型“在大多数基准测试中都优于 GPT-3,尽管它的体积小了 1`09 倍。” 难点在于:“我们相信该模型将有助于使 LLM 的访问和研究民主化,因为它可以在单个 GPU 上运行。

还有许多性能测试的对比,下面图展示了各种模型在“常识推理”任务上的零样本表现:

Meta Platforms 显示了 LLaMA 在人文、科学、技术和数学、社会科学以及其他领域的多项选择测试中的测试结果。看看这张表:

下面更有趣的是,因为它显示了 LLaMA 在不同参数计数下如何在各种常识推理和问答基准上与 Chinchilla 模型相比较:

如您所见,LLaMA-33B 和 LLaMA-65B 可以与 Chinchilla-70B 抗衡,当代币数量达到 1 万亿甚至更多时超过它。

参考链接:

https://www.nextplatform.com/2023/02/28/move-over-chatgpt-meta-platforms-llama-makes-some-drama/

又一新闻,Meta研发了超越chatGPT的新平台LLAMA相关推荐

  1. pc游戏的未来在linux,新闻|Linux将成为电脑游戏的新平台?

    游戏厂商Valve早在2010年,已经表示过会推出Linux版的Steam平台,只是一直都没有实现.但最近Valve却一反常态,开始招揽Linux人材,务求把Linux打造成游戏平台,原因是Valve ...

  2. ERNIE源码学习与实践:为超越ChatGPT打下技术基础!

    ★★★ 本文源自AlStudio社区精品项目,[点击此处]查看更多精品内容 >>> ERNIE学习与实践:为超越ChatGPT打下技术基础! ERNIE是BERT相爱相杀的好基友,由 ...

  3. 文心ERNIE源码学习与实践:为超越ChatGPT打下技术基础!

    ERNIE学习与实践:为超越ChatGPT打下技术基础! ERNIE是BERT相爱相杀的好基友,由ERNIE发展起来的文心大模型,是GPT3.0的强劲竞争对手,未来还会挑战ChatGPT的江湖地位! ...

  4. 医药研发产业新平台在从化

    医药研发产业新平台在从化 背景与痛点 2000年以来,随着居民生活质量提高以及人口老龄化加剧,中国市场对医药的需求快速增加.根据艾瑞推算,2020年中国医药市场需求将达到2.5万亿元,成为全球最大药物 ...

  5. 《花雕学AI》19:比较ChatGPT与新Bing在文章润色方面的应用优势与测试案例

    引言: 文章润色是指对已经写好的文章进行修改.优化或完善的过程,以提高文章的质量和效果.文章润色涉及到多方面的内容,如语言表达.逻辑结构.文献引用.格式规范等.文章润色对于提升写作水平.提高论文发表率 ...

  6. 智和信通:以自主研发的智和网管平台为基础,实现科研院所网络运维平

    随着科研院所的信息化建设,其自身IT环境日益复杂,自身网络运维难度巨大.同时,科研院所肩负着为相关单位提供技术.项目支撑的重任.在IT运维方面,若科研院所并未做过相关运维平台项目,针对运维平台从头进行 ...

  7. AMAZING PANDAVERSE:META”无国界,来2.0新征程激活时髦属性

    大火的"元宇宙"正站上风口,吸引着越来越多企业.资本的关注和追捧,各行各业对元宇宙的拥抱热情显著,2022年已然成为元宇宙元年.在这条赛道中,出现了一个极为耀眼的项目-- AMAZ ...

  8. 烽火完成高性能、高集成度、更节能、易用性更好的Purley新平台服务器研发

    作为"中国光谷"的核心企业,肩负中国通信产业国家队的重任,烽火正积极探索并加速ICT转型,积极布局互联网.云计算.大数据等新兴信息领域产业,在云应用.云平台领域已处于行业前沿水平. ...

  9. 本周AI热点回顾:和欧阳娜娜一起搞研发?强大的神经网络新算子involution,超越卷积、自注意力机制!...

    ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们 01 我和欧阳娜娜一起搞研发 AI新闻播报,开车明星导航,现如今根据文本生成语音的AI技术,那真是飞入寻常百姓家--见怪不怪了. 在这档口, ...

最新文章

  1. 排序算法时间复杂度分析
  2. android开发 获取相册名称_Android开发之获取相册照片和获取拍照照片
  3. pt-online-schema-change中update触发器的bug
  4. 三星r750美版刷Android,这是才是全面派 三星space monitor详解
  5. ideaspringboot项目上传服务器_nuxt+pm2 自动化部署及打包后文件自动上传阿里云 oss
  6. 信息学奥赛一本通(1164:digit函数)
  7. IoT平台如何实现业务配置中心
  8. 基于JAVA+SpringMVC+Mybatis+MYSQL的少儿网站教育管理系统
  9. 为什么有科学家怀疑太阳系是被设计出来的
  10. Exception的妙用
  11. Bailian2767 简单密码(POJ NOI0107-10)【密码】
  12. 深入研究java.lang.Runtime类,Process类
  13. Java开发 | 数据结构和算法之——递归算法
  14. Qt程序退出QThread: Destroyed while thread is still running问题
  15. php 协成wifi_2016最新协成wifi认证系统二次开发版源码 支持中文ssid 无加密无限制...
  16. u盘格式化了怎样恢复还原
  17. 如何编辑扫描的PDF文件?
  18. MySQL核心技术(持续更新)
  19. Unity 碰撞体 composite
  20. 大数据Hadoop之——总结篇

热门文章

  1. Intent 和 Intent 过滤器
  2. 【Java-Set转List】
  3. geoserver 发布tif影像图层,黑边去除
  4. 网页授权域名需要加html,如何解决微信网页授权回调域名只能设置一个
  5. Mweb markdown CSS预览样式简单修改方法
  6. (转)机器学习系列(7)_机器学习路线图(附资料)
  7. MySQL - 根据生日计算年龄
  8. 快速入门 | 篇十七:运动控制器多轴插补运动指令的使用
  9. android导航栏自动弹出,解决android 显示内容被底部导航栏遮挡的问题
  10. PyCharm三种解释器的区别(virtual Enviroment, system interpreter, conda Enviroment)