几个月前以ChatGPT为首的内容生成式AI就已经火得不能再火了,然而,随着本周GPT-4和文心一言的发布,AI在国内外又“火上加火”了一次。

2023年3月14日,OpenAI发布了大型的多模态模型GPT-4。“GPT-4比以往任何版本更具创造性和协作性”,并且“有更广泛的常识和解决问题的能力,可以更准确地解决难题”。OpenAI的CEO山姆·阿尔特曼说:“这是我们迄今为止功能最强大的模型。”为了证明GPT-4的强大能力,演示者直接在纸上画了一个潦草的网页示意图,拍照发给GPT,并要求其按照这个布局写网页代码。几乎只需要数秒钟的时间,相应的代码就完成了生成。发布会还展示了一个GPT-4的使用场景,把程序运行出错的信息甚至错误信息截图提交给GPT-4,仅凭这部分图片信息,GPT-4都能自动查出错误。

2023年3月16日,百度发布了最新的大语言模型AI产品文心一言。首席技术官王海峰介绍,文心一言是新一代知识增强大语言模型,是在ERNIE及PLATO系列模型的基础上研发的。它使用有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强六个模块来增强模型能力。其深度学习平台主要分为核心框架、基础模型库、端到端开发套件、工具与组件四个部分。文心语言大模型的基础层分为NLP大模型、CV大模型、跨模态大模型、生物计算大模型。但可惜的是,发布会上并没有现场演示环节,大众也不能直接使用该产品。

文心一言的发布会固然很多地方准备的还不完善,但确实是形势所迫。很多观点都认为,我们当前正处于一个AI爆发的前夜,无论是个人还是企业,似乎没有跟上这波AI浪潮就会被时代的步伐甩在身后。而很多硬件、云服务等产业链相关人士也急于了解AI这股浪潮,但却被复杂的技术术语、层出不穷的行业应用看花了双眼。在面对海量且无时无刻不在update的信息时,光凭人类大脑当然不能有AI那般的信息吸收和处理效率。如何能抽丝剥茧形成认知框架,辨别有用的信息,真正形成自己的洞见和判断是最重要的。

在笔者看来,这次的AI浪潮和之前的围棋对战、图像识别一样,都是底层模型出现了创新,与现实生活产生交集,引发广泛社会反应。这次的大语言模型与现实生活的交集是直接的一对一对话,人们体验感更强,引发的反响更加强烈。因此,想看清AI爆火背后的机会,真正形成自己的洞见和判断,最好的方法就是先牢牢抓住本次AI浪潮的核心:大语言模型。

大语言模型领域内的名词术语很多,看分析文字时,各概念间的逻辑关系也容易混淆。NLP领域在2013年主要采用的还是深度学习模型,其中的关键技术主要有二,一是大量的改进LSTM模型以及少量改进CNN模型为典型的特征抽取器,二是以encoder-decoder+Attention作为具体典型的总体技术框架。当时的主要目标是如何有效增加模型层或模型参数容量,也就是怎么在encoder decoder不断叠加更深的LSTM或CNN层。但之所以没有再延续,是因为具体任务的训练数据量有限和LSTM/CNN特征抽取器吸收和表达知识能力有限。2020年Transformer模型问世后,便逐步渗透到了NLP领域的方方面面。

Transformer问世后,让深度学习模型可以“自由吸收”数据中的知识。大语言模型突破了参数和算力限制,从此语言模型也进入参数越多,数据越大,模型效果越好的时代。Transformer分为两派:GPT和Bert。Bert模型和GPT模型都是预训练模型。预训练模型会预先接受海量的文本语料进行学习。学习的成果以模型参数的形式沉淀。模型参数的沉淀会对预训练模型关于词性、句法等方面的理解能力进行改进。简单来说,GPT,就是在一个超大语料基础上预训练出的大语言模型(LLM),采用从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。在GPT2的时代,Bert表现更好,但是GPT通过“自然语言生成任务”,兼容了几乎所有NLP问题,等到GPT3发布后,迅速占据了“江湖老大”的位置。

打一个通俗易懂的比方,如果把整个AI行业比作一座写字楼的话,各个面向最终用户的具体应用就是一个个摆放不同设备的房间,面向不同行业的AI能力与各场景的训练数据集就是大楼的水电消防系统与基础装修,底层的模型就是盖楼用的原材料。原材料在短时间经历了多次升级,由粘土(机器学习)到砖石(深度学习)到普通混凝土(Transformer)到钢筋混凝土(GPT),目前已经能把写字楼盖到几十层了。建高楼的需求旺盛,必然会带动背后的搅拌机、起重机等土木行业的兴起,这部分对应的就是AI基建层的硬件、云服务。

随着ChatGPT这种大语言模型的训练数据和参数量呈指数增长,这些操作需要更多的计算资源和存储资源,这是导致大语言模型成本增加在原因。首先,是作为训练输入的训练样本,样本的数据量是非常庞大的,尤其是Midjourney这种需要图片训练的AI,需要PB级的样本数据。其次,是作为训练输出结果的参数模型:考虑到过去5年中模型参数呈指数增长,下一代大语言模型很可能是万亿参数模型,快速增长的模型需要足够的空间来存储。这么多存储空间从哪来?目前主流的解决方法是硬件存储阵列或分布式存储。传统硬件存储阵列可以保障每个逻辑卷的低延迟和高可用性,但存在水平可伸缩性差、成本高、可能形成许多“孤立的数据岛”的问题,从而使存储成本高,存储资源利用率低。一些传统分布式存储看起来可以解决上述问题,但通常部署复杂,且难以保证性能和稳定性。这个时候,就需要存储资源盘活系统(Storage Resource Reutilization System,SRRS)。

存储资源盘活系统是一个ZIP包。它可以轻松地安装在装有Linux操作系统的任何品牌、配置的物理服务器、裸金属服务器、虚拟机甚至容器实例上,向上层提供块存储服务。存储资源盘活系统与硬件驱动完全解耦,且支持硬件异构。存储资源盘活系统允许集群中的每个Linux操作系统实例具有不同的硬件配置,例如不同的CPU数量、不同的内存大小、不同的本地硬盘驱动器容量等。存储资源盘活系统会充分利用用户的全部资源来提供最好的性能,帮助用户进一步提高现有硬件资源的利用率。这对于硬件更新换代频率很快的AI领域来说是好消息:再也不用担心被淘汰的设备闲置了。

存储资源盘活系统作为一组用户态进程来运行,不依赖于任何特定版本的Linux内核或Linux发行版,不依赖或修改操作系统环境,不垄断整个硬盘驱动器,不干扰任何其他进程的执行。因此,存储资源盘活系统可以在同一个Linux操作系统实例中与其他应用程序并发运行,在不影响整体功耗的情况下大大提高了硬件利用率,也在一定程度上缓解了AI机房“耗电高”的痛点。存储资源盘活系统是高性能的。存储资源盘活系统采用分布式双控制器架构,像传统硬件存储阵列一样提供低延迟和高可用性,像传统分布式存储一样提供高可扩展性和高吞吐量。它可以轻松从3台服务器扩展到数千台服务器,并逐个从数千台服务器减少到3台服务器,上述过程中不会出现服务不可用的情况。对于AI行业中训练样本、模型参数的指数级增长,存储资源盘活系统可以自如应对。

iPhone作为开启了移动互联网的划时代产品,最大的成功之处在于它让手机成为了人类器官,并且让互联网从桌面走到了身边;其次,在于它出现的时机契合了硬件和软件技术的发展。以iPhone作类比,以GPT为首的大语言模型是调用算力和数据的终极方式,AGI(通用人工智能,也是OpenAI的终极愿景)允许AI从有限任务变成几乎能取代或协助人类的所有思考任务。可能这也是黄仁勋(NVIDIA创始人兼CEO)所说的,This is the iPhone moment of AI。面对AI的iPhone moment,我们需要更多SRRS这种基础建设来适配将来快速增长的算力与存储需求。

深度解析内容生成式AI背后的大语言模型,探寻智能浪潮下的存储机遇相关推荐

  1. 深度解析黑白棋AI代码原理(蒙特卡洛搜索树MCTS+Roxanne策略)

    深度解析黑白棋AI代码原理(蒙特卡洛搜索树MCTS+Roxanne策略) 文章目录 深度解析黑白棋AI代码原理(蒙特卡洛搜索树MCTS+Roxanne策略) 黑白棋规则 传统黑白棋策略 蒙特卡洛搜索树 ...

  2. 【AI实战】大语言模型(LLM)有多强?还需要做传统NLP任务吗(分词、词性标注、NER、情感分类、知识图谱、多伦对话管理等)

    [AI实战]大语言模型(LLM)有多强?还需要做传统NLP任务吗(分词.词性标注.NER.情感分类.多伦对话管理等) 大语言模型 大语言模型有多强? 分词 词性标注 NER 情感分类 多伦对话管理 知 ...

  3. 原创 | QAV:基于大语言模型的智能体协作的基本原理及应用前景展望

    作者:张家林本文约6000字,建议阅读12分钟人类需要权衡利弊,并采取适当的监管和控制措施,以确保人工智能的持续.安全和可持续发展. 大约七万年前,基因突变使人类拥有了先进的语言能力,从此,人类可以进 ...

  4. 腾讯副总裁姚星:中国AI有更大梦想,每次浪潮腾讯都在革自己的命

    感谢阅读腾讯AI Lab微信号第16篇文章,是腾讯副总裁姚星先生接受财新视频<中国人工智能之路>栏目专访,畅谈腾讯人工智能战略.优势.困惑与未来.以下为采访视频及精彩观点总结. class ...

  5. 深度解析| 揭开中国紫砂壶背后惊人的大内幕!

    人生如茶,茶如人生.在静的时间里,用自己喜欢的壶,品一杯香茗,香飘四溢,韵味无穷.一盏好壶,装得下岁月的沧桑,参的透人间的悲喜,品茗其中,读书其里,任丝丝清香冲淡浮沉,沉淀思绪,从中感悟到人生! 紫砂 ...

  6. 科大讯飞智慧医疗事业部空降领头人,深度解析讯飞“AI+医疗”战略

    今日,科大讯飞官方宣布引入智慧医疗领域顶级人才陶晓东博士,加入讯飞高管团队,担任科大讯飞智慧医疗事业部总经理一职,进一步开拓 AI +医疗市场. 陶晓东的研究方向为医学影像,是美国约翰霍普金斯大学博士 ...

  7. 网站内容页面怎样优化?深度解析内容页面优化技巧

    网站SEO优化,内容是基础.一个网站如果没有内容,谈再多的SEO优化技术都是空谈.网站内容可以是文字.图片或者是视频,但是我们知道,搜索引擎是比较喜欢图文结合的内容,所以,讯阅网xuuyue.com在 ...

  8. 深度解析微盟矩阵:去中心化的智能商业生态链

    今年上半年,国家网信办发布的2018<数字中国建设报告>中显示,在过去一年中,我国数字经济规模达到了31.3亿元,占GDP比重的34.8%,数据资源成为驱动经济发展的重要核心因素. 事实上 ...

  9. AI创作与大语言模型:2023亚马逊云科技中国峰会引领企业应用新潮流

    川川出品,必属精品. 文章目录 CodeWhispere免费的代码生成器 安装教程 使用自动编码 2023亚马逊云科技中国峰会 最后总结 CodeWhispere免费的代码生成器 这里我介绍亚马逊云科 ...

最新文章

  1. HotSpot VM运行时01---命令行选项解析
  2. 让数组的左边全为奇数C语言,2015年全国计算机等级考试全真模拟考场_二级C语言试卷四.docx...
  3. 学习能力和工作态度是准绳
  4. git gui here如何汉化_你不知道的一些在Git使用中的奇技淫巧!
  5. Nodejs正则表达式函数之match、test、exec、search、split、replace使用详解
  6. 吞吐量(TPS)、QPS、并发数、响应时间(RT)
  7. 不同路径(I和II)--动态规划
  8. java字符串替换字符串_java string 字符串替换
  9. window强制删除文件bat
  10. 信创项目基础软件都包括哪些?你要了解
  11. 鸿蒙系统清理垃圾,极速清理系统垃圾 一举收回上G磁盘空间
  12. 有没有测试牙齿需不需要修正的软件,三分钟教你测试自己的牙齿需不需要矫正!...
  13. php后端学多久,【后端开发】PHP多久能学会?
  14. 值得珍藏的免费观影网站
  15. AJAX读取Json文件
  16. 真正的 AI 内行盛会!
  17. Celery 全面学习笔记
  18. 大型支付系统后台对账系统的控制和管理
  19. 【刷题日记】贪心算法经典题目
  20. 【IT职场】公司绝对不会告诉你的潜规则

热门文章

  1. hadoop 配置机架感知
  2. oracle经典练习题--【高级查询】
  3. ST-GCN源码阅读
  4. bossGroup 接收完请求怎么推送到workGroup组的
  5. HTML期末作业作业-仿商城个人中心网站模板(HTML+CSS+JavaScript)
  6. 什么是TS (Type Script)
  7. mybatis01-关于从数据库查询数据出现@569cfc36
  8. 心理学教授谈记忆魔法--艾宾浩斯遗忘曲线
  9. 解决方案 | 基于全志T507核心板设计智能加油机应用
  10. sublime Text Vue中常用插件汇总说明