深度解析内容生成式AI背后的大语言模型,探寻智能浪潮下的存储机遇
几个月前以ChatGPT为首的内容生成式AI就已经火得不能再火了,然而,随着本周GPT-4和文心一言的发布,AI在国内外又“火上加火”了一次。
2023年3月14日,OpenAI发布了大型的多模态模型GPT-4。“GPT-4比以往任何版本更具创造性和协作性”,并且“有更广泛的常识和解决问题的能力,可以更准确地解决难题”。OpenAI的CEO山姆·阿尔特曼说:“这是我们迄今为止功能最强大的模型。”为了证明GPT-4的强大能力,演示者直接在纸上画了一个潦草的网页示意图,拍照发给GPT,并要求其按照这个布局写网页代码。几乎只需要数秒钟的时间,相应的代码就完成了生成。发布会还展示了一个GPT-4的使用场景,把程序运行出错的信息甚至错误信息截图提交给GPT-4,仅凭这部分图片信息,GPT-4都能自动查出错误。
2023年3月16日,百度发布了最新的大语言模型AI产品文心一言。首席技术官王海峰介绍,文心一言是新一代知识增强大语言模型,是在ERNIE及PLATO系列模型的基础上研发的。它使用有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强六个模块来增强模型能力。其深度学习平台主要分为核心框架、基础模型库、端到端开发套件、工具与组件四个部分。文心语言大模型的基础层分为NLP大模型、CV大模型、跨模态大模型、生物计算大模型。但可惜的是,发布会上并没有现场演示环节,大众也不能直接使用该产品。
文心一言的发布会固然很多地方准备的还不完善,但确实是形势所迫。很多观点都认为,我们当前正处于一个AI爆发的前夜,无论是个人还是企业,似乎没有跟上这波AI浪潮就会被时代的步伐甩在身后。而很多硬件、云服务等产业链相关人士也急于了解AI这股浪潮,但却被复杂的技术术语、层出不穷的行业应用看花了双眼。在面对海量且无时无刻不在update的信息时,光凭人类大脑当然不能有AI那般的信息吸收和处理效率。如何能抽丝剥茧形成认知框架,辨别有用的信息,真正形成自己的洞见和判断是最重要的。
在笔者看来,这次的AI浪潮和之前的围棋对战、图像识别一样,都是底层模型出现了创新,与现实生活产生交集,引发广泛社会反应。这次的大语言模型与现实生活的交集是直接的一对一对话,人们体验感更强,引发的反响更加强烈。因此,想看清AI爆火背后的机会,真正形成自己的洞见和判断,最好的方法就是先牢牢抓住本次AI浪潮的核心:大语言模型。
大语言模型领域内的名词术语很多,看分析文字时,各概念间的逻辑关系也容易混淆。NLP领域在2013年主要采用的还是深度学习模型,其中的关键技术主要有二,一是大量的改进LSTM模型以及少量改进CNN模型为典型的特征抽取器,二是以encoder-decoder+Attention作为具体典型的总体技术框架。当时的主要目标是如何有效增加模型层或模型参数容量,也就是怎么在encoder decoder不断叠加更深的LSTM或CNN层。但之所以没有再延续,是因为具体任务的训练数据量有限和LSTM/CNN特征抽取器吸收和表达知识能力有限。2020年Transformer模型问世后,便逐步渗透到了NLP领域的方方面面。
Transformer问世后,让深度学习模型可以“自由吸收”数据中的知识。大语言模型突破了参数和算力限制,从此语言模型也进入参数越多,数据越大,模型效果越好的时代。Transformer分为两派:GPT和Bert。Bert模型和GPT模型都是预训练模型。预训练模型会预先接受海量的文本语料进行学习。学习的成果以模型参数的形式沉淀。模型参数的沉淀会对预训练模型关于词性、句法等方面的理解能力进行改进。简单来说,GPT,就是在一个超大语料基础上预训练出的大语言模型(LLM),采用从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。在GPT2的时代,Bert表现更好,但是GPT通过“自然语言生成任务”,兼容了几乎所有NLP问题,等到GPT3发布后,迅速占据了“江湖老大”的位置。
打一个通俗易懂的比方,如果把整个AI行业比作一座写字楼的话,各个面向最终用户的具体应用就是一个个摆放不同设备的房间,面向不同行业的AI能力与各场景的训练数据集就是大楼的水电消防系统与基础装修,底层的模型就是盖楼用的原材料。原材料在短时间经历了多次升级,由粘土(机器学习)到砖石(深度学习)到普通混凝土(Transformer)到钢筋混凝土(GPT),目前已经能把写字楼盖到几十层了。建高楼的需求旺盛,必然会带动背后的搅拌机、起重机等土木行业的兴起,这部分对应的就是AI基建层的硬件、云服务。
随着ChatGPT这种大语言模型的训练数据和参数量呈指数增长,这些操作需要更多的计算资源和存储资源,这是导致大语言模型成本增加在原因。首先,是作为训练输入的训练样本,样本的数据量是非常庞大的,尤其是Midjourney这种需要图片训练的AI,需要PB级的样本数据。其次,是作为训练输出结果的参数模型:考虑到过去5年中模型参数呈指数增长,下一代大语言模型很可能是万亿参数模型,快速增长的模型需要足够的空间来存储。这么多存储空间从哪来?目前主流的解决方法是硬件存储阵列或分布式存储。传统硬件存储阵列可以保障每个逻辑卷的低延迟和高可用性,但存在水平可伸缩性差、成本高、可能形成许多“孤立的数据岛”的问题,从而使存储成本高,存储资源利用率低。一些传统分布式存储看起来可以解决上述问题,但通常部署复杂,且难以保证性能和稳定性。这个时候,就需要存储资源盘活系统(Storage Resource Reutilization System,SRRS)。
存储资源盘活系统是一个ZIP包。它可以轻松地安装在装有Linux操作系统的任何品牌、配置的物理服务器、裸金属服务器、虚拟机甚至容器实例上,向上层提供块存储服务。存储资源盘活系统与硬件驱动完全解耦,且支持硬件异构。存储资源盘活系统允许集群中的每个Linux操作系统实例具有不同的硬件配置,例如不同的CPU数量、不同的内存大小、不同的本地硬盘驱动器容量等。存储资源盘活系统会充分利用用户的全部资源来提供最好的性能,帮助用户进一步提高现有硬件资源的利用率。这对于硬件更新换代频率很快的AI领域来说是好消息:再也不用担心被淘汰的设备闲置了。
存储资源盘活系统作为一组用户态进程来运行,不依赖于任何特定版本的Linux内核或Linux发行版,不依赖或修改操作系统环境,不垄断整个硬盘驱动器,不干扰任何其他进程的执行。因此,存储资源盘活系统可以在同一个Linux操作系统实例中与其他应用程序并发运行,在不影响整体功耗的情况下大大提高了硬件利用率,也在一定程度上缓解了AI机房“耗电高”的痛点。存储资源盘活系统是高性能的。存储资源盘活系统采用分布式双控制器架构,像传统硬件存储阵列一样提供低延迟和高可用性,像传统分布式存储一样提供高可扩展性和高吞吐量。它可以轻松从3台服务器扩展到数千台服务器,并逐个从数千台服务器减少到3台服务器,上述过程中不会出现服务不可用的情况。对于AI行业中训练样本、模型参数的指数级增长,存储资源盘活系统可以自如应对。
iPhone作为开启了移动互联网的划时代产品,最大的成功之处在于它让手机成为了人类器官,并且让互联网从桌面走到了身边;其次,在于它出现的时机契合了硬件和软件技术的发展。以iPhone作类比,以GPT为首的大语言模型是调用算力和数据的终极方式,AGI(通用人工智能,也是OpenAI的终极愿景)允许AI从有限任务变成几乎能取代或协助人类的所有思考任务。可能这也是黄仁勋(NVIDIA创始人兼CEO)所说的,This is the iPhone moment of AI。面对AI的iPhone moment,我们需要更多SRRS这种基础建设来适配将来快速增长的算力与存储需求。
深度解析内容生成式AI背后的大语言模型,探寻智能浪潮下的存储机遇相关推荐
- 深度解析黑白棋AI代码原理(蒙特卡洛搜索树MCTS+Roxanne策略)
深度解析黑白棋AI代码原理(蒙特卡洛搜索树MCTS+Roxanne策略) 文章目录 深度解析黑白棋AI代码原理(蒙特卡洛搜索树MCTS+Roxanne策略) 黑白棋规则 传统黑白棋策略 蒙特卡洛搜索树 ...
- 【AI实战】大语言模型(LLM)有多强?还需要做传统NLP任务吗(分词、词性标注、NER、情感分类、知识图谱、多伦对话管理等)
[AI实战]大语言模型(LLM)有多强?还需要做传统NLP任务吗(分词.词性标注.NER.情感分类.多伦对话管理等) 大语言模型 大语言模型有多强? 分词 词性标注 NER 情感分类 多伦对话管理 知 ...
- 原创 | QAV:基于大语言模型的智能体协作的基本原理及应用前景展望
作者:张家林本文约6000字,建议阅读12分钟人类需要权衡利弊,并采取适当的监管和控制措施,以确保人工智能的持续.安全和可持续发展. 大约七万年前,基因突变使人类拥有了先进的语言能力,从此,人类可以进 ...
- 腾讯副总裁姚星:中国AI有更大梦想,每次浪潮腾讯都在革自己的命
感谢阅读腾讯AI Lab微信号第16篇文章,是腾讯副总裁姚星先生接受财新视频<中国人工智能之路>栏目专访,畅谈腾讯人工智能战略.优势.困惑与未来.以下为采访视频及精彩观点总结. class ...
- 深度解析| 揭开中国紫砂壶背后惊人的大内幕!
人生如茶,茶如人生.在静的时间里,用自己喜欢的壶,品一杯香茗,香飘四溢,韵味无穷.一盏好壶,装得下岁月的沧桑,参的透人间的悲喜,品茗其中,读书其里,任丝丝清香冲淡浮沉,沉淀思绪,从中感悟到人生! 紫砂 ...
- 科大讯飞智慧医疗事业部空降领头人,深度解析讯飞“AI+医疗”战略
今日,科大讯飞官方宣布引入智慧医疗领域顶级人才陶晓东博士,加入讯飞高管团队,担任科大讯飞智慧医疗事业部总经理一职,进一步开拓 AI +医疗市场. 陶晓东的研究方向为医学影像,是美国约翰霍普金斯大学博士 ...
- 网站内容页面怎样优化?深度解析内容页面优化技巧
网站SEO优化,内容是基础.一个网站如果没有内容,谈再多的SEO优化技术都是空谈.网站内容可以是文字.图片或者是视频,但是我们知道,搜索引擎是比较喜欢图文结合的内容,所以,讯阅网xuuyue.com在 ...
- 深度解析微盟矩阵:去中心化的智能商业生态链
今年上半年,国家网信办发布的2018<数字中国建设报告>中显示,在过去一年中,我国数字经济规模达到了31.3亿元,占GDP比重的34.8%,数据资源成为驱动经济发展的重要核心因素. 事实上 ...
- AI创作与大语言模型:2023亚马逊云科技中国峰会引领企业应用新潮流
川川出品,必属精品. 文章目录 CodeWhispere免费的代码生成器 安装教程 使用自动编码 2023亚马逊云科技中国峰会 最后总结 CodeWhispere免费的代码生成器 这里我介绍亚马逊云科 ...
最新文章
- HotSpot VM运行时01---命令行选项解析
- 让数组的左边全为奇数C语言,2015年全国计算机等级考试全真模拟考场_二级C语言试卷四.docx...
- 学习能力和工作态度是准绳
- git gui here如何汉化_你不知道的一些在Git使用中的奇技淫巧!
- Nodejs正则表达式函数之match、test、exec、search、split、replace使用详解
- 吞吐量(TPS)、QPS、并发数、响应时间(RT)
- 不同路径(I和II)--动态规划
- java字符串替换字符串_java string 字符串替换
- window强制删除文件bat
- 信创项目基础软件都包括哪些?你要了解
- 鸿蒙系统清理垃圾,极速清理系统垃圾 一举收回上G磁盘空间
- 有没有测试牙齿需不需要修正的软件,三分钟教你测试自己的牙齿需不需要矫正!...
- php后端学多久,【后端开发】PHP多久能学会?
- 值得珍藏的免费观影网站
- AJAX读取Json文件
- 真正的 AI 内行盛会!
- Celery 全面学习笔记
- 大型支付系统后台对账系统的控制和管理
- 【刷题日记】贪心算法经典题目
- 【IT职场】公司绝对不会告诉你的潜规则