问答题:如何构建一套满足GPT-3的存储系统?
这几天GPT-3成为人工智能甚至整个科技圈最为热门的话题。作为著名人工智能科研公司 OpenAI 开发的文字生成 (text generation) 人工智能,GPT-3的相关论文在2020年5月份就已经发表,由于使用了45TB的数据,并采用了天文数字级别的1,750亿参数量而引起极大轰动。现在,GPT-3开始开放申请,获得资格的人将通过API来使用GPT-3。如果说软件定义一切,那么API就在定义软件。一些人在使用了GPT-3之后,对其赞不绝口:嗯,真香!
比如用GPT3做的这个页面生成器,只需要输入“给我一个长得像西瓜的按钮”,GPT3就会很快输出一个看上去真的很像西瓜的按钮。
从目前的应用来说,GPT-3 更像是一个更懂你的新的搜索引擎,传统的搜索引擎只是将信息归类后进行展现,而GPT-3 则是将信息进行了加工。仅就45TB的数据而论,如果一部电影按照2G大小来算的话,那么45T的数据相当于23000多部电影,每次GPT-3都相当于将这23000多部电影看一遍,然后写出一篇“影评”。
而写出这篇“影评”不是依靠作者的构思,而是依靠算力。算力可以看作是单位时间内的计算能力。从计算机诞生之日起,人们对算力的追求就没有停歇过,1958年集成电路的出现让算力实现了一次质的飞跃,近年来,随着CPU、GPU、NPU等单元部件算力的不断增强,算力更是得以成为数字经济时代的核心引擎之一。
做个比喻,如果说算力是心脏,那么数据就是血液,两者之间还需要一个良好的血液循环系统予以保证,而存储系统就可以看作这样的一个血液循环系统。那么,应该如何更好的构建这个血液循环系统呢?
首先,为了支撑强大的算力需要能够支持大规模的数据吞吐量;其次,需要更低的数据读写延迟以提升计算速度,再次,需要具有足够的弹性,保证算力峰值到来时数据容量的随时扩容。
如果从以上角度出发,那么一个适当的选择就是文件存储。以阿里云文件存储CPFS (Cloud Parallel File Storage)为例,CPFS是一个可完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的访问和高聚合I/O、高IOPS的数据读写请求,可以用于AI深度训练、自动驾驶、基因计算、EDA仿真、石油勘探、气象分析、机器学习、大数据分析以及影视渲染等业务场景中。
首先, CPFS具有超高吞吐和IOPS。采用分布式的并行架构,数据条带化后均匀分布在存储集群上,可以实现计算节点并行访问,提供数百GB的吞吐和千万级的IOPS以及亚毫秒级时延;其次,CPFS弹性可扩展。CPFS支持在线的扩容,由于所有数据均以条带化的方式存储并且支持扩容以后的自动负载平衡,可满足性能的线性增长并且即时利用扩容节点的吞吐和存储能力,满足业务增长需要的更多容量与性能的诉求。
目前CPFS已经在公共云和混合云环境中有了广泛的应用。
以阿里云弹性高性能计算云平台HPCaaS为例。该平台支持基于阿里云ECS、EGS弹性计算实例快速构建任意规模的并行计算集群,并根据用户需求动态增删节点个数和存储规模。首先,该方案用户只需购买EHPC的集群实例,就可以立刻获得相应数目的ECS、EGS、文件存储和搭配的RDS,OSS等服务。其次,用户可以根据初期使用集群规模生成集群,在运行时通过集群调度动态伸缩集群数目。
而在混合云环境中,CPFS推出了混合云CPFS存储。爱笔(北京)智能科技有限公司正是利用了混合云CPFS存储解决方案,构建云上云下多级存储池架构,解决计算机视觉、语音识别、自然语言理解、大数据分析等技术场景下的数据存储与管理问题,从而将人工智能的线上与线下场景中进行融合,实现业务场景的数字化、智能化。
目前,关于GPT-3的讨论还在继续, GPT-3母公司OpenAI的首席执行官Sam Altman也谦虚的说道“人工智能终将改变世界,但GPT3只是看到了一眼未来。我们还有很多事情要解决。”不过不可否认的是,大多数人对于GPT-3还是充满期待——人工智能的时代已经到来,而GPT-3的这一小步也许为整个人工智能行业迈出了一大步。
原文链接:https://developer.aliyun.com/article/769141?utm_content=g_1000161686
本文为阿里云原创内容,未经允许不得转载。
问答题:如何构建一套满足GPT-3的存储系统?相关推荐
- 如何构建一套高可用的 APP 消息推送平台
转载自 如何构建一套高可用的 APP 消息推送平台 消息推送作为移动 APP 运营中的一项关键技术,已经被越来越广泛的运用.本文追溯了推送技术的发展历史,剖析了其核心原理,并对推送服务的关键技术进行 ...
- ubuntu系统debootstrap的使用(构建一套基本的系统)
debootstrap是debian/ubuntu下的一个工具,用来构建一套基本的系统(根文件系统).生成的目录符合Linux文件系统标准(FHS),即包含了/boot./etc./bin./usr等 ...
- TOP100summit分享实录 | 如何构建一套全链路的故障追踪和故障自愈系统?
本文内容节选自由msup主办的第七届TOP100summit,三七互娱运维开发负责人童传江分享的<三七互娱故障追踪和故障自愈系统>实录. 分享者童传江在维行业7年工作经验,做过网络管理,做 ...
- 如何快速构建一套稳定、高效、可靠的网页无插件监控、直播、点播解决方案
如何快速构建一套稳定.高效.可靠的网页无插件直播点播系统? 目前直播流媒体市场已经比较成熟,比较出名的流媒体直播点播服务器有: 1. 开源流媒体服务SRS 2. 基于NGINX的RTMP直播点播开源流 ...
- 组装硬盘录像机linux,如何自己构建一套EasyNVR这样的无插件流媒体服务器实现摄像机硬盘录像机的网页可视化直播...
EasyNVR流媒体解决方案 EasyNVR能够通过简单的网络摄像机通道配置,将传统监控行业里面的高清网络摄像机IP Camera.NVR等具有RTSP协议输出的设备接入到EasyNVR,EasyNV ...
- TOP100summit分享实录 | 如何构建一套全链路的故障追踪和故障自愈系统? 1
本文内容节选自由msup主办的第七届TOP100summit,三七互娱运维开发负责人童传江分享的<三七互娱故障追踪和故障自愈系统>实录. 分享者童传江在维行业7年工作经验,做过网络管理,做 ...
- 如何构建一套高可用的移动消息推送平台?
消息推送作为移动 APP 运营中的一项关键技术,已经被越来越广泛的运用.本文追溯了推送技术的发展历史,剖析了其核心原理,并对推送服务的关键技术进行深入剖析,围绕消息推送时产生的服务不稳定性,消息丢失. ...
- AIOps 落地难?仅需9步构建一套 AIOps 的最佳实践
我在与客户交流 AIOps 的时候,他们时常觉得 AIOps 不够成熟,以至于无法实施各种分析. 也有人认为:AIOps 的各项能力是线性发展的,他们必须事先评估和补足当前在"处理大量的事件 ...
- 如何快速、低成本构建一套稳定、高效、可靠的互联网主播直播/商业直播(推流/分发/播放)方案
前言 做EasyDarwin开源流媒体服务器.维护EasyDarwin社区快5年了,期间收到过无数的直播需求,尤其是在跨越"直播元年"的一段时间中,几乎每天都会有直播的需求通过电话 ...
最新文章
- 23张图!万字详解「链表」,从小白到大佬!
- python速成要多久2019-8-28_Python脱产8期 Day13 2019/4/28
- 知识图谱前沿技术课程暨学术研讨会(武汉大学站)
- LeetCode 2131. 连接两字母单词得到的最长回文串
- ORA-39171: 作业出现可恢复的等待
- 2019.08.30数组去重的几种方法以及所需时间对比
- 解决从github上下载代码仓库慢的问题
- 请教:如何进行存储过程的调试
- Hdoj 1064 Financial Management
- ShxViewer_SHX字体查看
- 【Unity3D入门教程】Unity3D简介、安装和程序发布
- ovs vlan tag管理
- 神经网络反向传播BP算法代码实现
- 基金仓位“88%魔咒”再现 百点长阳能否击破?
- Android Bottom Sheet详解
- 坚果pro2s android 8,坚果Pro2s和iPhone8手机对比实用评测
- QNX微内核RTOS
- excel提示“文件已损坏,无法打开”解决方法
- 计算机基础——进制与数据编码
- 外贸邮箱的格式是什么样的?邮箱的注册方式有哪些?
热门文章
- android opencv 水印,关于opencv对图片添加水印
- java 计算两个时间戳_Java时间戳计算重叠持续时间与间隔
- git merge 冲突_卧槽!小姐姐用动画图解 Git 命令,这也太秀了吧?!
- hibernate 批量更新_360产品动态,10月份平台都有哪些更新?
- 静态ip ssh无法登录_识别动静态IP的技巧
- mysqlfor循环中出错继续_Python学习笔记(循环)
- filestorage 修改吧部分数据_数据库系统概论课后答案||第五版
- android与web服务器建立连接失败,Android websocket连接失败
- bootstrap 日历中文_bootstrap日期选择器本地化-中文
- linux内存使用策略swap,Linux Swap使用分析