你们有没有这样的经历,刚和朋友说看中了某个东西,然后过了一会儿再打开某购物APP,你惊奇地发现首页推荐栏里面竟然是刚才提到的那个东西。

他们怎么知道的?“他们”又是谁?

答案是:大数据

对,其实这一切都是大数据在“搞怪”。

购物APP会对你的购买记录、搜索记录等进行大数据分析,从而对你进行精准推送和智能推荐,投你所好,送你所要。只是巧的是,商品推送的时间正好和你聊天提及的时间相吻合。

那么大数据到底是什么?大数据的背后又是什么?下面小星来给大家详细讲一讲。

我们一起,一层一层揭开大数据的背后藏着的那一张巨大的“网”。

什么是大数据?

说起大数据,相信大家都不会陌生,这早已是耳熟能详的词语。从字面上看,大数据,就是很“大”的“数据”。大到什么程度呢?早在N多年前,百度首页导航每天需要提供的数据就超过1.5 PB,如果将这些数据打印出来,需要使用超过5千亿张A4纸。

5千亿张?小星也不知道是不是可以铺满地球了。

根据预测,2030年人类将进入YB数据时代,全球数据每年新增1 YB。

YB又是什么概念了呢?

小星这里来科普下:在计算机系统中,数据(文本、图像、语音、视频等)都使用二进制来表示。数据的最小的单位是bit,每个二进制的0或1,都代表1个bit。

1 Byte =8 bit

1 KB = 1,024 Bytes = 8192 bit

1 MB = 1,024 KB = 1,048,576 Bytes

1 GB = 1,024 MB = 1,048,576 KB

1 TB = 1,024 GB = 1,048,576 MB

1 PB = 1,024 TB = 1,048,576 GB

1 EB = 1,024 PB = 1,048,576 TB

1 ZB = 1,024 EB = 1,048,576 PB

1 YB = 1,024 ZB = 1,048,576 EB

1 BB = 1,024 YB = 1,048,576 ZB

1 NB = 1,024 BB = 1,048,576 YB

看到了吗?1 YB是多少个bit,小星已经数不清了。

据计算,1 YB相当于7000个人体内微细胞的总和。

看,这里最大的单位叫NB,确实厉害啊。

大数据的背后是什么?

答案是:算力。

事实上,大数据的真正意义并不在于庞大的数据量,而在于对这些数据进行“计算”。

比如,城市的公交一卡通每天会产生几千万条的刷卡记录。分析这些刷卡记录,可以清晰了解市民的出行规律,以便改善城市交通。

但这几千万条数据 ,不能直接得出规律,而是需要通过“计算”来实现“暗数据”的“增值”

所以,如果把大数据看作一种产业,那么这种产业实现盈利的关键,在于提高“计算能力”。

这里的“计算能力”,指的就是算力,小到手机、计算机,大到超级计算机、云计算数据中心,都是一个算力单元。

从单台计算机,发展到今天的互联网和云计算时代,再到未来的泛在算力时代,历史的上升造就了算力的持续增长。

截至目前,我国数据中心规模已达500万标准机架,整体算力达到130E FLOPS。

而在泛在算力时代,预计到2030年,通用算力将增长10倍,达到3.3Z FLOPS;人工智能算力将增长500倍,超过100Z FLOPS。

然而,历史的上升又总是螺旋式的,算力的增长进程,亦是如此。

  1. 计算机时代,算力集中分布:没有互联网,算力集中在每一台独立的计算机上。
  2. 互联网时代,算力分散分布:每一台计算机的算力分散在互联网中,通过网络实现互联。
  3. 云计算时代,算力集中分布:大部分算力集中在云计算数据中心,企业客户或者个人用户集中“上云”进行数据计算,不需要再购买“计算机”,而是向云计算服务商购买“计算能力”。
  4. 泛在算力时代,算力又回归到分散分布:算力分布在“云、边、端”,即,形成了中心云、边缘计算节点、海量终端的三级算力架构。

算力的背后又是什么?

答案是:算力网络。

对,算力网络就是藏在大数据背后的背后的那一张巨大的“网”。

算力网络,是根据业务需求,在“云、边、端”之间按需分配和灵活调度计算、存储、网络资源的新型信息基础设施。

为什么算力最终又回归到分散的“云、边、端”分布模式呢?

这是因为:

  1. 算力的需求不断增大,集中部署的少量数据中心的算力是不够的。
  2. 算力需求的地区分布,不是集中的,而是分散的,在这个前提下,数据中心需要分散部署。
  3. 边的出现:有些数据需要能就近在边缘计算节点得到快速无延迟的计算,而不是送到远端的数据中心去处理,例如自动驾驶、云游戏、VR/AR、工业控制、远程医疗等。未来,边缘算力将大于中心算力,预计到2025年大约超过75%的数据将在边缘侧处理。
  4. 端的纳入:万物互联出现了海量的智能终端,包括手机、计算机、智慧屏、机顶盒、车载终端、智能水电表等一切具备联网和计算能力的设备。汇集这些社会闲散设备的存量算力,就是算力共享。从这个意义上来说,算力是泛在的。

泛在算力时代的“云、边、端”三级算力架构,就像商业分布一样,大型购物中心分布在闹市区,超市分布在周边,而便利店就分布在家门口。

这些分散的算力自然需要通过网络来互联,以便实现所有算力资源的共享、调度、使用和协同。就像网上购物一样,天南地北的商品在线上实现了共享,人们的购物更加便捷。

相比于商品的共享,算力的共享除了让算力成为易获取的公共服务之外,还有一个更大的好处,就是提高了算力的利用率。这也是算力网络的优势,网络中的算力在不同的时间可以为不同的业务提供服务,避免闲置算力浪费,做到物尽其用。

另外,在算力网络中,多个算力之间也可以相互协同,即,针对大颗粒的算力需求,“集中力量办大事”。关于算力协同最实际的一个例子就是“志愿者计算”:志愿者众筹个人计算机的闲置算力,用于生命科学(例如攻克癌症)、地球科学(例如搜寻地外文明)的分布式计算,帮助一些缺乏研究资金的、公益性质的科学研究,加速人类的科学进程。

那么,算力网络就是算+网吗?

算力网络包含了3个部件,除了“算”和“网”以外,还引入了“脑”。

  1. 算:生产算力
  2. 网:连接算力
  3. 脑:统一感知、编排、调度、协同“网络中的算力”

详细地说,这个“脑”就是:

  1. 看得见:全域态势感知,获取全域实时的算、网、数资源,以及云、边、端分布情况,构建全域态势感知地图。
  2. 调得动:跨域协同调度,将多域协同的调度任务智能、自动地分解给各个使能平台,实现算、网、数的资源调度。
  3. 可组合:多域融合编排,针对多域融合业务需求,基于算、网、数的原子能力按需灵活组合编排。
  4. 有智慧:智能辅助决策,基于不同业务的SLA要求、网络整体负载、可用算力资源池分布等因素,智能、动态地计算出算、网、数的最优协同策略。

算力网络就像是一台“超级计算机”,先汇集了全网的算力,再用“脑”把数据合理地分配到“超级计算机”的每个计算单元中。

全网?这张巨大的网到底有多大呢?

从国家层面来看,这张网覆盖了全国。

2021年5月,中国提出“东数西算”工程,通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序地引导到西部,优化数据中心建设布局,促进东西部协同联动。2022年2月,国家发改委、中央网信办、工业和信息化部、国家能源局联合印发通知,同意在8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。

至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程也正式全面启动。

为什么东数要西算呢?

主要是考虑到数据中心建设和运营的三个关键因素:

  1. 土地:数据中心的核心就是各类IT硬件设备,配套电力、安全防控、散热等设施也需要随之部署,数据中心的占地面积会越来越大。据公开数据显示,单个数据中心的面积达到了60个足球场的大小。这样的占地面积,在寸土寸金的东部一、二线城市是不能承受的。相比之下,中西部四、五线城市有大块的土地提供给数据中心来建设,成本极低。
  2. 电力:数据中心是公认的高耗能行业。据公开数据显示,电力成本占数据中心运营比例大约为56.7%,而数据中心耗电量占中国总耗电量的比例逐年持续上升,预计2025年将达到4%以上。相比东部地区,中西部地区具备丰富的风电、光伏、水电等清洁能源,且工业用电需求远小于东部城市,因此电价要低得多。
  3. 气候:数据中心不但高耗能,而且在运转时会散发大量的热量,如果不能及时通过制冷、散热系统将热量排除,会导致硬件设备宕机。据公开数据显示,数据中心在降温过程中所消耗的能量占到数据中心总能耗的40%之多。中西部地区,比如数据中心产业发展最好的贵州,全年平均气温为14~16摄氏度,气温低,更适合数据中心的建设。

东部的数据都需要西算吗?

答案是:并不都需要。

从数据分类角度来看,可以分为3种类型:

  1. 热数据:处理时间要求高,需要立刻做决策并运算的数据。例如自动驾驶、远程医疗等,端到端传输时延需要小于10 ms。热数据约占数据总数量的5%。
  2. 温数据:传输时延需要在10~30 ms之间,例如云视频会议等,约占数据总数量的15%。
  3. 冷数据:时效性需求不太高,传输延时需要在30 ms以上,例如云盘数据存取等,约占数据总数量的80%。

东部的热数据和温数据需要就近计算,这也是为何八大枢纽中存在“京津冀、长三角、粤港澳大湾区”三个东部发达地区枢纽的原因:对于时延要求高的计算需求,依然会保留在这几个数据中心节点。

东部的冷数据,占了数据总数量的大部分,可以送到西部去处理,从而大大缓解东部数据中心的计算压力。

从东部到西部,很多枢纽之间的距离在2000~3000公里。

如何保证数据在长距离来回中,又快、又准、无损、安全的传输呢?

算力网络的目标很明确,让用户在调用成百上千公里以外的计算资源时的体验与调用隔壁工作站的资源没什么区别。所以,对于算力网络来说,一张具有超大带宽、超低时延、海量连接、多业务承载的高品质网络是关键。那么,如何打造一张为算力连接提供高品质服务的网络呢?

我们必须要关注到算力网络的几个关键特征。

  1. 弹性:算力网络的流量特征与互联网的流量特征不完全相同,对于弹性带宽的需求更加突出。例如,在气象的计算场景中,气象中心每天需要计算1~2次,每次计算2小时,在这2个小时内需要非常大的带宽。那么,对于气象中心来说,更适合的是带宽可调整、时长可定制的弹性连接服务。
  2. 敏捷:算力的泛在分布,要求算力网络必须具备泛在算力敏捷接入的能力。企业客户或者个人用户接入算力网络来获取计算服务,并不需要关心网络中的算力资源和分布情况,只关心算力是否能够敏捷地获取到。
  3. 无损:算力由网络来实现互联,网络中的每个丢包,甚至在云数据中心内部的分布式计算过程中的丢包,都会造成计算效率的下降。据测算,0.1%丢包就会造成50%的算力损失。因此,数据中心内部、数据中心之间的无损传输成为算力网络的一个关键特征。
  4. 安全:数据是计算的核心要素,也是宝贵资产,需要安全输送到算力节点,并安全返回计算结果。安全是算力网络使能到各行各业的一个关键的特征,包括数据安全存储、数据安全加密、算力租户之间数据的安全隔离、外部攻击和数据泄露防护、终端安全接入等。
  5. 感知:算力网络中存在海量的应用(算力的需求方)连接,如何为不同的应用提供差异化的SLA保障,又如何为其中重要的应用提供性能的检测和看护,也是算力网络需要考虑的一个关键问题。感知,就是说网络一方面要能够“感知应用”,另一方面还要能够“感知体验”。综合起来,形成算力网络“应用体验感知”能力。
  6. 可视:在算力网络中,需要建立一张网络数字地图,通过应用、算力、网络三者的映射关系和图层建模,形成算(数字世界)和网(物理世界)高效关系映射。网络数字地图对于网络全景进行了动态绘制和动态刷新,可以实现网络拓扑清晰可视、网络路径透明追踪、故障传播关联溯源,以及在算力网络中基于网络、应用、算力关系映射的应用一键导航。

那么,通过哪些技术来匹配网络的关键特征吗?

这里不得不提到网络的联接底座是:“IPv6+”。

IPv6+是基于IPv6的网络创新体系,使用体系中的SRv6、BIERv6、网络切片、确定性IP网络DetNet、随流检测IFIT、应用感知APN6、业务功能链SFC、智能无损等创新技术,可以打造云、边、端全连接的智能IP算力网络,把算力源源不断地输送给万物。

这里,小星选取了其中一些技术,给大家介绍一下。

SRv6满足算力网络的泛在接入和敏捷开通

因为算力需要向海量用户提供服务,网络需要满足泛在接入的要求。

传统网络使用MPLS技术,往往采用工单传递、手工配置的方式,逐段开通业务,开通时间长,已无法满足需求;算力网络可以使用SRv6技术,自动化发放业务,业务开通时间从几天减少到分钟级,多段组网变为端到端组网,实现海量业务差异化SLA保障的泛在接入和敏捷开通。

网络切片确保算力网络的无损传输和安全隔离

在同一张算力网络上,需要为气象、高校、海洋研究所、企业等各种各样不同的业务提供服务,而这些业务对于网络的服务质量要求是不一样的。传统网络按照“专线”思维来为不同业务提供差异化服务,VPN“专线”是一种软隔离技术;算力网络可以按照“专网”思维来为不同业务提供差异化服务,网络切片“专网”是一种硬隔离技术。在一张物理的算力网络上,网络切片进行资源切片隔离,形成多个虚拟网络。不同业务在自己的网络切片“专网”上独立传输,实现确定性的无损传输和安全隔离。

算力网络切片按需规划,首先创建默认切片,所有业务先全部承载在默认切片上;然后对于有特殊需求的业务,基于不同的SLA要求单独创建网络切片。例如,气象中心需要1G带宽保证的虚拟专网,就可以为气象业务单独创建网络切片。

随流检测实现算力网络的实时看护和智能运维

算力网络中存在海量的连接,连接的统一看护和管理,对网络的运维能力提出新的挑战。

传统网络的运维方法存在两个突出的问题:业务受损被动感知,定界定位效率低下。往往是用户投诉以后才能发现业务性能劣化,或者检出网络故障却难以快速定位。

在算力网络中,使用IFIT随流检测技术,可以彻底改变这一局面。

IFIT在真实业务流中插入特定的“染色比特”,不仅可以做到精准定位丢包发生的位置,而且可以计算出逐跳时延和抖动,甚至能够进行路径还原,实现对于网络的实时看护和智能运维。

云网安一体构筑算力网络的安全协同防护

安全是网络稳固的基石,而传统基于网络边界的防护思路,已经无法满足算力网络的需求。

在不同位置(云、网、端)部署不同的安全设备,堆砌安全产品,互相之间不兼容、不联动,无法适应业务上云后的路径变化,防护效果差、效率低。

采用云网安一体的安全架构,可以打造“可信一张网”,实现:终端安全、入网安全、网络安全、入云安全、云(平台、应用、数据)安全。

  1. 部署乾坤云(安全大脑)+天关(安全边界),提供边界防护、威胁分析、常态化护网等安全服务。
  2. 部署安全资源池+安全业务链,提供24小时智能分析和安全专家在线服务、租户级安全云服务、基于SRv6+SFC编排的安全算力和网络的一体调度。
  3. 使用自适应量子加密创新方案,实现对于传统互联网IPSec加密机制的升级,提供可多点分发、可灵活组网、量子级密钥、原生级加密的安全保障。
  4. 改变“一次验证,永久信任”的接入进制,采用零信任方案,构建身份安全基石,持续验证(永不信任)、动态授权、全局防御。

有了IPv6+这个稳固又安全的联接底座,东数西算编织了全国算力的一张大网,构建了“全国一台计算机”。

在未来,有了算力网络的加持,算力将成为像水电一样“一点接入、即取即用”的公共服务,越来越多的大数据将得到分析、处理、利用,大数据将出现在无限的计算场景中。

算力网络将帮助人类跨入智能世界,开启一个与大航海时代、工业革命时代、宇航时代等具有同样历史地位的新时代,这也是人类历史上又一个波澜壮阔的史诗级进程。

【IPv6+燎原系列—第3期】大数据的背后竟然藏着一张巨大的“网”相关推荐

  1. 【IPv6+燎原系列—第7期】天气渐凉,IPv6+将如何助力天气预报?

    "东边日出西边雨,道是无晴却有晴",天气经常"喜怒无常",充满了不确定性.以前"半夜闻鸡闹,是个风雨兆""乌鸦成群叫,短期风雨到& ...

  2. 【IPv6+燎原系列—第2期】IPv6+逐梦赛场,勇夺属于通信人的“金牌”

    每一届体育盛会,都不仅是运动员们的绽放舞台,也是人类科技成果的展示平台.很多黑科技都是借重大体育赛事的东风,得以快速走向普罗大众,比如电视直播,卫星电视,数字电视,4K/8K直播等等. 这些黑科技围绕 ...

  3. 【IPv6+燎原系列—第1期】不要以为IPv6+与你无关,它已影响到你的收入

    今年过年的手机"抢红包"大战你的战果如何呢? 你是否会好奇,为什么别人抢到的红包是这样的 你抢到的红包却是这样的 日前,小星(星火的小名,记住啦)采访了一批"抢红包&qu ...

  4. 大数据入门基础系列之初步认识大数据生态系统圈(博主推荐)

    不多说,直接上干货! 之前在微信公众平台里写过 大数据入门基础系列之初步认识hadoop生态系统圈 http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA 大 ...

  5. 【大数据科普系列之二】大数据运维工程师

    大数据系列岗位要求,大数据运维可能是"技术含量最高"的职位之一,这里说的大数据运维主要是指hadoop生态体系方面的运维,在一些小公司或者传统行业的大公司也会使用oracle.db ...

  6. 精艺熔炼,笃行致远——美和易思34期大数据技术师资项目成功举行

    近日,"精艺熔炼•笃行致远"--2019年美和易思第34期大数据师资项目训练在公司总部成功举行,来自云南.重庆.贵州.广西.山东.河北.陕西.安徽.湖南.湖北等全国各地区的18所美 ...

  7. 【大数据入门笔记系列】第一节 大数据常用组件

    [大数据入门笔记系列]第一节 大数据常用组件 大数据释义 大数据组件 跳转 大数据释义 近些年来,坊间一直流传着这样的言论:"大数据时代,人人都在裸奔".对于外行人来说,对于&qu ...

  8. python大数据运维工程师_【大数据科普系列之二】大数据运维工程师

    大数据系列岗位要求,大数据运维可能是"技术含量最高"的职位之一,这里说的大数据运维主要是指hadoop生态体系方面的运维,在一些小公司或者传统行业的大公司也会使用oracle.db ...

  9. 【PPT及视频资料】360互联网技术训练营第十六期——大数据与微服务之路

    奇技指南 7月21号,在北京360公司总部举办了[360互联网技术训练营第16期--大数据与微服务之路]. 小编这就带大家回顾下大会精彩内容,并打包送上本次的PPT和视频! 面对复杂的业务逻辑和海量用 ...

最新文章

  1. 超级实用的linux 下shell快捷键汇总
  2. CloseHandle()函数的使用(转载)
  3. 数据中心运维人的半衰期危机
  4. mysql master master_MySQL主从架构之Master-Master互为主备
  5. Java多线程中使用ReentrantLock、synchronized加锁 简单举例
  6. ZOJ1654-Place the Robots【最大匹配,图论】
  7. 数据结构03栈和队列
  8. TensorFlow 之快速上手详解
  9. css的三种引入方式 1211
  10. [msi]启动msi日志记录
  11. 2022年MathorCup A题资料汇总
  12. VB调用周立功CAN接口卡接口库函数
  13. 小程序源码:拼图工具箱支持多种拼图模式制作-多玩法安装简单
  14. 举个栗子~Tableau 技巧(225):制作事件节点时间轴
  15. 若要接收后续 google chrome 更新,您需使用 windows 10 或更高版本
  16. Linux查看内存信息(型号、大小、速率等)
  17. (8)香橙派+apache2与php+天猫精灵=自建平台语音支持--天猫精灵对接3
  18. 型如=?gb2312?B?的转码
  19. HTTP和RTSP简介
  20. CentOS7如何设置开机自启动程序、开机自启动脚本?

热门文章

  1. 单片机实现数字滤波——加权平均滤波
  2. 流媒体技术服务器常用部署方式
  3. 怎么脚本控制虚拟机的服务器,宿主机脚本控制虚拟机
  4. 消防工程师 1.1 消防给水及设施(1)
  5. 关于720度全景图你要知道这些内容
  6. 跑跑卡丁车超级加速外挂能用的下载
  7. 携程 java_携程Apollo(阿波罗)安装部署以及java整合实现
  8. UG NX导出2D图纸
  9. Win8 Metro(C#)数字图像处理--4图像颜色空间描述
  10. 打印机修复工具_Macbook无法开机?如何修复并使其重新启动