金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

接入消息量:55万亿

实时计算:65万亿

分析任务:1500万

……

可以想象吗?这些万亿级的数字,竟是一家企业每天都要处理的数据量。

没错,这就是腾讯大数据

但更让人意想不到的是,它现在打算让如此海量的数据分析、处理工作,进入“无人驾驶”状态。

数据量之大暂且不提,单就安全这一块,不得拿捏到位吗?

天工,腾讯的第四代大数据平台

原来,腾讯大数据的底气,来源于其最新发布的计算平台:

名曰腾讯大数据-天工,是腾讯自研的第四代数智融合计算平台

而纵观对整个平台的介绍,可以说“打通”一词贯穿了所有。

具体而言,腾讯大数据要打通的是数据,是技术

理想虽美好,但现实很残酷。

细思便知,数据结构等不一致带来的“孤岛”情况、数据安全等存在的隐患,以及不同技术融合背后的难度……

困难的程度,就不言而喻了。

那么此局又该如何破解?

一言蔽之,三步走

一个“安全”,一个“统一”,最后一个“智能”。

先来谈谈安全

目前“数据孤岛”的情况较为普遍,一来从逻辑角度来看,因不同部门、组织对数据的定义、理解的差别而形成;二来从物理角度,因各种数据的独立存储、独立维护而产生。

但欲消除“数据孤岛”,一个大前提就是要保障数据安全,而且是重中之重的那种。

自研的隐私计算技术,就是腾讯大数据解决这一难点的“锦囊”。特点如下:

  • 全方位保护:从机器学习到大数据分析,全场景提供保护

  • 去中心化架构:没有“中间商”,避免隐私泄露风险

  • 软硬件加密双保险:高强度数据加密+TEE硬件

或许这样的描述,在感官上并不够直接,那么接下来的一个数据便可体现隐私计算对安全要求的高度。

例如RSA密钥长度在安全性极高的金融领域,尚且是2048bit;而腾讯大数据隐私计算所采用的长度,则达到了3072bit

除此之外,这项技术也早已有了“实践性的检验”。

在iDash 2020世界隐私计算大赛中,腾讯便凭借此技术夺得冠军,这也是中国企业在此项比赛中的第一次夺冠。

再来谈谈统一

除了数据之外,腾讯大数据要在技术层面也要做到打通,具体而言,就是将人工智能 (A)和大数据 (B)融为一体。

这也是反映出了目前业界存在的一个现状,也就是“A”和“B”的框架技术没有得到很好的复用。

虽然二者看似是“貌合神离”的样子,但其实它们的本质技术是类似的,例如:

  • 均可抽象为DAG(有向无环图)

  • 要素相同:数据、算子、数据流

  • 均可算子合并、及时编译、执行优化

因此,通过将人工智能和大数据技术的打通,便可以更好地适配CPU、GPU、NPU、FPGA等硬件。

最后,是智能

腾讯大数据在这一步的目标较为清晰:

万亿级数据分析将实现“自动驾驶”。

这也是为了解决目前“大数据平台依赖人工”的问题。

为此,腾讯正在构建平台大脑,推动万亿级大数据分析逐步实现“自动化运营”。

究其本质,这也是一个从“被动”到“主动”的转变过程,即从“快速发现大数据运行问题”到“主动发现问题”,再到“主动解决问题”。

据介绍,腾讯的平台大脑预计可让数据中心研发效率提升60%,运营效率提升50%,平台服务质量提升80%

……

但总归“第四代数智融合计算平台”是一个较大的概念,是否有更为具体的产品?

有的,Angel PowerFL,腾讯借此之际,还正式推出了这款安全联合计算平台

据了解,Angel PowerFL拥有全栈的联邦学习和深度学习功能:

支持多方联邦逻辑回归、XGBoost、PCA、用户自定义神经网络模型,支持多方联邦模型在线serving和模型管理,支持联合数据分析。

隐私保护方面,Angel PowerFL提供了多种机制的选择,包括同态加密、秘密分享、差分隐私、可信执行环境(如SGX)等。

在不同场景下,可以有针对性地选择不同的安全保护级别。

迭代部署方面,Angel PowerFL采用的是“计算层和服务层分离”的方式。

这样做的目的也为了更好地支持多种方式部署、灵活资源扩缩容。

而且所有的服务组件都是部署在K8S集群上,这样一来,就可以方便对接TensorFlow和PyTorch等常用深度学习框架,也利于进行分布式深度学习模型训练和推理。

最后,腾讯大数据联合腾讯研究院还推出了《腾讯隐私计算白皮书》,从多个方面,包括发展背景、技术体系、重点应用行业和场景、数据安全合规、未来发展前景等,对隐私计算做了深入的解读和研究。

(公众号内回复“腾讯隐私计算白皮书”即可获取)

12年更新四代,每一步都做了什么?

正如刚才提到的,腾讯大数据的计算平台已经衍变到了“第四代”。

而纵观发展历程,此次的迭代并非是一蹴而就,而是step by step

早在2009年,腾讯大数据便推出了第一代计算平台,主要模式是离线计算,主要依托Hadoop的生态,优化范围也是限于局部。

耗时较长,是第一代计算平台的劣势,处理任务的时间长达小时甚至是天的级别。

基于此,从2012年开始,腾讯大数据便着手于实时计算,并推出了第二代计算平台

当时,基于Spark/Storm等实时计算处理框架,让腾讯大数据在处理任务上步入了“毫秒时代”。

而到了2015年左右,深度学习在全球可谓是刮起了一阵热潮,在此趋势的推动下,腾讯大数据推出了第三代计算平台

与此同时,自研机器学习框架Angel,也成为国内第一个从Linux基金会“毕业”的AI项目。

而到了2020年,腾讯大数据有了新的思考。

一方面,是来源于数据规模的不断扩大,已经到了需要将流式计算和批量计算做融合、AI体系和大数据体系做融合的阶段。

另一方面,是来源于对数据隐私的思考:

如何在数据“足不出户”的情况下,既做到数据流、应用流和交易流的融合,又能保障数据的隐私安全。

不难看出,腾讯大数据计算平台到现在的发展,实则是基于每一阶段的“硬需求”而做出的变化。

与此同时,也完成了从依赖开源,到自主研发的华丽转身。

如何评价?

最后的一个问题:

该如何来看待腾讯第四代数智融合计算平台?

首先,出发点是非常的清晰了。

大数据这座矿山的价值,在数智深度融合的当下并没有发挥全部的潜能,甚至很大一部分的能量还有待开发。

并且大数据已然成为新型基础设施的重要组成部分,相关产业的发展正是迎来新阶段的关键时刻。

安全地打破“数据孤岛”,无疑会加速和提升大数据自身及产业的价值。

其次,让数据分析“自动驾驶”是否够靠谱

众所周知,在自动驾驶领域会对车辆按照智能化来分级,一个形象的比喻就是“L3是发现问题”、“L4是分析问题”,而“L5是自动解决问题”。

腾讯大数据对自身的技术现状,则定位在了向L4迈步,并给出了对于未来“自动驾驶”的理解:

希望对平台所有软硬件指标都能完整收集,并形成知识图谱,平台里任何一个问题和异常,平台大脑能第一时间感知,根据问题图谱进行根因分析,精准定位源头,是软件引起的还是硬件引起的,并能根据异常的不同影响级别,根据决策树和现网知识库形成最适合的处理方式。

这个过程,不需要人工来干预,都是平台自身智能地在处理,极大地解放研发和运维人员的生产力。

其中之关键之一就是隐私计算,是另一个值得讨论的话题。

虽然是由谷歌率先提出,但随着理论与实践的不断碰撞,加之实际应用场景规模之大,它已然不是最初的那个“味道”。

因此不得不说,隐私计算技术目前还是处于早期阶段,需要解决和应对的问题还有很多:

开源技术是否会最终再次趋同?技术演进方向会怎样?与法律法规又该如何碰撞?

腾讯大数据给出的答案是:

让子弹再飞一会,鼓励技术有百花齐放的状态。

腾讯大数据平台,要“没人管”了相关推荐

  1. 腾讯大数据平台构建之道

    点击上方 "大数据肌肉猿"关注, 星标一起成长 点击下方链接,进入高质量学习交流群 今日更新| 1052个转型案例分享-大数据交流群 导读:腾讯作为国内体量最大的互联网公司之一,业 ...

  2. 专访腾讯蒋杰:深度揭秘腾讯大数据平台

    大数据,这个词越来越热,很多人都在谈大数据,其实很多张口闭口大数据的人,或许都不知道数据是如何产生.传递.存储.运算到应用的.其实我一直感觉大数据这个东西有时候真的不是一般企业可以玩的溜的,特别是随着 ...

  3. 腾讯云公布大数据平台最新数据,日实时计算量超40万亿

    9月11日,在2020腾讯全球数字生态大会上,腾讯云副总裁刘煜宏透露,腾讯云大数据平台的算力弹性资源池达500万核,每日分析任务数达1500万,每日实时计算次数超过40万亿,能支持超过一万亿维度的数据 ...

  4. 腾讯大数据第四代数智融合计算平台正式发布!引领大数据计算进入下一时代

    导读 / Introduction 4月18日,在 "腾讯大数据高峰论坛"上,腾讯正式发布自研第四代数智融合计算平台"腾讯大数据-天工",该平台以最新的&quo ...

  5. 引领大数据计算进入下一时代,腾讯大数据第四代数智融合计算平台正式发布!

    4月18日,在 "腾讯大数据高峰论坛"上,腾讯正式发布自研第四代数智融合计算平台"腾讯大数据-天工",该平台以最新的"数据协同.技术互通.平台大脑&q ...

  6. 腾讯大数据回答2019:鹅厂开源先锋,日均计算量超30万亿,全力打破数据墙

    乾明 发自 腾讯汇  量子位 报道 | 公众号 QbitAI 开源,开源,开源. 这就是腾讯2019年技术领域最直观的变化. 最新代表事件,来自于腾讯首个开源的AI项目Angel,完成3.0版本进化后 ...

  7. 腾讯大数据总体架构图,对外公开!

    导读:腾讯作为国内体量最大的互联网公司之一,业务涵盖用户日常生活的方方面面,面对如此巨大业务数据量,如果不能对数据进行专业化处理并高效有序地存.管.用,如果不能使数据产生应有的价值,那么数据资产将会成 ...

  8. 多图技术贴:深入浅出解析大数据平台架构

    目录: 什么是大数据 Hadoop介绍-HDFS.MR.Hbase 大数据平台应用举例-腾讯 公司的大数据平台架构 "就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在 ...

  9. 支撑EB级规模的大数据平台深度揭秘

    编者按: 4月20日,云栖大会走进深圳,由阿里云高级数据仓库专家陈鹏宇(花名:不老)分享的环节内容量巨大,引发现场用户关注.他分享的议题主要围绕阿里云数加平台,这一发布不久的大数据平台对很多人来说还比 ...

最新文章

  1. 张一鸣:10年面试2000人,我发现混得好的人,全都有同一个特质
  2. WebGIS--ArcGIS系列开发五:SDE for Oracle
  3. BZOJ 1588: [HNOI2002]营业额统计
  4. Oracle on Azure
  5. java scipt 对象 函数_java script 基本函数
  6. ios学习笔记——UIImagePickerController
  7. 因误推送“台风致全省人死亡”消息 腾讯视频push线团队全部被开?回应...
  8. Linux iptables防火墙详解(一)——iptables基础知识
  9. UVa 714 抄书(贪心+二分)
  10. 【光学】基于matlab介电常数计算【含Matlab源码 1926期】
  11. 轨迹跟踪—线性 MPC 控制算法
  12. 社团管理系统(part1)
  13. 项目管理可参考华为这10张表格
  14. Chrome网页观看百度云视频加速
  15. js对象嵌套数组_使用角管过滤嵌套数组和对象的数组并突出显示结果
  16. Linux命令hostname -i
  17. 无法启用家庭计算机共享,无法启用共享访问,详细教您无法启用共享访问怎么解决...
  18. 商业智能bi时代:商务智能常见应用实例
  19. 关于Oralce OAM/OIM及与P6/Unifier 集成SSO的想法
  20. 服务器2003蓝屏A5修复,重装XP系统时蓝屏代码0X000000A5如何修复?

热门文章

  1. 什么是Unwind segues,您如何使用它们?
  2. jQuery / JavaScript:访问iframe的内容
  3. Python批量将ppt转换为pdf
  4. [Contest20170910]string
  5. 详解LAMP源码编译安装
  6. 3Mysql 的常用操作
  7. 软件架构之美在于简单、好用、稳定、功能定位明确、代码简洁、通俗易懂
  8. Windows 2003不同域之间迁移密码方法笔记截图
  9. 如何简化Exchange 2007 OWA URL访问
  10. python取整数_python 取整函数