背景:5月23-24日,以“焕启”为主题的腾讯“云+未来”峰会在广州召开,广东省各级政府机构领导、海内外业内学术专家、行业大咖及技术大牛等在现场共议云计算与数字化产业创新发展。腾讯云大数据产品中心总经理刘煜宏在24日下午的AI大数据专场论坛,介绍了在大数据时代背景下,腾讯是如何打造全域数据体系的。

今天我们的论坛名字叫AI大数据,我们前面的嘉宾讲的都是AI,我主要讲讲大数据。AI确实很厉害,能够帮助各行各业解决不同场景的很多问题,如果说AI是个武器,那大数据就是弹药,如果没有了弹药,那么武器也很难发挥该有的功效。

我今天的主题叫《全域数据体系建设》,什么叫全域数据体系?大家理解可能是不一样的。有一横一纵的两个理解,一个是所有的行业、所有领域的整合,比如说举个例子,像旅游大数据,它可能包含了文化、交通、餐饮、住宿、保险等行业,全部整合在一起,这是全域大数据的概念。也有一个纵向的概念,比如我们从数据的生命周期来看,数据从我们业务的在线系统里面产生,然后流转到我们的分析系统,比如大数据平台,或者数字仓库里面;然后再到应用平台比如AI应用平台里面做各种各样的应用,最后回到我们的在线系统,形成一个循环,这也是一个全域数据体系。

我们怎么建设全域数据体系的呢?大家都知道,腾讯其实有很多种业务的类型,有支付、社交、游戏等等。这些数据怎么样能整合到一起呢?我们从十年前开始做大数据,当时我们就想着我们要把腾讯所有业务数据整合在一起。

当然这不是一个很容易的事情,非常困难,数据怎么样用,怎么采集进来,进来以后怎么存,存了以后怎么管理,管理之后怎么用。大家都知道,腾讯的数据很多,数据形态是不一样的。比如有些数据比较齐全,有些业务连日志都不写。我们要拿数据,就要动业务的在线系统。大家知道腾讯代理很多韩国或者其他地方的游戏,当我们发现数据不全的时候,我们想改,业务说找合作方,找韩国人等一两年,甚至可能开发团队都解散了,经常会有这种问题。数据质量是参差不齐的,这是我们遇到的巨大的困难。

还有一个困难,我们其实面临着人才的短缺。我们原来是做业务系统过来做,大家都不懂大数据。我相信很多企业面临着和我们一样原来遇到过的问题。

现在回过头来看,我们基本上都解决了这些问题。从技术上讲,腾讯所有业务的数据都在这里汇聚,从技术上,这些数据是互通的。但是从业务逻辑上又是隔离的,是很安全的,但只要有授权,随时可以访问得到。大家可以看一下,这是目前为止整个大数据平台数据量。我们平台每天收到有13万亿条数据,平台上各种实时计算超过3.5万亿次/天,我们的资源调度系统为了支撑离线任务每天要启动1.5亿次的容器。我们数据量超过400PB。为了支撑这么大的体量,我们用了3万多台机器支撑。我们的梦想算是已经实现了,可见要实现这个梦想难度还是很大的,花了我们将近10年,消耗了不少青春,投了很多人,花了不少硬件资源去做。

接下来我想从数据生命周期的角度分享一下我们刚刚提到的全域数据:在线系统、分析系统、数据应用三个环节的经验。大家知道一般业务系统的在线系统跟我们的分析系统数据是隔离的,在线系统是一套数据库,为了分析又要建另外一套数据仓库。现在仍然很多业务是这样做的。我们前两年开始尝试,希望把在线系统和分析系统做一下融合,我们研发了一个系统叫TBase,这是一个New SQL HTAP分布式数据库,希望把在线事务处理和离线分析系统的数据库统一。现在腾讯内部包括微信支付也在用这套数据库。另外TBase也已经发布,通过腾讯云开放出来给大家用。这个数据库支持OLTP和OLAP的融合,在TP上每分钟能达到300万次的事务处理,AP的分析性能也比业界标杆高5倍左右。在线和分析系统的融合应该算是目前数据库发展的趋势之一,也是我们的经验。

第二个环节,我们的大数据平台主要为了支撑分析系统,这里面最困难、最突出的就是刚才提到的数据治理的问题。我们那么多业务,很多类型,业务区别很大,每一个业务对数据的理解和使用都是不一样的。数据是一种资产,这种资产非常重要,所以我们一定要保障好数据资产在我们平台里面的安全和质量,不能错,不能丢。数据从哪里来?流向哪里?数据和数据之间的关系是什么样子的,血缘和关系我们都要搞清楚。

腾讯内部业务是很庞大的,也很独立的,我们是怎么把以前数据不规范比较乱做到现在比较有序、有效治理的状态,我有三点经验可以分享。第一,贴身服务。我们花了很长时间梳理数据,花了差不多三年时间,帮每个事业群做系统迁移,我们派人坐到他们身边,一个个业务帮他们啃骨头,帮他们梳理,迁移报表。第二,我们建立一套实时数据采集平台,我们从数据的源头开始采集数据,这样就能控制数据质量,跨过很多中间环节,我们自己制定各种数据的标准。第三,我们建立一套平台给他们用,我们提供很强大的计算资源。而这里我们汇聚了很多其他不同业务的数据。一个业务想接入我们的平台,想享受这种数据可以互通的红利,享受着我们这么庞大的资源支撑。他就要接入我们,我们制定规范,让他必须遵循规范、遵循标准。这是我们做数据治理的三点体会。

分析系统后面就是我们的应用,腾讯那么多业务,每一个企业都想做个性化的应用,想做个性化的推荐,包括内容、广告的推荐,游戏里面还有个性化的道具推荐。每一个业务都想自己做,那我们做了里面最基本的东西,我们把所有的用户相关的数据汇到一起,我们从底层用户画像做起,我们建立一套以用户为中心的用户画像,支撑上层的业务发展。底层基础要打牢,上面的应用才能支持得好。这个用户画像现在支撑着腾讯所有效果广告,带来精准效果提升每年超过10%。不要小看10%,这是大概每年都有几十亿的收入,还是很可观的。一定要把底层数据基础打牢,才能更好做上面的应用。我们要变成一种数据服务,现在这个服务也是通过腾讯云开放出去,叫数字营销,大家都可以尝试一下使用(他二哥注:大家可以点击公众号菜单的“技术平台”-“应用”,找到这些数据服务)。

回顾大数据平台发展,我们是从离线的计算到实时计算,再到机器学习这三个阶段,从数据层面来讲,我们都是一个个分散的系统,这一个做存储,另外一个系统做cache,又另外一个做多维查询分析,都是分散的、孤立的,每个数据不互通。后来我们从数据采集、到存储到可视化,把所有数据整合在一起,变成套件的东西,然后又把这个套件变成一个平台,可以让大家接入,变成一个服务化的东西,大家可以调用我们的服务。在应用方面,我们也切合AI的浪潮,我们在上面做了机器学习的平台,向着智能化应用的发展。原来我们是通用的数据平台或者机器学习的平台,但现在和行业联合得越来越紧密,我们根据垂直行业不同场景化需求,给他们出各种解决方案。

整个发展的主线路就是从零散到整合,从通用平台到贴合场景化。

现在我们把这种平台也开放出来,我们把数据采集、分析挖掘到可视化,整个链条所有平台我们通过腾讯云开放出来了,我们希望能够加速大家在数据处理方面的效率,能够帮助大家在全域体系建设方面能够使用它。

我们在2016年7月份也是云+未来峰会上我们发布一个大数据产品,就叫大数据套件——TBDS。刚才提到以前我们很缺乏人才,很多企业也面临这样的问题,想做大数据,但是没有大数据人才。这个产品就是可以让你们没有大数据人才也能用上大数据平台,这是这个产品的初衷。最近我们更新了很多,把最重要的做数据治理的功能做了很多的完善,也是今年更新到我们的版本里面。我们在上面做了很多服务,做了很多工具,提升大家使用的效率,值得一提的是,我们不只支持腾讯内部的版本,还兼容业界比较流行CDH和HDP的版本。

除了平台开放出来,在腾讯云云端上,如果大家留意会发现很多数据服务,不只是平台,还有数据的服务。比如移动分析服务,会分析很多APP的行为,还有反欺诈的服务,还有一些其他的数字营销的服务,LBS地理位置的服务。这是一种数据服务,可以给到用户使用的服务。云端的用户可以用自己的数据和我们数据服务做一个整合,来建设自己的全域的数据体系,这样不只是你自己的数据,还可以和别的数据做融合、跨界。

平台开放了,我们的数据服务也开放了,在云端,其实不只是平台和服务,还有生态。我们很多行业比如能源、交通、教育等等,这里汇聚了所有行业的用户以及为这个行业服务的开发者。这里面真的是一个繁荣生态社会,每一个客户在这里都能找到跨界的可能。比如能源,可以和交通、气象服务结合起来,更好服务于客户。就像腾讯内部一样,我们建了一个大数据平台,让腾讯内部所有产品之间结合,比如游戏和视频产品结合起来,这样能够产生更多的创新。在我们的云端,大家也是可以这样,找到跨界的机会,能够产生更多创新的可能,挖掘更多数据价值。

最后这是一个例子,昨天上午的圆桌论坛上,中国银行的张行长也提到,中国银行利用腾讯的一些数据分析的能力,利用我们的平台能力,结合了一些公共的网络空间的数据服务,结合了一些公共的舆情的数据服务,去升级他们的风控系统,在他们的风控系统上做各种各样的创新,加固他们的风控平台。

这就是我们利用平台利用我们的数据服务结合传统很多行业的场景,产生的一个化学的反应,这样的案例会越来越多。我们也希望通过我们的平台能力,通过我们的数据服务再结合各位手上很多业务的场景,能够产生不一样的效果,能够带来很多创新。我们也希望能够帮助大家发现更多的数据的价值,这也是我们做大数据的梦想。

这就是我的分享的内容,谢谢大家。

后台回复“数据体系”,可获得本次演讲完整PPT!


腾讯技术工程官号

腾讯前沿技术 | 产品 | 行业信息交流发布平台

腾讯云大数据产品中心总经理刘煜宏:企业全域数据体系建设(附完整PPT)相关推荐

  1. 腾讯技术工程 | 腾讯数据平台部总监刘煜宏:这5大产品平台,展示了腾讯大数据的核心能力...

    12月13日,"2017互联网+大数据高峰论坛"在北京中国大饭店拉开帷幕.来自政府.研究机构及高校.企业的大数据专业人士共聚一堂,以"慧聚数据之力,赋能智慧政企" ...

  2. 数据中台:不是产品,不是技术,到底是什么?(附完整PPT下载)

    导读:数据中台是一道关乎企业未来的选择题.本文从数据中台的视角来看企业创新是如何升级. 作者:江敏 来源:大数据DT(ID:hzdashuju) 本文摘编自数澜科技联合创始人兼副总裁江敏在2020-2 ...

  3. R语言生成仿真的3D高斯簇数据集、使用scale函数进行数据缩放、并使用KMeans进行聚类分析、数据反向缩放并比较聚类生成的中心和实际数据的中心的差异、预测新的数据所属的聚类簇

    R语言生成仿真的3D高斯簇数据集.使用scale函数进行数据缩放.并使用KMeans进行聚类分析.数据反向缩放并比较聚类生成的中心和实际数据的中心的差异.预测新的数据所属的聚类簇 目录

  4. 什么是数据产品,怎么设计一个好用的数据产品

    何为数据产品?从广义上讲,一切以数据作为驱动或者核心的都叫数据产品(例如数据报表平台.DMP.搜索与精准化产品.风控产品等等),从狭义上讲,就是公司的内部数据平台.今天和大家讨论的,主要是关于公司的内 ...

  5. 以数据为中心的路由协议_NDN赋能IPFS构建数据为中心的网络架构和应用服务,真能颠覆现有网络体系吗?...

    Web 3.0时代激发数据价值的交换 Web 1.0时代我们建立了互联网数据档案.在20世纪70年代初至80年代末,发明家和开发者建立了我们现在所知道的互联网的大部分基本功能和基础设施--即硬件.软件 ...

  6. 金融科技大数据产品推荐:Chinapex创略智能客户数据平台——开启智慧营销之旅

    智能.实时的客户数据平台是一个独特的解决方案,由AI和机器学习驱动,助力企业完成从多数据源采集.分析,到数据运用的闭环,支持各种客户相关的应用场景,包括营销.客户体验优化,以及运营等 官网 | www ...

  7. 千字搞定数据产品选型!报表、BI、大数据平台、中台都在这了

    来吧,废话不多说,直接上干货! 到现在还在做报表的,已经很少了.上面三家都是中国主流报表厂商.不过在国外BI厂商的市场压力面前,也都做了BI套件.主流的就帆软,水晶报表最近见的少了. 普通小厂,1.2 ...

  8. 大数据时代,华为云BI助力企业挖掘数据“宝藏”

    进入21世纪,互联网的急速发展,带动着互联网企业的强势崛起,其在商业中也扮演着越来越重要的角色.互联网行业已经成为一个庞大而活跃的产业,"中国制造2025"以及"一带一路 ...

  9. Python数据可视化:2018年北上广深空气质量分析(附完整代码)

    ♚ 法纳斯特,Python爱好者,喜欢爬虫,数据分析以及可视化. 就在这周偶然看到一个学弟吐槽天津的空气,不禁想起那段厚德载雾,自强不吸的日子. 无图无真相,下图为证. 左边的图是去年2月份的时候,这 ...

最新文章

  1. swift 加载gif 框架图片
  2. MBA 工商管理课程-风险型决策方法
  3. Openssl私建CA
  4. 宜昌远安谋定功能性-农业大健康·万祥军:绿色和谐新路
  5. [BUUCTF-pwn]——jarvisoj_test_your_memory
  6. Rtx 实时通知实现
  7. Micro-CMS v1
  8. 调整样式_“寒来暑往”美国海军陆战队应季节调整迷彩样式的规定变化
  9. 关于垃圾回收,我来解释下为什么LocalConnection可以实现垃圾回收
  10. 数据结构与算法python—1.数据结构与算法入门
  11. iOS延时执行的几种方法
  12. 土壤有机质空间分布数据
  13. android 单独编译contacts,Android编译全过程
  14. et文件丢失怎么恢复?5种恢复方法轻松掌握
  15. 使用Vim/Neovim编辑二进制文件
  16. 信息泄露事件频发 快递行业的隐私面单之战
  17. 苹果延长13英寸MacBook Pro背光维修计划
  18. 字节跳动疯狂挖人,校招平均年薪30万,我还有机会吗?
  19. flume多节点集群搭建
  20. android6.0官方镜像,安卓x86 6.0 iso下载

热门文章

  1. jQuery获取iframe的document对象的方法
  2. 将计算机退出域 脚本
  3. postfix+squirrelmail - rhat 5.4
  4. 洛谷 - P3356 火星探险问题(最大费用最大流+拆点+路径打印)
  5. 洛谷 - P1025 数的划分(dfs)
  6. 中石油训练赛 - Isomorphic Inversion(哈希+贪心)
  7. 图书管理系统c++_校园图书系统写后感
  8. html设置返回的样式,jQuery设置或返回元素样式属性。
  9. PTA 寻宝路线 (40 point(s))
  10. 3_3 ObserverMode 观察者模式