引言

是否遇到过,一个简单的业务统计需求却让数据工程师们抓耳挠腮?

是否遇到过,业务峰值周期明显,要么资源大量闲置, 要么线上疯狂告警?

是否遇到过,大数据集群运维复杂,需要投入大量技术工程师?

针对以上痛点, 腾讯云发布云原生数据湖计算服务,协同腾讯云端数据湖体系,帮助企业高效构建云端数据湖架构、降低数据计算成本,提升数据分析敏捷性、激发数据应用价值,助力企业数字化决策。

本文作者:ericshhxie



一、数据湖的前世今生



2010年 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念。把数据湖中的数据比作原生态的水——它是未经处理的,原汁原味的。数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水(数据)。此时, 大家对于数据湖的理解主要是当作一个集中式的存储系统,允许存储任意规模的结构化和非结构化数据。

随着存 HDFS 和对象存储等技术的发展, 海量数据的低成本存储问题得以解决,用户对湖中数据价值萃取的诉求愈发强烈。至此,数据湖重点从存储转向数据的计算分析,核心在于提升数据分析的敏捷性、增强对数据的洞察力。

2017年前后,兴起了新一轮的 AI 热潮。深度学习和超大规模的神经网络更离不开对海量数据文件的敏捷处理。借助数据湖架构,可以更好地打通数据之间的壁垒,支撑AI 模型训练、推理以及数据预处理。

发展至今, 数据湖已经不再局限于某个技术、某个软件产品,而是涵盖数据湖存储、数据湖计算、数据湖AI的多元化数据架构,满足企业级用户的生产管理需求。



腾讯技术和产品发展至今,几乎任何一个与用户相关的业务数据量都在亿级别,每日系统调用次数从亿到百亿,对海量异构数据的低成本存储和高敏捷分析是最重要的关注点。我们认为:“数据湖是企业新一代数据技术架构,可以赋予客户更高的数据敏捷度、更低的分析成本,而云是数据湖的最佳实践场所”。



二、腾讯云原生数据湖架构



选择 Cloud 还是 Local 的诸多讨论和实践中,成本一直是绕不开的话题。“在云端部署数据架构不如想象的便宜”,国内不少刚开始接触云服务的企业会有如此感叹。反观国外很多中大型企业(例如 Netflix,Pinterest),或者体量较大的中国出海公司(Shareit,Mobvista)更偏向于选择公有云服务。其核心差异是云原生技术的普及和落地,如何更好的利用云服务的优势,达到比本地自建大数据平台更低的IT成本,是云服务厂商和企业用户共同探索的关键点。

为了解决海量异构数据的存储和敏捷分析问题,腾讯云推出了云端数据湖体系,其包含:海量异构数据的存储能力、面向多元化场景的分析能力、音视图文的 AI 智能化能力。客户借助于腾讯云“数据云原生”能力, 高效构建企业级数据湖架构, 降低企业数据成本 、 提升企业数据敏捷性,助力企业数字化决策。



腾讯云数据湖体系围绕数据湖存储、数据湖计算、数据湖 AI,覆盖数据业务全场景,形成综合性云端数据湖解决方案。目前,腾讯云数据湖体系已服务众多内外部客户,算力弹性资源池达500万核,存储数据超过100PB,日采集数据量超500TB,每日分析任务数达1500万,每日实时计算次数超过超过万亿,能支持上亿维度的数据训练。



三、云原生数据湖计算



通常使用大数据分析组件对对象存储中的数据进行分析时, 会面临两个核心问题:

  • 如何基于云服务兼容特性屏蔽底层架构,降低计算成本?

  • 如何加速和优化存储侧的性能瓶颈?





为了解决数据湖敏捷高效的分析和计算问题,腾讯云推出一款开箱即用的数据湖分析服务——腾讯云数据湖计算(Data Lake Compute,DLC)。

该服务采用 Serverless 架构,用户无需关注底层架构或维护计算资源,使用标准 SQL 即可完成对象存储服务(COS)及其他云端数据设施的联合分析计算。借助于该服务,用户无需进行传统的数据分层建模,大幅缩减了海量数据分析的准备时间,有效提升企业数据敏捷度。



腾讯云 DLC 服务联合腾讯多个团队深耕核心技术, 以提供一款高性能数据计算服务为目标,实现了如下几个关键技术特征:



  • 数据湖高性能计算



腾讯云 DLC 引入高性能 serverless presto 引擎,针对数据湖底层存储的特点,在稳定性和性能方面做了大量的优化。

数据倾斜多年来一直是数据工程的宿敌,对云原生数据湖架构而言却是个好消息:在数据 scan 阶段,数据热度的巨大差异可以用很少的缓存来撬动很好的加速效果。在腾讯常见的大数据场景中,我们发现 read-only 的请求的缓存命中率高达75%-85%,甚至可能更高。

除了缓存加速,减少数据文件的扫描量在数据湖架构下更重要,如何做好数据排布需要新一代的建模技术。除了分区,分桶等传统技术,稀疏索引在数据湖扮演非常重要的作用。AP 向 TP存储格式设计的靠拢大大加速了分析性能,可以看到一些高性能数仓技术如 clickhouse 都会引入稀疏索引技术,在不过分消耗存储的基础上大大提升了查询性能。



  • 数据湖存储透明加速



客户最关注的问题是:如何把数据快速输送给大数据引擎,让引擎高效率工作。这是腾讯云工程师们一直在思考的问题。

对象存储服务 COS 作为数据湖统一存储服务,在确保数据安全、可靠、无限扩展能力的基础上,针对大数据业务 IO 特点做了进一步性能优化,分别在计算端、AZ 端、存储端提供了性能加速能力。



这三级加速位于数据湖计算引擎和 COS 持久化存储之间,为数据分析和存储系统建了桥梁, 将数据从 COS 对象存储移动到距离数据应用更近的位置,使数据能够更容易被访问到。层次化的加速架构,使得数据的访问速度能比现有方案有数量级的提升。



  • 低成本,无限算力云原生数据湖



相对于传统固定规模集群,腾讯数据湖技术完全基于腾讯云弹性容器技术(EKS)构建,理论上“无限”的计算资源随时可供秒级调度,满足不同规模的计算任务,使用者再也不用关心底层资源的部署和运维。

在传统基于物理机/虚拟机的大数据架构下,往往要维护一个规模相对固定的计算集群,资源成本存在巨大的浪费。而云数据湖技术真正做到了随用随弃,充分利用弹性计算资源。计算引擎资源的创建、自动扩缩容、删除、秒级监控等功能全部交由 EKS 的控制模块来负责,用户只需直接提交计算任务即可。当 DLC 预测到当前算力即将不足时,动态扩容计算资源以补充算力,作业无须重新执行,大幅度减少集群空闲时的成本浪费,同时又能快速响应各种临时 /backfill 需求。



四、腾讯云原生数据湖技术未来展望



随着企业对数据驱动业务需求的加深,也随着海量数据分析技术的成熟,传统单一的数据架构也没法满足多变的数据分析需求。腾讯云推出云原生数据湖体系,一方面降低数据存储和分析的成本, 另一方面大幅度提升数据分析的敏捷性。

腾讯云数据湖体系架构,未来将会继续在如下几个方面继续深耕,进一步推动云端数据湖的技术发展。



  • 灵活高效的计算引擎调度

在大数据领域,没有一个万能的 SQL 执行引擎,不同的计算引擎擅长不同的任务。基于腾讯大数据漂移计算技术,可以智能选择对应最佳的计算引擎,支持数据源下推和 CBO 优化,提供更佳的分析性能。



  • 增强数据湖入湖能力

提供更优的数据入湖能力,支持 ACID 事务能力,可以大幅缩短数据入湖操作流程,提升 ETL处理效率。



  • 更优的流批处理能力

提供流式增量和批式全量处理能力,使用相同的高性能存储模型,数据不再孤立,架构更简单。



  • 更好的兼容性和扩展性

更好的适配支持 Hadoop 生态,对象存储的语义,结合 Cache 能力解决对象存储性能问题。支持智能行列混存,针对读/写不同场景下有更好的性能。



  • 更低成本的 Serverless 算力支持

EKS 即将推出更具成本优势的竞价型容器服务, 进一步减少数据湖计算资源的成本消耗,从而更降低用户使用数据湖分析的价格。



云端数智新引擎,腾讯云原生数据湖计算重磅发布相关推荐

  1. 听说,难于上青天的云原生数据湖能开箱即用了?

    导语 | 云原生数据湖架构以低成本优势推动客户上云,同时云上客户得以低成本撬动更多结构化和非结构化数据的价值,是一场云厂商的自我革命.本文由腾讯大数据专家工程师于华丽在 Techo TVP开发者峰会「 ...

  2. 如何用好云原生数据湖?

    简介:数据湖可以很好地帮助企业应对当前数据场景越来越多.数据结构越来越复杂.数据处理需求越来越多样化的问题.阿里云从2018年起就开始布局数据湖,推出了云原生数据湖分析Data Lake Analyt ...

  3. 「星火计划沙龙视频」云原生数据湖专场

    7月15日,腾讯大数据星火计划技术沙龙第9期<腾讯大数据云产品--云原生数据湖专场>于线上直播.本次沙龙围绕云原生数据湖架构的背景价值展开,详细介绍了腾讯云原生数据湖解决方案,为大家解读了 ...

  4. 云原生数据湖为什么要选择腾讯云大数据DLC,一份性能分析报告告诉你!

    摘要 日前,腾讯云大数据数据湖计算 DLC 与国内两家知名云厂商的数据湖产品进行了性能对比,其中腾讯云 DLC 在三款产品中SQL平均执行查询时间短,性能表现优.腾讯云大数据 DLC 在存算分离和大数 ...

  5. 的数据湖_一文读懂云原生数据湖体系

    导读:如何基于阿里云 OSS .JindoFS 和数据湖构建(Data Lake Formation,DLF)等基础服务,同时结合阿里云上丰富的计算引擎,打造一个全新云原生数据湖体系? 作者 | 吴威 ...

  6. 云原生数据湖分析DLA 2020年年度总结

    简介:主要讲述阿里云数据湖分析DLA 2020年的进展~ 一.概述 2020年黑天鹅事件不断出现,疫情给人们的生活也带来了改变.在后疫情时代,伴随着云原生技术的发展,企业寻求更加敏捷.更加灵活的数据分 ...

  7. 云原生数据湖以存储、计算、数据管理等能力通过信通院评测认证

    又一项大能力-云原生数据湖获得信通院认证啦! 近日,中国信息通信研究院 (以下简称"信通院") 正式公布了第十四批"大数据产品能力评测"结果,腾讯云云原生数据湖 ...

  8. 一文读懂云原生数据湖体系

    凌云时刻 · 极鲜速递 导读:如何基于阿里云 OSS .JindoFS 和数据湖构建(Data Lake Formation,DLF)等基础服务,同时结合阿里云上丰富的计算引擎,打造一个全新云原生数据 ...

  9. 基于华为云原生数据湖MRS HetuEgine的数据虚拟化实践

    [摘要] 大数据时代的技术特点导致一个企业的数据分散存储在不同组件甚至不同地域的不同组件之中,为企业数据的高效使用带来挑战.数据虚拟化技术使应用在不关心数据源的数据格式及物理存储位置的情况下以一种统一 ...

最新文章

  1. 面试官:支撑日活百万用户的高并发系统,应该如何设计其数据库架构?
  2. aio 爬虫,去重,入库
  3. 2019蓝桥杯省赛---java---C---1(求和)
  4. createprocess失败代码2_pytest文档57单元测试代码覆盖率(pytestcov)
  5. 为ASP.NET控件加入快捷菜单
  6. excel两个表格数据对比_Excel表格技巧—如何统计数据个数
  7. 中国可生物降解和生物可吸收支架行业市场供需与战略研究报告
  8. MyEclipse 启动报错:‘Building workspace‘ has encountered a problem解决方法
  9. 四叶草启动linux黑屏,四叶草剧场黑屏进不去解决方法一览
  10. PLC跑马灯程序设计
  11. 复制虚拟机出现”适配器 的mac地址在保留地址范围内‘’
  12. matlab ascii显示,matlab ASCII 格式导入
  13. 冰点还原8.53破解版
  14. IIS反向代理 URL重写 404或500 错误问题的解决方案
  15. SpriteKit:模拟器中播放效果音有延时的解决办法
  16. window.XMLHttpRequest
  17. SVM原理及推导过程
  18. 如何使用Flutter的指纹设置本地认证
  19. linux怎么把一个文件去重复,找到Linux系统里重复文件的6种方法
  20. 华为nova7 pro怎么升级鸿蒙,2020年华为开发者大会:年内推出手机版鸿蒙系统

热门文章

  1. Coggle 30 Days of ML【打卡】广告-信息流跨域ctr预估
  2. 使用STWI101WT-01串口屏便携式监护仪
  3. GUI猜数字游戏,直接开玩...
  4. excel小写转大写公式_EXCEL中文小写数字怎么转化成阿拉伯数字呢?
  5. 基于PRET - Printer Exploitation Toolkit的渗透测试
  6. 《Using Cardio-Respiratory Signals to Recognize Emotions Elicited by Watching Music Video Clips》部分意译
  7. CNN、RNN、LSTM、BERT等引用格式
  8. 树莓派入门 - 初步安装和几种远程连接
  9. svn代码量统计工具
  10. 手把手实现一个深度学习框架(附代码实现)