在近日由网易数帆、Intel联合举办的网易数帆技术沙龙大数据专场上,网易数帆大数据专家、Apache Spark Committer姚琴,有赞基础架构组OLAP负责人陈琦,Intel资深软件开发工程经理、Apache Hive Committer徐铖,网易云音乐数据专家雷剑波,以及网易数帆大数据产品专家顾平等五位专家,分别就Serverless Spark、ClickHouse、Spark/Flink加速、数据仓库和数据产品等话题分享了各自团队的最新实践。

Kyuubi:开源企业级Serverless Spark框架

网易数帆大数据专家、Apache Spark Committer姚琴分享了数帆开源项目Kyuubi的研发初衷、设计要点及其在网易的实践。Kyuubi 是一个遵循 HiveSever2 的 RPC 实现的分布式 JDBC 服务,在 Spark 赋予多租户能力后,可以让它成为一个理想的 Hive QL迁移 Spark SQL的平台,其次它将整个 SQL 的 Compiler(编译优化) 和 Runtime(执行) 全部交由 Spark 实现,可以获得非常卓著的性能。在这个框架之下,网易数帆整合 Kyuubi 和 Spark 的一些高级特性,开始了 Serverless Spark(Spark as a service)之旅。

由于 Kyuubi 封装 Spark 高阶 API,通过C / S 架构提供,用户对 Spark 相关的概念和框架“无感知”,更加专注于自己的业务和数据本身。这可以满足更多人更多业务对大数据的直接需求。

在网易内部,Kyuubi已经帮助网易传媒业务完成 Hive QL 任务至 Spark SQL的平滑迁移,在完成计算资源资源节省50%的前提下,总体时耗同步缩减70%,综合性能提效727%。此外,团队还正在帮助业务线实施 Spark 作业从 YARN 集群上迁移到 Kubernetes 的工作。

视频回放:

Kyuubi:开源企业级Serverless Spark框架

PPT下载:Kyuubi:开源企业级Serverless Spark框架

Kyuubi开源地址:https://github.com/NetEase/kyuubi

ClickHouse在有赞的使用和优化

有赞基础架构组OLAP负责人陈琦从三个方面介绍了ClickHouse在有赞的使用和优化:1)ClickHouse在有赞的发展,平台化建设,应用场景,比如DMP,SCRM,CDP等场景的落地和优化。2)千亿级别数据量的离线读写分离,使用离线写入K8s临时构建集群来实现离线数据的读写分离,从而解决写多读少的业务发展问题。3)自研新数据库的探索POC,尝试去融合Doris和ClickHouse,来解决双方的痛点。

陈琦介绍,ClickHouse 不太像一个传统意义上的分布式数据库,整体比较 “手动档”,很多地方都需要用户自己去设计一个流程去完善,比如写入,物化视图等;同时,ClickHouse 也没有自动 Rebalance 的能力,导致扩容缩容运维特别复杂。相比之下,Apache Doris 更像一个分布式数据库,也解决了部分痛点,比如能够自动平衡,支持Shuffle Join 等,但目前为止其单表性能、成熟度及稳定性还不如 ClickHouse。

于是,有赞尝试利用高性能的 ClickHouse 算子实现替换基于 Impala 的 Apache Doris,在未来打造出更好的分布式 OLAP 数据库。从 POC 实现效果来看,该方案是可行性的。

视频回放:

ClickHouse在有赞的使用和优化

PPT下载:ClickHouse在有赞的使用和优化

利用Intel Optane PMEM技术加速大数据分析

Intel软件开发工程经理、Apache Hive Committer徐铖分享了如何使用Intel开源项目Optimized Analytics Package (OAP)加速Spark、Flink的性能,介绍了现有Spark框架在内存管理、Shuffle实现等层面性能有进一步提升的空间。以及如何更好利用新硬件,比如利用Intel Optane PMEM(持久化内存)技术,发挥Optane的持久特性、原地擦写、字节寻址和低延迟等独特价值上,Spark有诸多进一步优化的功能点。

徐铖重点解读了OAP Analytic Cache特性,包括利用Arrow中高性能模块、Spark/Flink的cache awareness、Disaggregated cache、Filter/Project/Aggregation下放和高性能压缩加速器QAT支持等。以Spark cache awareness为例,OAP扩展了现有Spark data source scan能够识别已缓存的热数据块,利用cache location provider来提供调度层面的cache
awareness,并针对不同的使用场景支持了多种cache location provider。

视频回放:

利用Intel Optane PMEM技术加速大数据分析

PPT下载:利用Intel Optane PMEM技术加速大数据分析

OAP开源地址:https://github.com/oap-project/

网易云音乐数仓建设之路

网易云音乐数据专家雷剑波介绍,网易云音乐正在通过规范化、共享化、自助化的统一数仓体系,降低数据使用门槛,提升决策利用效果,并实现数据驱动业务增长。他从流量数据治理和数据资产沉淀两个方面,分享了网易云音乐应对挑战的实践和思考,以及取得的成果。

在流量数据治理方面,埋点是一个巨大的痛点,具体包括埋点格式差异较大,埋点前环节缺乏规范、需求评审,客户端埋点实现无较好的技术设计、工程规范,多数聚合流量需重新提JIRA单等,网易云音乐通过事前建立埋点规范、事中重造埋点流程、事后推动灰度稽核等措施实现治理。在这个过程中,网易云音乐通过与网易数帆共建了easyTracker埋点管理平台、easyFetch自助取数平台等系统,来保证埋点的规范化和流量数据服务自助化。

视频回放:

网易云音乐数仓建设之路

PPT下载:网易云音乐数仓建设之路

网易数据产品实践

网易数帆大数据产品专家顾平分享了网易严选数据产品实践——他从0到1构建了网易严选的数据产品体系和数据中台体系。网易严选业务正走向“数据中台支撑+数据产品驱动”的双引擎模式,释放数据价值以支持创新业务的探索,顾平结合网易严选的业务实践,分享覆盖营销和供应链的数据产品体系建设思路与步骤,并介绍作为支撑的数据中台及数据治理的相关经验。

支撑严选“品牌+平台”运营模式,严选数据产品覆盖数字化运营、数字化管理和数字化供应三个层面,包括了商品数据运营平台、营销数据运营平台、移动数据工作台、供应链数据运作平台四大数据产品。其中移动数据工作台是严选开发的第一个数据产品,该产品主要面向管理层的数据化管理,有助于自上而下推动数据产品体系成功建设。顾平表示,数据产品可以和业务系统相连接,提供异常监控诊断、决策建议,但如果没有数据中台的支撑,数据产品就无法实现。基于网易有数的能力,严选高效高质量地落地了数据体系建设。

视频回放:

网易数帆技术沙龙-网易数据产品实践

PPT下载:网易数据产品实践

网易数帆、云音乐、Intel、有赞最新大数据实践(PPT下载+视频回放)相关推荐

  1. 网易数帆云原生故障诊断系统实践与思考

    Kubernetes 是一个生产级的容器编排引擎,但是 Kubernetes 仍然存在系统复杂.故障诊断成本高等问题.网易数帆旗下轻舟云原生团队在近几年的稳定性保障工作中累计了不少生产实践的经验,我们 ...

  2. 网易数帆:提升数字生产力,以数字资产赋能企业决胜智能未来丨数据猿专访...

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 如果追问网易最大的特点是什么,答案可能是"稳".成立25年来屡出爆款的网易,看似云淡风轻甚至有点佛系,根源在于多年来重视 ...

  3. 网易数帆陈谔:云原生“牵手”低代码,加速企业数字化转型丨数据猿专访

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 近日,网易数帆在第十届全球云计算大会上斩获"云鼎奖"2021-2022年度优秀解决方案奖项.随着在云原生领域布局的持续深化,网 ...

  4. 网易数帆基于 Envoy 的云原生网关实践

    本文根据 InfoQ 公开课<如何基于开源Envoy,构建高性能云原生微服务网关>整理,有删减. 简介:Envoy 是由 Lyft 开源的高性能网络代理软件.相比于 Nginx.HAPro ...

  5. 网易数帆发布轻舟低代码平台2.0,聚焦中等复杂度企业级应用

    编辑 | 宋 慧 出品 | CSDN云计算 头图 | 轻舟低代码平台2.0发布会现场 8月26日,网易数帆正式发布轻舟低代码应用开发平台2.0版本(以下简称"轻舟低代码平台"),以 ...

  6. 性能 1.84 倍于 Ceph!网易数帆开源分布式存储系统 Curve

    作者 | 陈利鑫 头图 | CSDN 下载自东方 IC 出品 | CSDN(ID:CSDNnews) 也许是厂家+"云"的后缀会让人产生这些厂商都是竞争关系的错觉,网易云最近宣布品 ...

  7. 网易数帆 Envoy Gateway 实践之旅:坚守 6 年,峥嵘渐显

    服务网格成熟度不断提升,云原生环境下流量处理愈发重要, Envoy Gateway 项目于近日宣布开源,"旨在大幅降低将 Envoy 作为 API 网关的使用门槛",引发了业界关注 ...

  8. Service Mesh Summit | 无侵入增强 Istio,网易数帆践行这三条原则

    在云原生社区近日主办的 Service Mesh Summit 2022 服务网格峰会上,网易数帆云原生技术专家方志恒分享了轻舟服务网格无侵入增强 Istio 的经验,本文据此次分享整理,介绍了对无侵 ...

  9. 网易数帆基于 Kubernetes 的 Redis 云原生实践综述

    随着云原生时代的到来和Kubernetes(简称K8s)的日渐成熟,越来越多的互联网团队开始将Kubernetes作为新的重要基础设施,一些云计算厂商也将其视作云服务及应用交付的新底座.在大家的普遍认 ...

  10. 网易数帆发布自主开源计划,聚焦云原生生产落地

    10月21日,一年一度的网易数字+大会在杭州拉开帷幕,网易数帆在会上发布了围绕云原生生产落地的自主开源计划,在这一主题下开源的KubeDiag.KubeCube.Hango(函谷)等云原生项目,以及未 ...

最新文章

  1. Pycharm的运行和简单调试
  2. AI A_star算法野人渡河-实验报告
  3. CoverageMeter中关于“line coverage”不准确的解释
  4. Android actionBar与Fragment结合使用Demo2
  5. UI设计师,作品集该怎么做?场景展示样机更具专业性
  6. 全国统筹区code与名称
  7. window下安装sonar
  8. matlab如何测两点的角度_matlab求两直线的夹角
  9. 时光轴全新导购网站购物新体验
  10. 日本“性爱机器人”上线1小时被抢空
  11. cassandra vs. voldemort
  12. 计算机看游戏显卡,如何看电脑显卡性能
  13. 文件IOday02--------时间编程与文件IO
  14. 通过mac地址查找PC位于那个接入层交换机上
  15. 1140 Look-and-say Sequence(22行代码+详细注释)
  16. java 抽奖 高并发_【java】如何设计高并发下的抽奖?
  17. POJ-2438 哈密顿环 哈密瓜很甜
  18. 在Eclipse中安装Spring插件:Spring tools suit
  19. Vue的状态管理器:Vuex
  20. SPSS详细操作:样本均数间的多重比较

热门文章

  1. 单变量微积分笔记—— 积分方法之换元法总结(简单换元和三角换元)
  2. python webservice框架_python webservice hello world
  3. [PHP]如何使用Mobile_Detect来判断访问网站的设备:安卓,平板,电脑
  4. 一种FlashBuilder不能启动的解决方法
  5. 收藏级!运营人必备2021全年热点营销日历
  6. 【板栗糖GIS】global mapper 如何通过dsm批量制作贴地等高线
  7. 【GlobalMapper精品教程】001:GlobalMapper23 Pro-x64中文安装教程(附软件包下载)
  8. Wordpress网站渗透测试(进阶详细思路)
  9. java坦克大战地图_『坦克大战的基本地图系统(一)』Clickteam Fusion系列教程(13)...
  10. visio 2016插入origin 2020 导出的图片是黑色