酷家乐是群核科技旗下知名业务品牌,专注云设计系统及三维内容制作的技术研发和应用,面向家居、房产、公装等全空间领域,为企业级客户提供设计渲染、营销展示、生产施工、几何建模等场景的解决方案和服务。

酷家乐大数据技术团队负责酷家乐大数据体系框架的建设,支撑日常BI运营分析、商业化数据产品、在线大小数据业务、人群画像等场景。生产环境上使用StarRocks集群(10 x 物理机)替换了原有阿里云ADB集群和 EMR Presto集群,在使用部分集群资源前提下,查询性能即可与ADB持平,Presto P95的查询从秒级提升到500ms级别。在完成同等分析任务情况下,StarRocks性价比是同类产品的两倍以上

StarRocks一套集群统一了实时和离线的分析场景,替换了多套系统带来的系统复杂性,简化了数据ETL流程,同时大幅提升Adhoc场景查询效率。

本文主要侧重于酷家乐大数据团队基于新一代极速MPP分析型数据库StarRocks,在数据服务体系和数据应用场景中的实践和探索。

作者:弋舟 大数据技术专家,酷家乐大数据团队负责人,坐标杭州

数据引擎现状

随着业务规模越来越大,数据规模和体量也急剧膨胀。企业的原始数据通常来源于日志埋点文件、业务数据库、三方接口等。企业通常基于CDH/Hadoop等大数据分布式计算框架和数据集成工具,构建离线的数据仓库,并对数据进行适当的分层、建模、加工和管理。

但上层数据应用对查询的数据存储、时效性要求高,数据最终会通过数据同步工具回流到MySQL、ElasticSearch、Presto、HBase等关系型数据库/MPP数据库中。

酷家乐大数据体系沉淀了诸多主题数据,例如:C端用户行为流量数据,B端用户账号等使用数据,行业报告相关的数据等。

由于数据膨胀,尤其是酷家乐设计工具使用场景下产生的模型/方案/渲染使用明细数据,离线实时计算任务需要对TB级别的数据进行调度、聚合、计算,在数仓里沉淀出大量明细表、聚合表和最终的数据报表。

数据服务层的愿景是开放数仓能力,建立统一的数据服务出口,针对不同的查数场景(数据规模、QPS、UDF支持、运维成本等),在底层引擎上的选型:

  • 大数据量、低QPS:使用Hive + Presto等基于Hadoop生态的离线批任务计算框架和MPP数据库来解决。

  • 小数据量、高QPS:使用MySQL、ElasticSearch、HBase、MongoDB等关系型/非关系型TP数据库来解决。

在目前的数据架构下,我们遇到如下问题和挑战:

  • 离线/实时ETL任务过多,处理逻辑大部分为简单聚合/去重,导致聚合表数量庞大,导致运营和运维上的成本增加;

  • 针对中等数据量、中等QPS的查询场景,如何能兼顾数据规模的同时,有较友好的查询的耗时响应,耗时小于200ms

  • 大数据量下插入、更新的实时数据场景的支持,例如:用户画像、实时DMP、用户路径、监控数据大盘等。

新引擎的引入

针对如上的问题和挑战,我们的目标是寻求尽可能少的ROLAP引擎,利用在明细表上现场计算来解决ETL任务、数仓表过多问题,同时需要兼顾在数据规模、查询QPS、响应耗时、查询场景方面的权衡。目前市面上ROLAP引擎百花齐放,诸如Impala、Druid、ClickHouse、StarRocks。经过一番调研,我们最终选择了StarRocks。StarRocks是基于MPP架构的分析型数据库,自带数据存储,整合了大数据框架的优势,支持主键更新、支持现代化物化视图、支持高并发和高吞吐的即席查询等诸多优点,天然能解决我们上述的问题。

应用实践

StarRocks上生产环境主要作为离线/实时数据的ROLAP数据库使用。离线数据主要存储于ODPS,通过DataX任务批量同步数据,实时数据主要存储于Kafka中,基于Kafka的流式处理任务写入。DataX任务和Flink任务统一写Doris Proxy服务,由代理控制器通过HTTP Stream Load的方式控制数据写入周期和批次大小。基于StarRocks重构原有分析平台对数仓内现有存在痛点数据业务进行梳理:

  • 每日的数据增量在上亿规模的超大明细表,需要统计日、周、月、季、年等统计数据;

  • 商家账号使用、模型使用、方案渲染在任意日期区间的聚合值、累计值、去重值。

这些需求在前端查询,都需要保证低延迟。在没有引入StarRocks之前,我们使用的底层引擎是MySQL或者Presto on HDFS存储存明细表/聚合表进行查询。MySQL处理上亿规模的数据,无论使用分库分表、分区表、集群化部署的PolarDB方案,都会存在慢查询、数据库扛不住、运维困难的窘境;Presto on HDFS的方案更偏向于分析型数据业务,虽然能存储海量的数据,计算能力不错,唯一致命的在于无法满足在线业务的高吞吐QPS,查询比较难做到毫秒级。引入StarRocks带来的业务效果如下:

  • 支撑了在线数据查询+数据分析业务,服务于对内运营+对外商业化数据产品,在线业务查询P95耗时在毫秒级别,分析型业务查询P95耗时在秒级别;

  • 支持10亿规模的明细表查询,月、季、年度统计数据现场算聚合统计、去重,查询耗时能控制在500ms;

  • 千万级别的多表的join和union查询,经过Colocate Join特性优化,查询响应在秒级。

实时链路的探索

在探索实时数据链路方案时候,我们主要考虑到了StarRocks的如下优势:

  • 实时写入性能:目前StarRocks支持HTTP Stream Load自定义的分钟级别微批写入和Kafka To StarRocks的秒级延迟,完全能满足T+m实时数据业务;

  • 统一离线和实时分析:实时数据和离线数据更好的在StarRocks中进行融合,灵活支撑应用,数据存储策略通过StarRocks动态分区的功能进行清理;

  • SQL Online Serving:高效的SQL即席查询能力,能够兼容业界流行的SQL规范,支撑业务灵活复杂的访问,提高取数开发的效率。

总结和规划

酷家乐大数据团队引入StarRocks生产集群,解决了数据服务层单表亿级别规模、高QPS数据场景下引擎的空白,直接开放明细表准实时查询的能力,给上层数据业务和BI系统提供了更多的选择和自由度,同时将大大减少数仓中大量ETL任务、聚合表、报表,降低了数仓ETL的运维压力和维护成本。未来的我们在StarRocks的应用和实践上还有不少规划:

  • 除了unique和duplicate数据模型,未来会将符合的数据场景迁移至aggregation模型和物化视图表,进一步降低数仓开发维护成本,降低查询延迟;

  • StarRocks on ES的功能值得我们深挖和探索,解决了原生ES集群无法支持跨索引join的能力;

  • 更多数据应用层的场景接入StarRocks,例如人群更新、用户画像服务、用户行为路径分析等,将进一步拓展StarRocks在实时数据写入、批量数据更新场景中的应用;

  • 和酷家乐数据集成平台、数仓平台深度打通,完善监控体,作为大数据团队的基础设施去保障稳定性和服务;

  • 考虑使用多云架构,自主可控的数仓架构可以灵活的在多云间切换迁移,降低单一来云厂商的依赖,控制成本提高可用性。

  • ......

最后的最后,感谢StarRocks技术团队给予的热情、靠谱的答疑解惑和技术支持!!!

酷家乐 x StarRocks :家居SaaS独角兽如何实现数据分析全面升级,大幅降低平台成本相关推荐

  1. 酷家乐 x StarRocks:3D云设计SaaS独角兽如何降本增效、统一离线和实时分析

    作者:群核科技大数据团队 群核科技成立于 2011 年 11 月,专注云系统设计及三维内容制作的技术研发和应用,面向家居.房产.公装等全空间领域,为企业级客户提供设计渲染.营销展示.生产施工.几何建模 ...

  2. 酷家乐怎样把两个方案合并_两个地产科技的理工男联姻:他们都想做一家云端的Autodesk...

    文 | Ellie 在2015年那波轰轰烈烈的互联网公司并购潮后,垂直细分赛道的收并购在疫情期间兴起. 两家独立创业的公司会因哪些契机走到一起?合并注定会有主次,两家公司的创始人会如何妥协和让步?两家 ...

  3. 酷家乐 Serverless FaaS 产品落地实践

    K8s已经成为一线大厂分布式平台的标配技术.你是不是还在惆怅怎么掌握它?来这里,大型互联网公司一线工程师亲授,不来虚的,直接上手实战,3天时间带你搭建K8s平台,快速学会K8s,点击下方图片可了解培训 ...

  4. 酷家乐x极盾科技:“智能安全决策平台”助力日均十亿级日志分析

    企业网络环境中每天都会产生大量的网络日志,还有工作站,服务器,路由器和防火墙等网络设备中的日志对网络安全的提升具有重要意义.充分利用好它们可以帮助企业及时发现潜在的风险和安全漏洞,把网络环境中存在的威 ...

  5. 酷家乐母公司群核科技冲刺美股上市:2020年亏损约3亿元,曾因违规多次被通报

    6月25日,酷家乐母公司群核科技向美国证券交易委员会(SEC)递交F-1招股书,拟申请在纳斯达克全球精选市场上市,代码为"KOOL",摩根士丹利.摩根大通.中金为主要承销商. 此前 ...

  6. 酷家乐如何使用 Istio 解决新服务治理系统(Serverless)接入已有成熟自研 Java 服务治理体系...

    本文来自酷家乐先进技术工程团队,作者罗宁,酷家乐资深开发工程师. 公司背景 酷家乐 [1] 公司以分布式并行计算和多媒体数据挖掘为技术核心,推出的家居云设计平台,致力于云渲染.云设计.BIM.VR.A ...

  7. Innovation - 酷家乐 - 10秒生成在线3D家装效果图

    三个从硅谷和UIUC回来的80后,分别辞去了在美国Amazon云计算组.NVidia超级计算组等的高薪工作,带着他们最新的3D高速渲染等核心技术归国创业. 他们的项目叫做"酷家乐" ...

  8. 齐家网、土巴兔、酷家乐,千亿市值路上谁会先圆梦?

    文|熔财经 作者|陈小江 互联网行业易出巨头,但互联网家装是个例外. 作为少数几个拥有万亿市场规模的消费细分赛道之一,家装行业跟汽车.餐饮.休闲食品.家电个等行业不同,属于典型的"大行业小企 ...

  9. 酷家乐前端开发工程师一面

    写在前面 周五面试酷家乐 面试官上来直接五道算法题把我给整懵了 记录一下吧 算法题还是要多刷多刷! 解法一 排序 不赘述了 解法二 利用map集合 var majorrityElement=funct ...

最新文章

  1. C语言求35 45的最大公约数,c语言编程题目及答案
  2. Mvc项目解决方案分析
  3. oracle物理DG管理-redo数据传输,应用与三种模式
  4. Android使用token维持登陆状态的方法
  5. Java:Lombok插件用法笔记
  6. element vue 动态单选_SpringBoot+Vue(MyBatis + Shiro + Jwt + Druid + Redis + ElementUI )快速开发框架...
  7. 调整对话框大小位置以及对话框控件的位置
  8. C++中使用sort函数给数组排序
  9. exosip鉴权及使用
  10. 基于MATLAB retinex的图像去雾系统
  11. mp3转html,使用javascript将wav转换为mp3
  12. 二叉搜索树插入算法C#演示的代码
  13. 思科二层交换机系列------设备更换详细配置命令
  14. excel - 冻结窗格
  15. 关于Microsoft Edge 浏览器无法使用selenium调用问题
  16. zblog访问记录v2.5.0
  17. electron打包的一些问题
  18. AD仿真功能描述文档
  19. 别了,我的程序员生涯!
  20. 软件测试-测试历史/职业发展

热门文章

  1. 注册并上传应用到 BlackBerry 网上商店 Appworld 步骤详解
  2. 集线器、交换机、路由器和访问点有什么区别
  3. org.apache.commons.lang3.StringUtils 的相关用法
  4. 修复Unity空白报错问题
  5. 正当我想学习鸢尾花分类,于是准备使用jupyter,结果遇到了一堆的问题-没有输出、浏览器无法自动跳出来、终端自动关闭.......
  6. 算警示吧——此文来自张鑫旭(说说CSS学习中的瓶颈)
  7. Centos Docker方式安装SRS服务器
  8. 快速创建精彩的Flash游戏 (二) Flash3D游戏引擎简介
  9. VMware虚拟机NAT模式连不上网,无法启动VMware DHCP Service 服务
  10. iOS - 常用宏定义和PCH文件知识点整理