提起 车好多集团,可能有些人会感到陌生,但提起瓜子二手车、毛豆新车,想必都十分熟悉,脍炙人口的广告语使得大家忽视了这家公司的技术能力。车好多集团旗下拥有瓜子二手车、毛豆新车、车速拍与瓜子养车四大品牌,协同为用户提供新车、二手车交易服务、汽车金融、售后保障、汽车维修保养等全产业链服务。

对汽车而言,大部分用户目前的消费习惯倾向于线上看车、咨询、预约,线下进行交易,这对车好多集团的大数据架构搭建提出了诸多挑战,比如线上与线下数据打通、海量数据分析、利用数据辅助智能化决策等。InfoQ 有幸采访到车好多集团旗下 瓜子二手车 的大数据及数据仓库方面多位技术工程师,就上述问题展开探讨并了解瓜子大数据技术选型历程。

瓜子大数据架构

虽然瓜子只是一家成立 3 年多的创业公司,但业务的快速发展让这家公司在大数据和数据仓库建设方面投入了巨大精力。从最初的四台服务机器到如今的五百多台机器,毛豆供应链及基础架构技术总监林正位坦言,瓜子大数据平台建设早期更多是需求和问题驱动:数据分析需求,效率不高、稳定性较差等问题让技术团队不得不快速演进迭代。

在数据平台层面,车好多数据平台技术负责人总监刘昊植坦言,早期瓜子存在四大痛点:一是其自身的业务流程过于复杂,导致指标体系的建设很难达成一致;数据仓库分层定义不清晰,按需构建而没有完全契合数仓建模方法论;定制化开发的 BI 平台难以灵活配置各业务线和事业群所需的数据可视化能力;应用多呈点状分布,没有形成一站式智能化数据开发平台。

如果你准备入行大数据,关于2019大数据目前的

【发展前景】戳我阅读

【就业岗位】戳我阅读

【大数据薪资待遇】戳我阅读

【完整的学习线路】戳我阅读

关注微信公众号itdaima获取大数据全套开发工具以及入门学习资料

起初,瓜子大数据架构主要为了满足业务方 BI 报表相关的查询诉求,如今几乎承载了瓜子大数据的所有需求,大数据高级技术专家彭超表示,目前的大数据架构主要支撑了报表相关服务;用户画像;用户增长、业务增长相关数据支持;所有业务线的消息队列;瓜子大脑,也就是人工智能相关诉求。总体来看,瓜子大数据架构主要用于支撑自有业务基于数据的精细化运营。

其中,每一个环节又都存在需要解决的关键问题。举例来说,瓜子目前的 OLAP 需求非常强烈,运营和销售人员需要了解当天的实时数据和明细数据,这就需要瓜子 BI 具备接到报表请求后秒级响应的能力。此外,如开篇所言,瓜子的业务特点决定其需要打通线上和线下数据,将全链路数据化到线上,通过统一的数据处理模型对数据进行分析。

在架构层面,瓜子大数据也存在一些痛点需要解决,比如最初基于 Hortonworks 的 Hadoop 构建,未来需要逐渐过渡到 CDH;结构化数据生态圈的打通;基于 Hive 的 OLAP 分析逐渐通过 Presto 解决跨数据源查询;由于 Kylin 和 Druid 不能满足原始数据快速更新变化的需求,因此团队决定转向 Kudu+Impala,通过 Lambda 架构提供对外的 OLAP 分析。

在实时计算层面,瓜子之前采用的是 Spark Streaming,目前是 Flink 与 Spark Streaming 共存的状态,存量用户主要在使用 Spark Streaming,增量用户主要使用 Flink。

在实时数仓 ETL 层面,瓜子数据仓库团队负责人孙强表示,瓜子需要处理的主要是业务数据,相比于日志数据,这部分数据的处理链条更长、难度更大。日志数据一旦生成基本不会更新或删除,Flink、Storm 都是相对成熟的解决方案。然而,业务数据的结构和处理逻辑相对复杂,瓜子在这方面进行了许多技术探索和演进,最早期选用的单机 Python 定制化数据处理方式,虽然有效支持了早期的业务需求,但随之数据规模的增长,很快就已无法支撑业务需求;接下来,瓜子曾考虑使用 Java ETL 替代原始方案,虽在性能上获得一定提升,但并没有完全解决问题。于是,团队开始调研当下比较热门的 Flink。

就实时性而言,Flink 是一种能够满足事实数据关联维度数据需求的不错的解决方案,但其目前不足以应对高精度场景(对数据质量要求极高,不能出现数据丢失),很难满足瓜子业务中事实数据相互关联的复杂需求。最终,瓜子在对数据实时性和框架易用性和可维护性直接进行的权衡做出让步, 从真实时退到准实时,基于 Impla+Kudu 的准实时方案满足瓜子绝大部分数据应用场景,并通过数据工程师最熟悉的 SQL 语法进行开发,很大程度上减少了开发工作量,目前调度为保证每 15 分钟运行 Run 一次,每 Run 一次小于 15 分钟。数仓高级专家孙强表示,如果未来企业对时效性有更高诉求,可以将该时间缩短至 10 分钟甚至 5 分钟之内。

此外,针对早期数仓分层不规范的问题进行改进,对每一层的设计规范和原则进行清晰定义,按照规范构建整个数据仓库。

技术选型

综合整个瓜子的大数据架构,不难看出选用了不少开源组件。为避免重复造轮子,如今的不少公司都倾向于开源组件,选用开源意味着需要考虑社区成熟度、改进成本、自身技术实力等诸多问题,瓜子在这之中做过哪些思考呢?

彭超透露,瓜子在大数据方面的技术选型主要考虑了四点:一是公司实际需求;二是开源组件的技术成熟度;三是生态圈是否完善;四是未来可能的发展方向。以 Kafka 和 Hadoop 为例,这两项技术在社区发展已有十年时间,基本趋于稳定,迭代频率相对较低且功能完备,可以考虑选用;另一类是比较前沿的技术,比如 Flink、TiDB 等,瓜子也愿意花费精力调研和尝试。

林正位补充道,瓜子内部有一个“721”概念,即将 70% 的精力投入当前正在使用的核心技术研究;20% 的精力用以不断优化、改进以提升效率;10% 的精力用以应对技术变化,投入新技术的研究。

在 70% 和 20% 的部分,彭超介绍道,瓜子对很多组件进行过改动。举例来说,对 HBase 和 HDFS,做了平台和调优方面的改进;对 Presto,做了滚动更新、滚动重启、权限管理、高可用等层面的更新;对 Kafka,设计了统一平台以方便各业务线使用数据等;探索一些新的解决方案,比如 TiDB、流批处理等。

在 10% 的部分,大数据技术专家汪涉洋介绍道,瓜子会探索一些新技术,比如学习引擎、GPU 计算集群等,并希望在能力范围内对开源社区进行反哺,以希望对业务场景类似的公司或团队起到积极作用和参考价值,这也是瓜子技术委员会一直在遵守和倡导的原则。刘昊植补充道,瓜子技术委员会在公司发展的各个时期可能会承担不一样的责任和使命。现阶段,该委员会主要负责公司内部整个公司的技术栈收敛和更新,包括架构等各个维度;技术职级体系的规范化和统一;技术交流和培训化等工作,有能力开源并对社区做贡献一直是整个委员会要做的重点方向之一事情。

此外,上述四点技术选型标准也是未来瓜子大数据平台技术变更的重要影响因素,但考虑到变更成本(人力成本、机器成本、学习成本)和风险,刘昊植认为,未来,整个瓜子大数据平台会尽量采用已被验证的开源技术,并集中力量对选定技术方案进行深入研究和探索减少变更,同时瓜子大数据团队也会时刻保持对业界最新技术趋势的跟进但并不拒绝变化。比如,当下 NVMe 磁盘 IO 性能未来存储成本的大幅提升降低可能会带来的分布式架构的变革。

云平台选用考量

随着云计算的逐渐成熟,很多公司都开始创建高效、灵活的云使用环境,这些环境被部署在服务器、存储和网络资源池中,这类方案通常更具成本效益,可以提高大数据技术和高级分析的投资回报率。

过去几年,云平台大数据服务越来越成熟,单就这一项,主流云厂商可提供的服务列表就达到数十种,本地大数据服务的声音逐渐变小,这在 Cloudera 与 Hortonworks 合并之后尤为明显。实际上,云平台大数据服务和本地大数据服务各有其生存空间和适用场景,瓜子的大数据团队是如何考虑这一问题的呢?

实际上,瓜子云平台总监高永超表示,瓜子云目前已经支持其内部大约三分之二左的业务运行,云本身的弹性扩容和成本优势让其承载了部分瓜子大数据服务,主要是面向最终用户的应用和 ETL 相关的系统需求。

对此,林正位提及,瓜子早期考虑过直接上云,甚至使用过一些第三方数据服务,但最终结果是难以与瓜子的业务需求和发展节奏完全契合。其次,在瓜子的整体技术规划中,整个技术团队希望未来有能力为开源做贡献并分享实践成果,这一想法的前提是瓜子自身必须具备较强的技术实力,因此团队决定在本地自建数据服务,而不是通过云平台获取所有基础能力,而一心扑在上层应用研发。

此外,目前很多企业的上云姿势未必是最佳的,这也导致很多企业没有充分享受到云计算的优势,并可能付出了巨大的成本,从而对这一技术的发展存疑。目前,瓜子已经将较容易享受到云平台优势的任务搬迁上云,而其他大数据服务依旧在本地运行。

高永超表示,瓜子云目前主要满足企业内部对 DevOps 的需求,接下来在 PaaS 层会做出很多改进,以进一步打消业务稳定性顾虑,但目前来看,即便云平台足够成熟且完善,还是存在一些特定应用无法上云,比如网络环境受到严格管制的金融类应用。

未来规划

采访最后,彭超表示,瓜子大数据未来发展主要围绕满足自身业务需求、平台化能力建设和大数据应用三方面展开。在满足自身业务需求的同时,团队希望有能力回馈社区;对所有大数据使用方提供平台化能力,形成平台化解决方案;针对大数据应用形成通用解决方案并对外提供。

在数据仓库层面,孙强补充道,未来几年会更加关注数据平台化(或者说数据中台)能力,并设计瓜子的数据开发平台和数据治理工具,这其中需要解决数据同步、数据开发、数据运维、数据血缘管理等问题,目前已经进行了一定积累,但还处于早期探索阶段,未来希望可以在这方面有所突破。

截至目前,车好多集团 业务遍布全国 200 多个城市,在业务高速发展的背后,不难看出其技术团队做了很多思考和调整。未来,期待其可以将这些技术能力进行一定程度的开放并为行业带来价值。

瓜子大数据架构首曝光:掩藏在“二手车”背后的技术思考相关推荐

  1. 大数据架构师在关注什么?

    大数据架构师在关注什么? 在一个大数据团队中,大数据架构师主要关注的核心问题就是技术架构选型问题.架构选型问题一般会受到哪些因素的影响呢?在我们的实践中,一般大数据领域架构选型最受以下几个因素影响: ...

  2. 《大数据架构和算法实现之路:电商系统的技术实战》——2.4 案例实践

    本节书摘来自华章计算机<大数据架构和算法实现之路:电商系统的技术实战>一书中的第2章,第2.4节,作者 黄 申,更多章节内容可以访问云栖社区"华章计算机"公众号查看. ...

  3. ​度小满金融大数据架构实践

    导读:大数据架构在金融场景下面临着诸多挑战,从架构上而言,业务对数据加工.存储和使用的全链路服务提出了更细致的管控需求:从使用上而言,用户并不想理解大数据架构的具体实现和管控的细节,用户只想以更低的门 ...

  4. 快手大数据架构师:实时OLAP分析平台这么做,才可能超越抖音

    在家宅着什么事也没有,整天就是抖音快手微博微信,突然看到之前快手大数据架构师在某个大会上的演讲,我把这个弄成文字版,大家也是一起学习一下. 快手 App 目前日活 1.5 亿,每天会产生数万亿规模的用 ...

  5. 作为一名11年的大数据架构师,没有我搞不定的需求~

    大家好我是Brave,前金蝶(中国)软件JAVA架构师,因为觉得没挑战转了大数据,目前在一家科技企业工作,做产品架构和大数据架构,主要项目是交通大数据,业余时间爱好是考证,今年3月的时候拿了华为的大数 ...

  6. 互联网金融大数据架构概述与应用 - 大数据应用案例

    如果需转载,请注明:乐投网-互联网金融大数据架构概述与应用 IBM分析事业部 IBM分析事业部是在过去一两年间逐步成型的,成立后分成了若干个小部门,如AnalyticsPlatform.CLOUDDA ...

  7. 《大数据架构和算法实现之路:电商系统的技术实战》——1.6 案例实践

    本节书摘来自华章计算机<大数据架构和算法实现之路:电商系统的技术实战>一书中的第1章,第1.6节,作者 黄 申,更多章节内容可以访问云栖社区"华章计算机"公众号查看. ...

  8. 五年Java外包转型大数据架构,就是这么霸气

    五年Java外包转型大数据架构,就是这么霸气 前言 乔二爷(化名)是我学习群的元老,我们去年就认识,他是五年Java经验的老鸟.去年年底他刚开始学大数据的时候给我打过电话,咨询一些学习路线上的问题,那 ...

  9. 大数据架构和模式(一)——大数据分类和架构简介

    概述 大数据可通过许多方式来存储.获取.处理和分析.每个大数据来源都有不同的特征,包括数据的频率.量.速度.类型和真实性.处理并存储大数据时,会涉及到更多维度,比如治理.安全性和策略.选择一种架构并构 ...

最新文章

  1. Javascript 中的神器——Promise
  2. 在 Android 应用程序中使用 SQLite 数据库以及怎么用
  3. 6位图灵奖获得者、10多位院士在线“教学”,这套关于“人工智能下一个十年”的课程免费提供给你...
  4. as [Frame]元标签
  5. 微信小程序开发实战(三)自定义UI样式---增加减少按钮
  6. prism项目搭建 wpf_Prism 源码解读1-Bootstrapper和Region的创建
  7. WebLogic中如何设置Spring Boot项目的属性
  8. 【python】socket编程常量错误问题-1 'AF_INET'
  9. [序列化] SerializeHelper--序列化操作帮助类 (转载)
  10. 2.6 使用for循环遍历文件 2.7 使用while循环遍历文件 2.8 统计系统剩余的内存 2.9 数据类型转换计算(计算mac地址) 3.0 数据类型转换(列表与字典相互转换)...
  11. 停止运行_部门动态丨供水运行不能中断,保障维修从未停止
  12. 和利时dcs系统服务器设置,和利时DCS控制系统组态流程
  13. 史上最全的 iOS测试工具集锦(自动化、性能)
  14. 2021-07-30-DJ-006 Django模型的objects方法、参数详解
  15. QT designer 控件自适应
  16. 均线颜色怎么区分_均线入门:一图学会区分不同均线的颜色与炒股技巧
  17. “铭赛科技”科创板IPO:“机器人王国梦”价值几何?
  18. ClassForName应用于工厂模式
  19. 如何计算摄影参数:分区基准面高程、相对航高、绝对航高、基线长度、航线间隔、航线数、每条航线的相片数、总相片数。
  20. HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第5章CSS盒子模型

热门文章

  1. 知今必先通古 一起来了解网络的发展历史
  2. AWZ爱伪装正版一键新机软件详细安装教程
  3. ORACLE中查询日期格式
  4. pytest框架的fixture使用
  5. 超级试题助手一键更改题目顺序和选项顺序
  6. python matplotlib 柱状图三个变量_Python 绘图,我只用 Matplotlib(三)—— 柱状图...
  7. ASO投放方案:逐步提升关键词排名,如何提升aso排名
  8. 叉乘点乘混合运算公式_初学者的Excel公式及其引用方法指南
  9. 因为报表做得太好,我被阎王爷叫走了.....
  10. Ubuntu18.04将Python升级到3.8