基于阿里云产品和开源Hudi结合
本人最近对公司内部数据技术架构做了梳理,梳理了当下的一些痛点。
1、离线线路,数据更新慢;实时线路,只针对部分场景,实时的成本比较大。
2、lambda的架构方式,针对数据源,实时方案和离线方案各会进行一次同步。

基于业界对于数据湖已经有很多的实践,而目前公司的技术体系为Maxcompute+阿里云flink的技术栈,由此针对该方案做了一些改动。

业界数据湖开源的产品主要以hudi/Iceberg/Delta,由于公司本身技术栈的限制,以及众多原因(不具体介绍),最后采用了hudi。方案图如下。

主要利用hudi的技术栈,依靠oss做数据存储,O表数据实时更新落到OSS上,基于阿里云的Maxcompute建立外部表,支持hive的离线方案,同时阿里云flink本身是内置支持hudi的。

方案测试:
1、目前源数据实时落OSS的,Maxcompute数据读取已经实现
2、flink基于hudi的路线也已经走通。

目前的场景倾向于用hudi做数仓O表

目前规划,flink基于hudi做实时数仓。

后续更新

基于阿里云产品和开源Hudi结合相关推荐

  1. ModaHub魔搭社区:基于阿里云 ACK 搭建开源向量数据库 Milvus

    目录 一.准备资源 二.集群创建: 本集群基于Terway网络构建 二.连接刚刚创建的ACK集群 三.部署Milvus数据库 四.优化Milvus配置 简介: 生成式 AI(Generative AI ...

  2. 阿里云产品专家陶炳哲:Java应用最佳实验

    2022 年 9 月 28 日,阿里云用户组(AUG)第 11 期活动在深圳举办.活动现场,阿里云产品专家陶炳哲向参会企业分享了<Java 应用最佳实验>.本文根据演讲内容整理而成. 大家 ...

  3. 天源迪科与阿里云发布联合解决方案,基于阿里云原生产品打造卓越的数字化采购平台

    天源迪科成立成立于1993年,二十多年来深耕电信运营商业务运营支撑软件和服务,并在此基础上持续投入研发,紧抓行业发展需求,大力发展云计算.大数据.人工智能.物联网等先进技术,实现业务领域向安全.政府. ...

  4. 从基础设施到云原生应用,全方位解读阿里云原生新锐开源项目

    来源 | 阿里巴巴云原生公众号 2020 年 11 月 19 日,由 InfoQ 主办的"2020 中国技术力量年度榜单盛典"隆重召开,并正式揭晓了"开源杰出贡献人物&q ...

  5. 【阿里云产品公测】大数据下精确快速搜索OpenSearch

    2019独角兽企业重金招聘Python工程师标准>>> [阿里云产品公测]大数据下精确快速搜索OpenSearch 作者:阿里云用户小柒2012 相信做过一两个项目的人都会遇到上级要 ...

  6. 小打卡基于阿里云构建企业级数仓的实践及总结

    简介:本次分享主要有4块内容,小打卡介绍,小打卡数仓场景简介,小打卡数仓选型思路以及代表性案例分享. 小打卡架构师 申羡 本次分享主要有4块内容,小打卡介绍,小打卡数仓场景简介,小打卡数仓选型思路以及 ...

  7. 基于阿里云的 Node.js 稳定性实践

    前言 如果你看过 2018 Node.js 的用户报告,你会发现 Node.js 的使用有了进一步的增长,同时也出现了一些新的趋势. Node.js 的开发者更多的开始使用容器并积极的拥抱 Serve ...

  8. 基于阿里云HiTSDB搭建工业物联网平台实践

    摘要: 基于阿里云全面的物联网.云计算与大数据技术搭建云端的企业能源管理物联网平台实现能耗数据采集.统计分析.平衡调度.节能优化等全面的能源管控协同平台.是企业生产运行保障的利器,也是大量企业实现云上 ...

  9. 阿里云产品头条(2018年1月刊)

    摘要: 一. 新产品发布1. 弹性高性能计算 商业化 发布弹性高性能计算(E-HPC)基于阿里云基础设施,为用户提供一站式公共云HPC服务,面向教育科研.企事业单位和个人提供快捷.弹性.安全和与阿里云 ...

  10. 阿里云产品汇总及解释

    阿里云产品汇总及解释 1. 场景描述 最近博客更新的少,跟朋友一起做些事情,最近主要给朋友做些售前工作,阿里云的产品线是真多,好多英文缩写,需要做沟通,系统汇总了一下,记录下,有需要的朋友拿走不谢. ...

最新文章

  1. 打包解决方案后,安装时提示只能在IIS5.1以上运行解决方法
  2. 浏览器更改实现webstrom等前端编辑器的同步更新
  3. java动态代理技术
  4. python筛选csv数据_pandas数据筛选和csv操作的实现方法
  5. docker安装软件(vim,service)
  6. PS网页设计教程V——如何在Photoshop中创建一个商业网站布局
  7. 期望为线性的选择算法
  8. “我爱淘”冲刺阶段Scrum站立会议3
  9. mysql 查询索引
  10. 推荐使用maven生成mybatis代码
  11. 计算机组成原理补充实验,计算机组成原理补充实验.doc
  12. 计算机系相声剧本,大学相声剧本:两种学生
  13. 将类似html数据打印机,白激光打印机的工作原理.doc
  14. Pfam数据库转移至InterPro数据库导致HMMER模型下载不能用
  15. Photoshop 2023 (ps 2023)
  16. 关注木马是如何免杀的
  17. mysql的时间格式化问题(上下午)
  18. 转大数据开发,适合什么岗位?
  19. 分配工作时需要考虑的问题
  20. App Clips 新特性

热门文章

  1. 经典:智能物联网大数据系统案例
  2. 矩阵乘法的计算复杂度
  3. Excel点击按钮隐藏指定行
  4. 解决网页文字不能复制,复制网页文字的方法
  5. 一招解决网页文字无法复制
  6. PS长图快速切片_【干货】Photoshop(PS)零基础教学(界面篇)
  7. 电机驱动芯片效果对比
  8. ubuntu装指定分区_ubuntu安装时候硬盘如何分区
  9. oss 私有云访问 获取临时图片地址
  10. Laravel文档阅读笔记-How to deploy Laravel 8 project on Cpanel shared hosting