当数字经济成为生活的主体,金融平台的改变是最为明显的。以往现金业务为主时,交易流程与频次都会相对更低,而如今数字化推动了交易模式和交易频率的升级,这也意味着金融平台所面临的场景及需求发生了变化。当数字的律动变得更加频繁,当用户的需求变得更加复杂,当平台的发展有了新的路径,数字化程度和数据处理能力都会成为评价金融平台的核心标准所在。

当金融行业的发展与数据被绑在了一起,数据相关技术的升级就变得格外重要。而在这种环境里,湖仓一体的技术理念提出便为金融机构提供新的发展契机。湖仓一体技术的价值颇高,其不仅能够为用户降低全量数据单一存储成本,存算分离后在可扩展性与敏捷性方面有了良好提升,并在工作负载支持和数据治理方面表现更佳。因此,对于一家优秀的金融机构而言,紧跟湖仓一体的发展大潮,找到合适的实现路径,将会更有利于实现数字时代的创新与发展。

非结构化数据的增加,让数仓走到了十字路口

最近几年,企业的数字化转型已经成为一种大潮,而金融行业便常常立于潮头。数字化转型意味着数据的价值提升,也带来了数据分析应用场景的极大丰富,数据平台应用越发多样化,企业对于数据处理的需求也在逐步升温。

金融是数据仓库最早期落地的产业之一,传统意义上数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享。在早期金融产业以结构化数据和已处理的数据类型为主,数据仓库的写入机制和预处理功能在商业分析等场景表现更佳,能够充分发挥其价值,单集群支持并发在几百节点级别。

在数据量低的时候数据仓库或许不会出现问题,但是金融平台的发展向来是走在时代前沿的。由于数据采集和流程多样化出现,数据仓库不支持非结构化数据的问题,使得其不能整合所有企业数据;由于数字化发展进程加快,金融数据挖掘需求不断增加,高并发情况下越来越多的企业需要把业务分割到独立集群中,孤岛化问题逐渐出现;由于数据仓库严格的建模要求,用户开发新的数据分析应用时从数据源到数据仓库之间的路径较长;更为麻烦的是,非结构化数据发展日渐增加,这就让数据仓库走到了十字路口。

与数据仓库相比,2010年左右出现的数据湖在金融产业就有了更好的应用,基于传统Hadoop平台搭建的数据湖可以同时满足存储各类数据源的原始结构化和非结构化数据。更为关键的是,数据湖还能给分析人员提供一个敏捷分析的平台,待某些分析比较成熟时,再把分析挪到数据仓库里面去。这种数据湖+数据仓库的模式,一时间风靡了各大金融机构。

数据湖+数仓背后的大问题

可是这种模式下问题真的不存在了吗?面对银行里的实时查询需求,这种模式很大程度上会表现出无能为力。而且随着数据平台的云化需求出现,资源的弹性使用及成本控制开始成为金融平台的一个考核要点;存储也会随之增加弹性需求,如何将云平台的闲置资源利用起来,提升响应速度,这些都对企业提出了很多要求。

更为重要的是,金融产业的发展需求是多样性的,而数据无疑是其中的一大核心。以银行为例,经过多年的发展,他们积累了海量的结构化数据,这些数据是银行极为重要的数据资产。大数据技术作为最大化利用数据价值的方式,也在成为银行的核心竞争力所在。随着 “信息化”、“数字化”不断演进发展,海量数据也在不断地诞生,半结构化与非结构化数据的占比也在不断增加。

以往,大多数银行对业务数据的加工以关系型数据库为主,其能够满足真实场景中的生产需求。但随着数据量的持续扩张,单集群发展达到瓶颈后,扩展能力、稳定性方面的问题凸显,导致用户体验不高、无法满足应用快速创新的需求。基于Hadoop的大数据存储技术在扩展能力和稳定性方面具有明显优势,但是在业务数据的事务一致性技术处理方面存在不足,无法大规模推广,金融机构所用的Hadoop大数据平台在处理数据库事务时存在不足,并且并发能力有限。

东方欲晓,前路渐明

由于金融产业的特殊性,其对于软件的自主可控和安全性有着很高的要求;面对海量数据持续增长带来的大数据高性能存储查询技术需求,AI模型训练和联合建模等复杂场景的核心技术也成为下一阶段发展的关键;在“新金融”生态多场景下,平台数据的分享与融合是核心,数据共享和跨领域合作对大数据技术形成基础需求;面对金融行业的大量数据,其核心技术要求能从数据中提取有价值的信息;基于Hadoop原生技术的数据库事务处理,也涉及了计算机原理、数据算法、Hadoop技术底层架构等多项技术的研究和创新。

金融行业的特殊性推动着对应的数据技术不断升级。多样化的需求使得单一的数据仓库、数据湖或者二者的单纯叠加都很难满足行业发展,因此湖仓一体化的理念便开始发酵呈现。湖仓一体绝非简单的将数据仓库与数据湖融合在一起,而是在满足场景和业务的需求的同时,让企业能够充分发挥数据价值,满足创新需求,提升数据挖掘效率。

针对以上需求,湖仓一体技术在金融产业的落地,其能够带来的价值主要包括了以下几个方面。首先,湖仓架构能够帮助金融机构实现全量数据流处理和实时按需查询,满足事前数据预测、事中的判断和事后的分析;其次通过高性能的数据引擎能够支持上万用户同时并发访问同一份数据;再者,湖仓一体能够通过存算分离及可插拔存储为金融企业提供良好的可扩展性和敏捷性;通过支持完善的事务机制,保障不同用户同时查询和更新同一份数据时的一致性;所有用户均可以共享同一份数据,避免形成数据孤岛,易于实现数据治理和数据质量保证;此外,多样化的工作负载如批流一体等均可支持实现;提供全局的数据库读写事务机制,支持分布式锁,支持并发读写能力并支持多云、混合云及跨云场景。

从概念到落地,偶数湖仓一体实践

在过去,湖仓各自一体,其带来的价值有很多,比如所有原始数据往往直接汇集存储到几千节点超大集群;保持了原有简单数据格式与结构,但缺乏数据治理及高性能以及统一的数据模型;数据湖中海量数据基于普通存储硬件可以永远不删除,支持分析场景在成熟时从数据湖到数据仓库的迁移。

在这种传统的架构之下,问题十分明显。尤其是金融场景中,不同的技术接入后带来了架构的复杂性,多种需求使得技术栈较多。二者因素的并存,使得整体架构的运维量增大。如果保持这些问题的存在,这对于金融平台而言将会把架构拖到越来越大,问题越来越多,最终尾大不掉。而偶数科技所推出的湖仓一体解决方案,基于新一代大数据和AI平台以及云数据库OushuDB等产品,其能够为用户提供极速性能、弹性伸缩、计算资源按需分配、全量数据单一存储、无须频繁导数、混合负载等相关能力。

偶数科技的湖仓一体方案采用了Omega全实时数据处理架构,其能够为用户提供批流一体处理能力,基于目前全球最快的新一代分析型数据库引擎OushuDB,可以实现PB级大数据交互式查询;将计算与存储分离,让计算集群之间数据可以方便共享;弹性扩展架构,可以扩张到上千节点;其支持Hadoop生态,用户可以快速实现扩展;数据管理平台Lava可以实现统一数据资产管理、统一数据标准、统一数据服务、统一机器学习及深度学习建模平台……这些技术特点使得金融平台能够更加快速便捷的接入湖仓一体解决方案。

以某大型国有银行为例,偶数科技与其合作共同打造了湖仓一体架构。计算和存储分离增加了系统的弹性,使得高峰期可以增加计算资源,低谷期可以减少资源。在非云化的环境下,这种操作难度很大,现在借助云计算,使存储计算分离技术快速落地;架构增加了系统健壮性,计算节点可以被认为是无状态的,当计算集群出现故障时,能够快速恢复;系统扩展变得更加方便,扩计算资源和扩存储资源可以分开进行,节约成本。

当数字化转型发展进入新阶段,金融行业无疑会是其中的关键一环。基于湖仓一体的发展趋势,用更加敏捷、原生的服务帮助企业,让数据发挥其价值,让金融更好的服务于世界。

湖仓一体是否会掀起金融业的下一波数字浪潮?相关推荐

  1. 下秒数据李元佳:湖仓一体带来现代数据栈变革

    嘉宾 | 李元佳  整理 | 王谟仕 出品 | CSDN云原生 2022年7月12日,在CSDN云原生系列在线峰会第13期"现代数据栈峰会"上,下秒数据联合创始人李元佳分享了现代数 ...

  2. 聚焦联机交易分析一体化,巨杉数据库湖仓一体云产品全线升级

    2021年5月15日,领先的金融级分布式数据库厂商 SequoiaDB巨杉数据库 举行了2021年春季发布会.在本次发布会中,巨杉数据库基于「湖仓一体」架构,针对不同的业务需求场景细分出全新的产品线. ...

  3. 基于Delta lake、Hudi格式的湖仓一体方案

    简介:Delta Lake 和 Hudi 是流行的开放格式的存储层,为数据湖同时提供流式和批处理的操作,这允许我们在数据湖上直接运行 BI 等应用,让数据分析师可以即时查询新的实时数据,从而对您的业务 ...

  4. 离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

    简介:阿里云智能研究员 林伟 :阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考,使得湖的灵活性.数据种类丰富与仓的可成长性和企业级管理得到有机融合,这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架 ...

  5. 汽车之家基于 Flink + Iceberg 的湖仓一体架构实践

    简介:由汽车之家实时计算平台负责人邸星星在 4 月 17 日上海站 Meetup 分享的,基于 Flink + Iceberg 的湖仓一体架构实践. 内容简要: 一.数据仓库架构升级的背景 二.基于 ...

  6. 融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

    简介:本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flink.Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景. 本文由 T3 出行大数据 ...

  7. 数据仓库如何实现湖仓一体数据分析?

    简介:随着云计算的普及和数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力.相对于数据仓库,数据湖在成本.灵活性.多源数据分析等多方面,都有着非常明显的优势.IDC ...

  8. 37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

    简介: 介绍了 37 手游为何选择 Flink 作为计算引擎,并如何基于 Flink CDC + Hudi 构建新的湖仓一体方案. 本文作者是 37 手游大数据开发徐润柏,介绍了 37 手游为何选择 ...

  9. 【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )

    简介: 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章.众所周知,Databricks 主导着开源大数据社区 Apache Spark.Delta L ...

最新文章

  1. 如何从系统层面优化深度学习计算?
  2. unittest框架执行用例
  3. ubuntu修改根用户密码
  4. WIN8 启用虚拟AP 以共享网络,使手机电脑一起网上冲浪
  5. ping不通docker_初识docker
  6. 详解3D物体检测模型: Voxel Transformer for 3D Object Detection
  7. (数据分析三板斧)第一斧Numpy-第一节:Numpy基本了解
  8. 字节跳动python面试_【字节跳动Python面试】生平遇到最好的面试体验-看准网
  9. golang利用json.Unmarshal转json为map、slice类型
  10. IT入门?推荐首选学习HTML5大前端
  11. Python写数据结构:栈(顺序存储结构)
  12. atitit.表格的绑定client side 最佳实践
  13. 爬虫如何爬取微信公众号文章
  14. 手工画图和计算机画图的内在联系,工程制图与计算机绘图教案10-11-1
  15. Vlan和Trank
  16. mysql中if多重判断使用
  17. Win8 纯净版安装详细教程
  18. 如何用Word编辑参考文献(转)
  19. iOS时间戳与北京时间的转换
  20. MATLAB实现(7,4)汉明码的编码解码纠错及BER的分析

热门文章

  1. [转]awesome-tensorflow-chinese
  2. Java Exceptions
  3. 通过使用阿里云+vuepress快速搭建静态个人博客网页页面
  4. 用并查集合并不同的集合
  5. RportViewer(20121023) 参数引起的异常
  6. Eclipse添加本地jar包
  7. caffe+vs2013+window10+GPU(CPU)配置
  8. ubuntu物理机上搭建Kubernetes集群 -- 准备
  9. 如何用Baas快速在腾讯云上开发小程序-系列3 :实现腾讯云COS API调用
  10. Elasticsearch 动态映射——自动检测