背景概述

最近湖仓一体化的概念在大数据圈子突然蹿红,知乎上很多大神已经分析了湖仓一体化主要的革新点,今天主要介绍下湖仓一体化对机器学习业务的影响。

还是简单讲下“湖”和“仓”的区别。

湖有点像一个开放的储物空间,可以存放结构化数据、非结构化数据、半结构化数据,存储成本很低,很灵活。仓更像是一个有无数小格子的储物间,所有数据需要按照要求放到小格子里。

湖的优势是很灵活,什么样的数据直接扔进去就好了,但是如果想查某个结构化数据,甚至做ETL工作,就会效果很差,因为所有数据都是随机摆放的。仓的优势是数据结构化做得很好,查数据很方便,但是构建一个个小格子,成本高,而且只能存放结构化数据。

在湖仓一体化之前,构建大数据体系需要在湖和仓直接二选一才行。Hadoop体系是标准的数据湖体系,Big query、MaxCompute都是数仓体系。

湖仓割裂的影响

那么湖仓割裂的状态会带来什么问题呢?为什么今天大家开始讨论湖仓一体化了。以机器学习在推荐业务的应用为例说明。

以视频推荐的场景为例:

大家知道一个完整的推荐系统,需要做大量的用户行为日志分析以及待推荐对象的特征提取工作。行为日志分析是一个经典的数仓操作,需要对用户的历史数据做大量的结构化处理,并且通过ETL加工特征。

另外因为被推荐对象是视频,是典型的非结构化数据,需要做一些图像和语意相关的解析,这些操作是无法通过数仓完成的,需要借助数据湖来实现存储,再由算法脚本提取图像和文本特征。

在仓和湖割裂的条件下,一个常见做法是将数据湖中的非结构化数据提取特征并结构化,然后将结构化的数据迁移到数仓体系内去做最终的特征向量拼接,并且训练推荐业务模型。在这种模式下,需要同时运维两种数据存储模式体系,并且需要做大量数据迁移工作,费时费力。

湖仓一体下多结构态的机器学习业务

语音、文本、视觉相结合的解决方案在人工智能领域叫做多模态方案。在湖仓一体化的背景下,可以支持机器学习的数据以多种结构态存储并使用,所以我起了个名字,湖仓一体化可解决“数据多结构态”的问题。

在湖仓一体化的背景下,未来机器学习业务可以更多的去探索不同结构态数据间的建模打通工作。可以轻而易举的在一次模型训练中,即应用图像、语音、文本数据,也应用到数仓结果数据。这样无疑是对偏上层的机器学习业务的一种推动。

随着湖仓一体化的存储统一,K8S后续可能在调度层面的统一,可以预见的是机器学习业务后续会在整个计算存储的工程层面实现操作更简化。

具体关于湖仓一体化的发布会内容可以看以下链接,谢谢:

https://www.aliyun.com/activity/bigdata/2020yunqi

浅谈湖仓一体化对上层机器学习业务的促进相关推荐

  1. 湖仓一体化的路,很多人都只走了一半

    2022已至,如果回看2021,这一年无疑是数据的价值进一步体现的一年.数据应用场景不断丰富,从工业.交通.金融到制造,几乎无处不在.当然,数据价值的迅速提升也给开发者和相关企业带来了新的问题.数据量 ...

  2. 湖仓一体化:铁打的数据仓 流水的数据湖产品

    国际研究机构MarketsandMarkets的最新研究报告显示,到2024年,全球数据湖市场将突破200亿美元,增至201亿美元,复合年增长率将高达20.6%.可以说,随着数据治理与应用需求激增,数 ...

  3. 技术专家太玄:企业数字化转型中数据底座“湖仓一体化”l 华坤道威专访

    随着大数据领域的迅速发展和普惠化,数据建设越来越受到企业的高度关注,而"湖仓一体化"也成为数据建设中重要的组成部分,越来越多企业把"湖仓一体化"视为数字变革的重 ...

  4. 数据仓库系列文章一:浅谈数仓设计

    数仓设计指对数据仓库的各项组成进行规划,在正式建设数仓之前形成指导性建设方案. 数仓设计主要分为两部分:数据仓库同操作型业务系统的数据接口设计和数仓自身建设设计. 本文从多个方面探讨数仓的设计要点,给 ...

  5. 【数仓】浅谈数仓建模的方法

    一篇比较全面介绍数据仓库建模方法的普及文章,主要包括了四个方面的内容: 1.什么是数据模型:简而言之就是对现实世界业务对象及关系的抽象. 2.为什么需要数据模型:数据模型不是必需的,建模的目的是为了改 ...

  6. 浅谈数仓建模及其方法论

    认识数据仓库 1.数仓的定义: 2.数据仓库和数据库的区别: 数仓的发展 1.简单报表阶段:这个阶段,系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所需 ...

  7. 内部矩阵维度必须一致simulink_浅谈数仓模型(维度建模)

    背景 数据仓库的核心是展现层和提供优质的服务.ETL 及其规范.分层等所做的一切都是为了一个更清晰易用的展现层. 数仓架构的原则: 1.底层业务的数据驱动为导向同时结合业务需求驱动 2.便于数据分析 ...

  8. 数仓建模的edw_浅谈数仓分层和模型

    数仓分层 ODS层基础层-ODS(Operational Data Store-操作型数据存储):主要是未经过加⼯的原始数据 中间层-CDM\EDW(Enterprise Data Warehouse ...

  9. 浅谈RFID 仓库管理系统

    1. 项目概述 1.1 项目背景 市场竞争日益激烈,提高生产效率.降低运营成本,对于企业来说至关重要.目前,仓 储管理系统通常使用条码标签或是人工仓储管理单据等方式支持自有的仓储管理.但是条码 的易复 ...

最新文章

  1. 爬虫:滑动验证解决方法及python实现
  2. Problem 77:Prime summations
  3. POSIX标准总体分析
  4. c语言isfinite_csqrtf - [ C语言中文开发手册 ] - 在线原生手册 - php中文网
  5. (IOS)BaiduFM 程序分析
  6. leetcode article
  7. mysql数据库高可用_MySQL数据库高可用
  8. 【LeetCode】【数组】题号:*54,螺旋数组
  9. java加解密算法概述
  10. AWVS13批量脚本
  11. vecm matlab,VECM是什么?
  12. Lrc歌词批量下载助手 MP3歌词批量下载助手
  13. 有道词典使用离线翻译
  14. PS制作gif表情包
  15. python读txt写入excel_python实现读Excel写入.txt的方法
  16. Linux 下检测是否插入U盘
  17. 项目总结 :木门app(2015.4.10 —— 2015.5.8)
  18. SpringBoot的统一日志记录
  19. arduino遥控器控制灯开关以及亮度
  20. 刘鹏教授在淮安市应急管理局作报告

热门文章

  1. python入门学习[看漫画学Python:有趣、有料、好玩、好用读书笔记]
  2. 第二模块_找钱:融资与管理_1
  3. java 假设当前时间_java——推断日期是否在今天之前
  4. Linux 性能分析工具总结
  5. linux平台IO多路复用 select接口使用例子
  6. 军用软件概算计价规范_超强干货分享:547建筑工程计量与计价,帮你轻松掌握计量与计价...
  7. python不可变的列表被称为_【Python学习】可变类型和不可变类型
  8. html重复标题,在HTML中重复表标题
  9. envi 文件 生成mat_JVM 内存分析工具 MAT 的深度讲解与实践——入门篇
  10. tensorboard 远程