随着大数据时代的到来,企业的数据消费模式发生转变并不断升级。企业正在清晰地认识大数据的价值并加以利用,通过数据分析找出并满足消费者的需求,在这场数字变革中实现转型。因此,本文主要讨论了在大数据时代下的企业数据消费层面的场景和面临的问题以及企业如何运用大数据技术来提升数据消费策略,适应时代变化。

在和大量客户访谈的过程中,常常碰到客户会面临以下问题:

  • 当需要使用来自多个系统的数据,企业必须开发多个API来获得所有的数据,费时费力。
  • 当业务发生变化时,在数据仓库内进行数据抽取和准备,再到最后反映到报表层面的变化常常赶不上业务需求。
  • 数据架构设计中,有些应用包含多个数据库,当想对整个系统跨越多个数据库做一些统计会非常复杂。特别是Hadoop等非关系数据的加入让这样的管理会更痛苦。

经过研究下列3个客户用例常常会导致上述问题。

BI(商业智能)仪表盘

大型企业的业务不断发展,数据持久层将变得更加复杂。例如,有多个分离的数据库用于财务、生产、销售。如果业务板块复杂,也可能有多个数据库用于不同的行业板块。当然每个数据库中的表和数据量也可能是非常巨大的。

企业高管希望有BI仪表盘来支持决策。如果仪表盘需要能动态反映业务实时变化并且支持下钻明细,BI仪表盘可能需要涉及几个数据库中的大量数据表。

业务流程中的数据需要

一些业务场景需要复杂的SQL查询作为流程的一部分,如数据验证等。

例如,公司有多个依赖的信息系统。在一些特定的业务场景中,我们需要根据几个信息系统来验证客户的请求。

在这种情况下,数据服务的质量和性能会对直接业务流程的结果产生影响。

机器学习等高级分析

如果公司业务是 "数据驱动 "的,或者它的业务交易产生了大量高速的数据,那么涉及高级分析是很常见的,如机器学习技术来提高业务效率,识别能力等。

在这种情况下,手动从多个系统中提取数据以训练机器学习模型或将正确的数据输入已部署的模型可能是一场噩梦。

以上问题的三种常见解决方案

1、自开发数据服务

经济性+
可维护性+
灵活性+++

这种解决方案指的是通过自开发或者利用某些开源组件(例如MyBatis)搭建一个基于应用需求的服务来连接多个系统,并在返回到数据消费实体之前简单汇总结果。

这种解决方案是强烈的需求驱动的。也就是说,每当你需要另一个复杂的查询时,你要么需要在现有的中间服务中添加更多的功能,甚至常常需要重构服务(这可能是因为DBMS/Hadoop使用的接口完全不同)。
因此,这种解决方案的可维护性和经济性是最差的,虽然可能在短时间内比较贴近业务系统需求。

优点:面向需求,只开发你需要的东西

缺点
没有建立整体 “平台”,所以未来新的类似需求将需要几乎相同的工作量。
这种解决方案没有标准。实现的效果和稳定性完全取决于开发者水平。
安全性比较差,没办法做到全局数据消费管控。

2、企业级数据仓库(数据湖)

经济性++
可维护性+++
灵活性+

在分析这个方案前想说明,企业级数据仓的建设有多方面意义,并不是仅仅有关于特定数据消费场景。对于大型企业,构建企业级数据仓库(数据湖)还是有很多价值的。
数据仓库可能是目前行业中最流行的解决方案。其基本思想是建立一个可以从多个信息系统中提取的系统,然后将所有符合数据仓库标准(星形或雪花模式)的数据存储在一个数据仓库中。
一个企业数据仓库通常包括以下部分。
ETL/ELT数据管道,从各种数据源提取数据,然后对数据进行转换,将其加载到数据仓库中。
数据仓库与普通的交易型数据库不同,它侧重于提高插入/更新/删除的性能,数据仓库是面向分析的的,是为查询而优化的。因此,从多个数据源中提取数据,并在将其存储到数据仓库之前对其进行预先汇总是非常常见的,所以数据可以通过简单的查询几个表而不是几十个表来消费。

优点:
可以减少业务系统的压力,因为分析查询都发生在独立系统。
数据是被预先汇总过的,查询性能更有保证。
可以储存追踪历史数据,在业务事务性数据库中可能会失去这部分信息。
缺点
数据仓库中的数据会有延迟。
如果其中一个数据源改变了它的数据结构,ETL/ELT也需要相应的改变,这可能会导致大量的工作,以及在改变过程中可能出现的数据差异。
业务用户如果需要大量数据进行二次分析或者机器学习训练等操作,数据导出等操作比较复杂

3、麦聪数据统一服务平台

经济性+++
可维护性++++
灵活性++++

类似与DataMesh架构等面向数据消费的数据服务平台还是一个比较新的概念。其中主要包含以下几部分内容。平台建设的重点从后端数据储存转移到终端用户的消费。在企业后端系统和前端展示之间建立一个以数据服务API为主要组成的数据消费层,用户消费数据方式可以更直接更自由,例如可以建立数据产品市场(以电商方式自助式的消费数据)。当然与之对应的需要同步建立数据资产管理,数据产品API开发工具,管理审批和权限控制等。

同时由于平台本身的可扩展性,后续增加新的数据源无需二次开发。API服务本身也可以最大程度的被重用和不断优化。整个数据消费层面的壁垒被打破,数据消费水平可以不断提高增加数据资产变现成业务资产的能力。

优点:
麦聪数据统一服务平台是真正的 “单一真相来源”,因为它不需要数据仓库那样不断复制数据。
最大限度地提高了企业层面所有数据消费的灵活性和敏捷性。例如,它可以在整个公司实现 "自我服务 "的数据消费。
无需大幅改变目前架构,非侵入式实施可以保持技术连续性
对不同的数据平台包括业务系统数据进行全局管控,方便企业理解真实数据产品情况并加以有效使用

缺点:
前期需要投入采购或订阅平台软件

总结

本文介绍了目前企业数据消费层面的常见场景和问题。并介绍了3种主要优化和平台构建的思路。事实上在一个数据驱动的公司的发展过程中,每家公司都会根据实际业务情况进行选择。但是伴随着业务的增长和数字化转型的深入,面向数据消费的数据统一服务平台甚至数据市场的建立可能会是越来越多的企业客户的选择。

关于麦聪软件
麦聪软件是一家大数据分析和解决方案软件研发企业,致力于利用数据统一服务平台帮助企业客户构建开放型数据中台,实现数据资产化和数据服务化,助力企业实现数字化转型,公司现有数据统一服务平台和企业云盘产品。

上官网 [ www.maicongs.com] 注册后免费试用软件,体验实际使用效果

前方高能 | 如何优化企业“数据消费“策略相关推荐

  1. 一文看懂企业数据资产目录

    精益数据方法强调通过共享.开放.协同的方式,让企业的数据流动起来,共享起来,充分的协作起来,同时将数据治理融入业务场景中,在数据生产的全链路中实施数据治理工作. 为了实现这一个目标,企业需要对应的技术 ...

  2. window.open怎么设置title_企业seo怎么优化 都有那些策略?

    seo怎么优化,做seo优化也需要讲究策略,策略不太对路的话,可能效果就差强人意.搜索引擎优化技术知识好掌控,但是如何灵活运用,并能做出效果,则是需要深入研究和实践的了.面对一个网站,seo怎么优化? ...

  3. 如何引导企业数据“价值变现”,看能源化工业的数据化管理

    核心内容:供应链管理,阿米巴管理,能源化工行业四大业务特点,六大管理现状,管理经营数据化五大问题,能源化工行业数据四大特点,基于能源行业业务.管理.数据特点的数据决策管理支持方案(PC端集成.移动办公 ...

  4. 企业数据的秘密(读后笔记)(大数据)

    我们的未来能否被预测? 在澳大利亚被发现之前,生活在十七世纪欧洲的人们都相信一件事:所有的天鹅都是白色的.因为当时所能见到的天鹅的确都是白色的,所以根据经验,那简直就是一个真理,至少可以算是一个公理吧 ...

  5. 数字化转型时代的企业数据新基建 | 爱分析报告

    前言 刚刚过去的21世纪的第二个十年,是消费互联网蓬勃发展的十年,也是云计算.大数据.人工智能等新一代信息技术,即"数字化技术"快速崛起的十年. 在这一时期,以信息服务为主的消费互 ...

  6. 建设数据中台之前,建议先看这份企业数据能力测评 | 大咖说中台

    作者 | 耿立超 来源 | <大数据平台架构与原型实现:数据中台建设实战> "我的企业目前在数据应用上处于什么水平?接下来应该朝哪个方向努力?"本文试图帮助企业决策者和 ...

  7. Cloudera完善企业数据云愿景,新品进一步扩展无处不在的云体验

    Cloudera发布CDP私有云产品,基于红帽OpenShift构建,凭借云原生速度.规模和经济性,加速私有云和混合云数字化转型 2020年6月23日 ,企业数据云公司Cloudera(NYSE:CL ...

  8. 一图梳理企业数据治理的8项举措

    导读:在企业数据治理的战术层面,有一套完整的数据治理实施方法论,包括理现状与定目标.能力成熟度评估.路线图规划.保障体系建设.技术体系建设.策略执行与监控.绩效考核以及长效运营. 作者:用友平台与数据 ...

  9. 阿里云智能数据构建与管理 Dataphin公测,助力企业数据中台建设

    2019独角兽企业重金招聘Python工程师标准>>> 阿里云智能数据构建与管理 Dataphin (下简称"Dataphin")近日重磅上线公共云,开启智能研发 ...

最新文章

  1. python【力扣LeetCode算法题库】面试题 08.11- 硬币
  2. 数据结构: 插值查找算法
  3. 零基础python爬虫_零基础写python爬虫之爬虫编写全记录
  4. 【华科考研机试题】二叉树遍历(递归版 详细注释)
  5. 1000万存在银行,一年的利息够日常生活费吗?
  6. mysql 查询大于某个时间_有关于mysql 时间作为条件查询,索引失效的问题。
  7. 【最小生成树】Prim算法和Kruskal算法的区别对比
  8. Markdown 调整图片位置与大小
  9. nginx的web基础
  10. jquery按键事件_jQuery按键事件
  11. glibc静态链接 libc.a(nsswitch.o)(.data+0x64):undefined reference to `_nss_files_getaliasent_r' 错误解决方法
  12. sigar取得进程信息
  13. C-Free 3.5.2 注册码
  14. 自己DIY word2010脚注和尾注没有的格式
  15. 嵌入式软件测试环境搭建,基于DOORS的嵌入式软件测试环境需求管理
  16. Win10下双系统Ubuntu14.04+GTX1070+CUDAcuDNN+Tensorflow环境搭建
  17. wine 微信输入框不能正常显示(不显示)输入的文字
  18. 视频m4v怎么转换成mp4?
  19. 支付宝企业付款PHP版本(转账到支付宝账户)
  20. springboot中报415错误怎么解决?

热门文章

  1. XYT-EDFA光纤放大器-纤亿通谈超远距离传输神器!
  2. 国家电投与360共建智慧能源大数据安全研究中心
  3. ue 编写linux脚本,通过什么工具编写shell脚本更方面直观
  4. Python中mask使用
  5. 河海大学 南邮 计算机 排名,2019-2020南京邮电大学排名_全国第132名_江苏第15名(最新)...
  6. 1000:Calculate A + B
  7. 上班996累成狗?副业没时间,来说说5个落地方法!
  8. 微信小程序:字体设计符号组合多功能微信小程序源码
  9. 蒙特卡洛抽样电动汽车充电负荷
  10. DevOps Master教练十二条原则