一、企业清晰的数据战略已经刻不容缓

上个月,欧盟委员会于2020年2月19日发布欧盟数据战略,积极推进数字化转型工作,打造欧盟单一数据市场,目的是强化技术主权,提升企业竞争力。

2020年3月,中共中央政治局常务委员会召开会议提出,加快5G网络、数据中心等新型基础设施建设进度。与传统基建相比,新型基础设施建设更能体现数字经济特征,能够更好推动中国经济转型升级。

如图1,根据国家统计局数据,从2015年到2019年,全国居民人均可支配收入持续增加,2019年全年全国居民人均可支配收入30733元,扣除价格因素,实际增长5.8%。

图1 2015年到2019年全国居民人均可支配收入持续增长

(来源,国家统计局官网)

消费者收入一方面在增加,一方面更追求个性化。在政策的大背景下,随着移动互联网的普及,5G的加快落地,对于企业,做好数字化转型,满足消费者千人千面的需求是必然的选择。

此外,还有一个趋势就是越来越多的企业利用数字化技术,开展线上业务,比如在疫情期间,有房地产企业开始在线上卖房。

数据是资产已经是共识,我们的衣食住行不断地产生数据,依托这些数据,使不少互联网企业发展壮大。同样的,在企业的日常运营中也在不断地产生数据,如果能利用好这些数据,将进一步的提升企业竞争力。

在企业普遍开展数字化转型的大潮之下,每家企业应明确自己的数据战略,为数字化转型打好基础。

数据战略包括数据采集、存储、分析、消费。国际数据公司(IDC)和数据存储公司希捷开展的一项研究发现,2025年,全世界产生的新数据将从2018年的33ZB增至175ZB,中国每年将以超过全球平均值3%的速度产生并复制数据。据该研究报告,2018年中国约产生7.6ZB(1ZB约相当于1万亿GB)的数据,到2025年该数字将增至48.6ZB。与此同时,美国2018年约产生6.9ZB数据,并将在2025年增至30.6ZB。

二、企业用好数据,面临四个挑战

企业如何用好数据,面临以下四个挑战

1. 企业内部存在数据竖井,数据采集困难

企业内部的数据,往往存在数据竖井,格式不一致的问题。企业内部的数据,通常是按部门,按数据线保存。不同历史时期,采用的数据库不一样,导致数据格式也不一致。要将数据统一采集存储,需要打破部门壁垒,兼容各种数据格式。

2. 数据增速越来越大,数据存储面临挑战

如前文所述,随着新技术的采用,随着信息化的深入,产生的数据越来越多,数据量飞速增加,大量的数据如何存储成为一门技术活:如何能存储海量的数据,让数据根据冷热分层,让数据存储性价比更高成为挑战。

3. 海量的数据分析需要专业的能力

数据分析越来越复杂,甚至成为一个生态系统,对于一个企业来说,要做数据分析,往往需要一个团队,需要购买商业产品,需要服务商的支持。如图2,从mattturk.com网站总结的数据和AI生态蓝图可以看出数据分析的复杂性。

图2 数据和AI生态蓝图

(来源,mattturk.com网站)

4. 安全合规方面面临挑战

我国于2017年6月1日正式实施《中华人民共和国网络安全法》。在数据安全也有诸多规定。明确规定了网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。

欧盟于2018年5月25日正式实施了《通用数据保护条例》 (General Data Protection Regulation,简称GDPR),GDPR是一项保护欧盟公民个人隐私和数据的法律,其适用范围不仅包括欧盟成员国境内企业的个人数据、也包括欧盟境外企业处理欧盟公民的个人数据。

2019年5月28日国家互联网信息办公室发布《数据安全管理办法》(征求意见稿)。征求意见稿中包括数据收集、数据处理使用和数据安全监督管理等内容。

这四个方面的挑战,中小企业面临的挑战更大,大型企业面临的是效率问题,中小企业则面临的是数据战略如何落地的问题,而AWS推出的数据湖服务,可以很好的解决这四个挑战。

三、AWS数据湖,通过组合拳解决数据难题

图3 AWS的数据湖服务架构

(图来源,AWS公开资料)

如图3,AWS的数据湖实际上由一系列产品和服务构成:

• Amazon RDS:云托管的关系型数据库,支持Amazon Aurora、MySql、Postgre SQL、MariaDB、Microsoft SQL Server、ORACLE等六种常用的关系型数据库。

• Amazon Redshift:数据仓库,性能强大、使用简单,全托管的数据仓库服务,支持大规模并行处理, 支持从GB到TB规模数据的扩展。

• Amazon EMR:大数据处理,在AWS上运行Spark, Hadoop, Hive, Presto, Hbase等大数据分析,高度可扩展的分析和机器学习服务。

• Amazon Kinesis:实时数据,实时收集、处理并分析视频和流数据。

• Amazon Athena:数据交互查询,使用标准SQL对Amazon S3上的数据做交互查询,无需基础设施及配置,无需另外加载数据。

• AWS Glue:ETL 和数据目录服务,无服务器架构的数据目录和ETL服务。AWS Glue 使用能识别常用数据格式和数据类型的预构建分类器(classifiers)抓取数据源并构建数据目录,包括 CSV、Apache Parquet、JSON 等。

• AWS Lake Formation:可以自动化构建数据湖。

通过以上产品和服务的组合,AWS的数据湖有以下特点:

1. 可以快速的构建数据湖

AWS Lake Formation 可以自动化构建数据湖,可以在数天内构建数据湖,而传统方式需要一个经验丰富的团队,花费数个月的时间。

2. 兼容多种数据格式,支持分级存储

AWS数据湖支持关系型和非关系型数据库,Amazon S3 提供五个存储类别和自动数据生命周期管理。Amazon Redshift 的速度比其他云数据仓库要快3倍。

3. 支持不同数据库连接和数据交互查询及

通过AWS Glue和Amazon Athena服务,可以实现不同数据库连接及数据湖数据交互查询。

AWS Glue最主要有两个功能,一个是ETL,ETL是Extract、Transform和Load,即数据的抽取、转换和加载,从数据库提取到数据仓库使用的都是ETL。另外一个功能是数据目录服务的功能,数据都存在数据湖里面,要对数据打标签,做分类工作,AWS Glue可以像爬虫一样对数据湖里的海量数据自动爬取,生成数据目录的功能。

Amazon Athena支持使用SQL直接对S3数据交互式查询,使快速存起来的海量的数据可以像传统的使用SQL语言一样,使用标准的数据库查询的语言,方便了技术人员的使用。

4. 支持多种数据分析方式

图4 AWS数据分析组件

(图来源,AWS公开资料)

如图4,AWS支持多种数据分析方式,数据通过各种数据库采集,进入数据湖,然后进行分析和展现。

数据分析Amazon EMR是重点,Amazon EMR 提供在云中运行 Apache Spark 和 Apache HIVE 工作负载。EMR 与 AWS 的其余部分进行深度集成便于节省成本的功能,如 EC2 Spot 实例,从而将成本缩减高达 90%。

另外,AWS数据分析支持 SQL、R、Scala、Jupyter 和 Python语言,所有的服务均支持使用开放 API 以开放格式(例如 Apache Paquet、Apache OR、Apache Avro)并使用专有(适用于数据仓库的 Redshift)和开放引擎(例如 Spark、Hive)访问单一对象存储 (S3) 中存储的数据。

更进一步,AWS数据湖可以和机器学习和人工智能服务Amazon SageMaker结合,把数据用来做机器学习、人工智能的数据分析,做更多的自动的预测性的分析。

5. 安全

AWS 提供了一套超越标准安全功能的工具,例如对安全策略积极监控和统一管理的加密和访问控制。例如,Amazon Macie 可帮助监控数据湖,以确保不会意外地暴露凭据或个人身份信息 (PII)。Amazon Inspector 可帮助实施最佳实践和识别可能被利用的配置问题,利用 AWS Lake Formation,可以在所有分析服务中对数据湖中的数据进行一致性的访问控制。

图5 ,AWS数据湖平台功能

(图来源,AWS公开资料)

AWS数据湖是成熟的解决方案,如图5所示,可以提供多种功能,实现不同的业务价值。AWS数据湖已经有许多用户在使用,像娱乐业的二十一世纪福克斯电影公司。还有包括一些金融的案例,比如FINRA,是一个美国的金融监管机构,每天有超过1500亿的事件、20PB的数量,它把所有金融的交易的信息都整合在一起,可以处理所有的内部交易。还有纳斯达克交易所,使用数据湖处理每天500亿条的付款,使用数据湖把上市时间缩短了1/3。

四、总结:AWS数据湖服务是数据战略落地的强支点

疫情期间的健康码经过精准的数据分析,极大的方便了大家的出行,也让大家进一步认识了数据分析的便利性。当前,从政府到企业,都普遍认识到了数据的重要性。数据要发挥作用,必须经过多维度的分析。今后五年,企业必须拥有清晰正确的数据战略并高效的落地,数据战略是通往卓越的必经之路,企业要么因为数据战略的高效落地而卓越,要么死亡。

AWS的数据湖服务,能够帮助企业解决数据的采集、存储、分析、消费等全周期的问题,为企业搭建了良好的数据平台,是企业数据战略落地的强支点,能够有力推动企业数字化转型,是企业抢占先机,赢得竞争优势的利器。

↓↓ 点击"阅读原文" 【加入云技术社区】

相关阅读:

云厂商眼中的数据湖是什么?它会持续"温而不火"还是即将"破茧成蝶"?

RightScale 2019年云状况调查报告:35% 的云支出被浪费「附50页PDF下载」

企业五年后卓越或者死亡,数据战略是关键!相关推荐

  1. Cloudera发布全球企业数据成熟度报告,混合云趋势中有效数据战略是关键

    编辑 | 宋慧 出品 | CSDN云计算 2022年3月初,企业数据云公司Cloudera近日发布与技术市场研究公司Vanson Bourne联合编写的全球企业数据战略研究报告,报告分别洞察了数据的使 ...

  2. 《企业大数据系统构建实战:技术、架构、实施与应用》——第1章 企业大数据战略定位 1.1 宏观...

    本节书摘来自华章计算机<企业大数据系统构建实战:技术.架构.实施与应用>一书中的第1章,第1.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区"华章计算机 ...

  3. 陈潭:大数据战略实施的实践逻辑与行动框架

    大数据即将带来一场颠覆性的革命,无论是生产方式.生活方式,还是行为方式.思维方式,无论是经济生活.文化生活,还是社会生活.政治生活,都将发生显著性的变革.大数据不可避免地成为促进组织服务创新.经济社会 ...

  4. 商业银行大数据战略与规划思考

    随着现代科技的不断进步,信息技术呈现出跨越式大发展的格局,以移动互联网.物联网.大数据和云计算等为代表的新技术应用,大幅提高了社会的生产生活效率.移动互联网的应用降低了互联网的接入成本,增加了互联网的 ...

  5. 企业进行高质量数据管理,实施数据治理的关键是什么?

    随着数据通过各种方式创造了巨大价值,各领域的企业开始不断挖掘数据的作用,数据的重要性得到了社会各界的共同认可.像我们熟知的数据治理.数据管理.数据标准以及数据资产都是因为数据地位不断提升,企业开始重视 ...

  6. 企业的大数据战略 - 电子书下载(高清版PDF格式+EPUB格式)

    企业的大数据战略-[荷] 马克·冯·里吉门纳姆(Mark van Rijmenam) 在线阅读                   百度网盘下载(7mxt) 书名:企业的大数据战略 作者:[荷] 马克 ...

  7. 亚马逊云科技推进云原生数据战略全面服务化,普惠150万企业数据创新

    企业与组织管理的数据正在经历爆炸式的增长.研究表明,未来三年(到2024年)创建的数据量将超过过去30年创建的所有数据量.数据的规模在不断扩大的同时,其种类也变得越来越多样化.客户正在存储和分析来自各 ...

  8. 《智能数据时代:企业大数据战略与实战》一3.5 步步为营

    本节书摘来自华章出版社<智能数据时代:企业大数据战略与实战>一书中的第3章,第3.5节,作者 TalkingData ,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  9. 《智能数据时代:企业大数据战略与实战》一2.3 自我评估、完善度、信息架构...

    本节书摘来自华章出版社<智能数据时代:企业大数据战略与实战>一书中的第2章,第2.3节,作者 TalkingData ,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

最新文章

  1. python随机颜色数字_python颜色随机生成器的实例代码
  2. 一本介绍C指针的书--指针和结构体5.1
  3. 50 - 算法- LeetCode 104 -二叉树
  4. 如何查看静态库中有哪些函数
  5. Python 异常(Exception)
  6. Dato for Mac(菜单栏时钟软件)
  7. knot DNS 01 Tips
  8. 数据库入门基本知识点
  9. 《Excel 小技巧》之 一个单元格换行显示日期和星期
  10. 耗纸古文风之四--登高
  11. 如何去除Excel图表网格线?
  12. c java多态_浅谈Java多态
  13. chrome 91版本 解决跨域请求SameSite
  14. c++ 二进制文件读写
  15. jrtplib学习目录及总结
  16. 牛客练习赛87 -A-中位数
  17. 怎么用python画花瓣_使用Python画一朵美丽的玫瑰花
  18. 使用teensy 2.0++ 开发板模拟U盘
  19. 多变量分析”——数据挖掘、数据分析
  20. YDH-1型压电电荷测量仪

热门文章

  1. pythonlambda回调函数_Python中如何借助lambda来给回调函数传参
  2. c++ std 方法 取两个数的较大_【数据结构C++】两数交换(4种方法)
  3. javafx-TableView 行颜色设置
  4. 反演控制 matlab,基于matlab的反演程序
  5. java 反射 调用私有构造函数_使用反射调用私有方法
  6. mysql 排名_SQL语句mysql排名、分组后组内排名、取各组的前几名
  7. java map 元素个数_Java 小模块之--统计字符串中元素个数
  8. android图片垂直居中,img图片在div里垂直居中的最佳解决方案
  9. git cherry pick
  10. Spring 解耦反射创建对象