英国牛津大学教授舍恩伯格在其所撰写的《大数据时代》中表述,大数据时代是“已经发生的未来”,而在这个已经发生的未来里,人人都是参与者。

作为时代发展的必然产物,大数据正加速渗透进我们的日常生活,完成对各传统领域的颠覆。自互联网大数据从上个世纪九十年代风靡全球后,一直伴随着人类的需求和使用而不断的演进和发展,未来,大数据产业将继续稳步快速增长,更加深刻的影响我们的生产和生活。

大数据时代的特点和市场规模

大数据技术以开源为主,迄今为止,尚未形成绝对的技术垄断,即便是IBM、甲骨文等行业巨擘,也同样是集成了开源技术和该公司已有产品而已。开源技术对任何一个国家都是开放的,中国公司同样可以分享开源的蛋糕,但是需要以更加开放的心态、更加开明的思想正确地对待开源社区。此外,中国的人口和经济规模决定了中国的数据资产规模冠于全球。

我国数据生产能力巨大,大数据资源极为丰富。今年,中国信息协会大数据分会与北京国润互联信息技术研究院共同发布了《2021—2022中国大数据产业发展报告》,《报告》预测,未来三年,中国大数据产业市场将保持12%以上的增速,到2023年整体规模将达到11522.5亿元。从行业角度分析,互联网、政府、金融和电信等几大行业处于引领位置。

大数据市场预测

大数据正超越信息技术,使人们重新思考公司的战略和组织结构,重新审视产业变迁的驱动因素,重新审视政府治理水平,甚至重新界定国家竞争的主战场。

大数据技术发展趋势

随着大数据技术的不断发展,其各个技术环节呈现出新的发展趋势和挑战。根据Gartner最新的分析可以看出,大数据主要有五大技术趋势。

1、存储计算分离

在传统集群系统中,计算和存储是紧密耦合的,以Hadoop为例,在传统Hadoop的使用中,存储与计算密不可分,而随着业务的发展,常常会为了扩存储而带来额外的计算扩容,这其实就是一种浪费。同理,只为了提升计算能力,也会带来一段时期的存储浪费,将计算和存储分离,可以更好地应对单方面的不足。

存储计算分离是一种分层架构思想,即将存储能力和计算能力分开,各自服务化,通过高速网络连接。以AWS的大护具架构为例,底层统一采用S3存储,存储层上架设各种计算引擎比如HIVE、Spark、Flink等。

2、实时计算及实时数仓

实时计算一般是针对海量数据进行的,要求通常为秒级。实时计算主要分为数据的实时入库、数据的实时计算两部分。以下为实时计算的主要应用场景:

第一个场景是数据源实时、不间断,要求用户的响应时间也是实时的。比如对于大型网站的流式数据:网站的访问PV/UV、用户访问了什么内容、搜索了什么内容等,实时的数据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况。

另一个场景是数据量大且无法或没必要预算,但要求对用户的响应时间是实时的。比如说:昨天来自每个省份不同性别的访问量分布,昨天来自每个省份不同性别不同年龄不同职业不同名族的访问量分布。

3、人工智能推动数据智能应用

相比于传统机器学习算法,深度学习提出了一种让计算机自动学习产生特征的方法,并将特征学习融入建立模型的过程中,从而减少了人为设计特征引发的不完备。深度学习借助深层次神经网络模型,能够更加智能地提取数据不同层次的特征,对数据进行更加准确、有效的表达。而且训练样本数量越大,深度学习算法相对传统机器学习算法就越有优势。

大数据与人工智能交叉

目前,深度学习已经深入多个领域,并在图像分类、语音识别、问答系统等应用中获得了重大突破,取得了成功的商业应用。随着越来越多的行业和领域逐步完善数据的采集和存储,深度学习的应用会更加广泛。由于大数据应用的复杂性,人工智能和大数据的融合将是一个持续发展趋势。

4、技术趋势,湖仓一体化

此前,阿里云正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的、有机的、大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。

大数据存在的三种形态

在数据湖架构上建立数仓的尝试并不成功,这表明数仓和数据湖有本质的区别,在数据湖体系上很难建成完善的数仓。数据湖与数据仓库两者很难直接合并成一套系统,基于融合两者的思路进行探索,阿里云提出下一代的大数据技术演进方向:湖仓一体,即打通数据仓库和数据湖两套体系,让数据和计算在湖和仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。

在阿里云的构想中,湖仓一体值得期待。湖和仓的数据/元数据无缝打通,且不需要用户人工干预;湖和仓有统一的开发体验,存储在不同系统的数据,可以通过一个统一的开发/管理平台操作;系统可以根据自动的规则决定哪些数据放在数仓,哪些保留在数据湖,进而形成一体化。

5、大数据平台融合云计算

云计算与大数据的发展路线必将交接、碰撞,而这已经成为现实。大数据给人留下的印象:花钱多,灵活度低,令人头疼的运营管理等等。好在近年来,Modern Data Warehouse这个概念火了起来,利用云计算解释了现代大数据存在的合理性。而随着企业日新月异的数据需求和技术的进步,更新的技术架构层出不穷。

以DaaS为例,其既是Function-as-a-Service(FaaS)的一种,也是SaaS的自然延伸,最终目的都是尽可能远离IaaS以及服务本身的运维,把资源最大限度地解放出来进行业务功能的开发,是目前大数据领域最接近这种serverless概念的产品,也许它会成为云时代最好的大数据平台。

总之,大数据技术的兴起正完成对各传统领域的颠覆。全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。各国已相继制定实施大数据战略性文件,大力推动大数据发展和应用。从全球大数据发展的趋势来看,大数据产业推动社会生产要素的网络化共享、集约化整合、协作开发和高效利用,改变了传统的生产方式和经济运行机制,可显著提升经济运行水平和效率。

回顾2021年,数据已经成了人们工作、生活中不可或缺的要素。人们的衣食住行,都因为数据而改变、优化,从而获得更好的体验。

展望未来,中国大数据产业将继续稳步快速增长,技术创新能力不断增强,产业价值持续释放,无论是政府、企业,还是消费者,数字化意识正进一步增强。在相关产业政策、法律法规的支持和规范下,大数据产业将加速走向微观细分领域,与行业应用深度结合,有效推动数字化转型与智能化升级。

盘古开源丨大数据产业价值持续释放,有效推动数字化转型升级相关推荐

  1. 盘古开源:大数据赋能业务运营,自主研发实现新突破

    现在,我国正处在工业经济向数字经济迈进的关键时期.数据是新时代重要的生产要素,是国家基础性战略资源.日前,中国在大数据技术研发方面实现新的突破--据中国联通透露,中国联通软研院推出基于大数据的&quo ...

  2. 一场大数据汇聚 描绘一个传统家纺行业的转型升级成果

    当很多人将传统家纺产业与夕阳产业等同,认为传统家纺产业无利可图的时候,帘到家不断创新摸索,用大数据实现了传统产业的转型升级.8月18日,"数聚·智汇"帘到家2017全国秋季订货会在 ...

  3. 大数据平台不是救世主!做好数字化转型,得先解决这一问题

    企业数据管理团队最大的一个挑战就是跨部门数据的整合,因为部门墙到处都是. 对于大多数企业,需要先破后立,通过大数据平台项目的形式进行跨部门的数据采集和整合.因为在项目阶段,公司领导一般比较关注,而规划 ...

  4. 中电金信Gien享汇・大数据专题|大型金控公司数字化转型解读

    本期嘉宾 陈 圣 中电金信商业分析事业部 华北二部总经理 毕业于香港大学 EMBA 专业,在商业智能领域从事17年,具有丰富的咨询与交付管理经验.他在企业中对通过梳理战略目标和业务目标,结合企业业务发 ...

  5. 你的旧船票能否搭上这艘巨轮?——解读近5年大数据产业发展规划

    文|水手 本文出自:知乎专栏<帆软数据应用研究院>--数据干货&资讯集中地! 文章导读 一.大数据产业现状和挑战 二.2020年发展目标 三.实现目标的关键举措 四.<规划& ...

  6. 华云数据蝉联中国大数据50强 成为中国大数据产业生态联盟理事单位

    数智转型 融合共生,7月28日-29日,为期两天的"2021中国大数据产业生态大会"在北京盛大开幕.本届大会由中国电子信息产业发展研究院指导,赛迪传媒.中国大数据产业生态联盟.软件 ...

  7. 敲黑板!《大数据产业发展规划(2016-2020年)》要点解读

    近年来,随着互联网.云计算.大数据.物联网等新兴技术的飞速发展,全球数据总量出现爆炸式增长,数据正在成为政府和企业越来越重要的基础性战略资源,可谓21世纪的"钻石矿".面对大数据时 ...

  8. 解读大数据产业现状和未来趋势

    当互联网技术发展到今天,大数据和云计算早已渗透我们生活.大数据以"降低信息不对称和提高决策有效性"为目标,可广泛作用于几乎所有行业,必将掀起一场新的革命.目前,大数据已经迎来了高速 ...

  9. 智领云荣登“中国大数据企业50强” | 2020大数据产业生态大会盛大召开 智领云斩获多项殊荣

    近年来,我国大数据生态环境不断向好,产业发展维持高增长态势,大数据技术在与政府.企业核心业务的融合中,释放出了更多创新活力和应用潜能. 8月27日,2020(第五届)大数据产业生态大会在京隆重召开,中 ...

最新文章

  1. 视频+课件|基于深度学习方式的多视图立体匹配算法
  2. 如果你的船不进来,就游出去迎接它 乔纳森温特斯
  3. java 大数据处理类 BigDecimal 解析
  4. JavaScript实现页面滚动到div区域div以动画方式出现
  5. php tool pagination,php实现分页工具类分享
  6. Linux vi 编辑器常见命令的使用
  7. Linux项目第一次访问非常慢,后来很快的异常
  8. 目标检测再次革新!图灵奖得主团队提出Pix2Seq,将Detection变成了Image Captioning...
  9. Zookeeper Watcher(事件监听器)?
  10. PHP报不存在图像文件,使用TP3.2.3图片文件上传显示不存在图像文件
  11. 使用Android OpenGL ES 2.0绘图之三:绘制形状
  12. c语言的实验报告实验原理,c语言实验报告
  13. 综述论文要写英文摘要吗_论文写作指导:本科学位毕业论文写作必备技巧
  14. 【计算机网络】Stanford CS144 学习笔记
  15. 运维工程师 主要是做什么的?
  16. 手机号码、电子邮箱、身份证、银行卡正则验证
  17. jar启动方式设置内存参数
  18. 【题解】Luogu P5405 [CTS2019]氪金手游
  19. error:type/value mismatch at ... ::iterator
  20. 苦练基本功-计算机网络基础-TCP建立连接

热门文章

  1. 什么是 API 安全?详细解析
  2. 为图书出版带来第二春的,正是AI!
  3. ftp账号没有写入权限
  4. 基于51单片机智能光控制窗帘系统设计(毕设课设)
  5. 青岛大学OnlineJudge搭建
  6. BEPUphysicsint碰撞事件详解
  7. 网易笔试——算法笔试真题
  8. 机器学习笔记 - 模式识别的应用场景之一简单车牌识别
  9. 黑,白……乌云网多名高管确认被警方带走
  10. java丝袜_丝袜哥 --- swagger的使用