2019年大数据技术应用的五个方向:数据资产管理、增强分析、智能化数据基础设施、面向AI的分布式框架、数据安全及服务。大多数企业已经运用起来,那么2020年大数据技术应用趋势如何?

2020年大数据技术应用趋势:混合计算、实时图计算、与区块链结合、基于AI的数据管理、边缘数据科学

当大数据和人工智能已成为企业数字化转型的核心方案,对于技术组合、组织管理和应用模式的要求变得越来越高。企业面临的挑战和难点不再是理解、建设数据基础设施,而是如何建立适应数字时代的数据型组织、如何通过数据资源积累实现业务价值。未来大数据技术发展的关键词是“融合”——通过多元化数据科学能力的组合,达到驱动业务创新的目标。

一、混合计算框架

随着应用场景的逐渐丰富,大数据计算引擎技术的发展正在逐年加快。企业在实践中,往往采用多种解决方案来处理复杂的数据业务问题。例如,对于历史数据的采集与汇总、数据仓库、业务报表等T+1离线数据加工场景,通常选择Hadoop、Spark的批处理计算引擎;对于实时推荐、营销、风控反欺诈等T+S级的实时数据,则可以采用Storm、Flink等流处理引擎。在一些刻画复杂关系网络、知识图谱的场景,则还需要Neo4j、Titan等图计算框架。

开源或商用化组件越来越丰富,多数企业目前都有多套引擎来适配不同业务场景。但混合计算架构带来的问题是,数据团队往往要维护多套计算集群和组件,缺少统一的平台框架来集成、管控、调度多种计算单元。此外,由于各种计算引擎不统一,在组织层面也会存在不同技术栈和数据体系割裂。例如,业务部门与科技部门搞两套或多套计算平台的情况并不鲜见。

近年来,一些领先的BigTech公司提出融合计算的概念,希望通过统一的分布式计算框架支持多种计算模式。融合计算模式在底层技术的设计上,不会绑定特定批处理、流计算还是图计算模型,而采用通用分布式核心调度层,提供统一调度、资源管理、灾难恢复等能力。例如,加州大学伯克利分校AMPLab的Ray分布式框架,作为通过核心框架实现对批量、流、图等不同计算模式的抽象。

未来企业大数据架构,批流融合、图流融合将会是一个大的趋势。一些开源组件如Flink、Kafka等已引入了批量计算与实时计算统一处理思路。这一理念对于设计复杂计算单元的统一监控与管理时具有重要意义。

二、实时图计算

图计算与图数据库已经在不少场景中得到应用,如知识图谱、关联关系刻画、资金行为分析、多重担保、欺诈行为预测等,多数场景多基于离线数据的图形化映射刻画实体之间的关系。随着5G时代的到来,企业面临高频、快速数据分析的场景会越来越多。大规模分布式图数据库和在线图计算引擎将成为支持高性能、低延迟的关系网络数据查询与分析的重要平台。

实时图计算提供了海量图数据存储之上的低延迟访问,并实现流计算和图计算的多模态处理能力。在这一模式下,分布式系统会对实时流数据进行不同链路的处理加工:一部分写入图数据库、基于内存之上构建图缓存;另一部分从图缓存中抽取图进行计算并将结果输出。

流计算+图计算的融合计算模式解决了传统离线图计算延迟的问题,在大数据环境下为构建知识图谱,实现实时风控、实时营销、异常担保等场景提供了解决方案,未来在金融、政府、零售等行业的应用将会变得更加普遍。

三、与区块链技术的结合

自高层开展学习区块链之后,这种2008年由中本聪(Satoshi Nakamoto)提出、伴随加密货币出现的技术方案瞬间成为风口。以金融业为代表,全行业掀起了区块链技术的研究探索浪潮。在交易登记、结算、审计、供应链管理、可信存证、多方安全计算等领域,区块链应用已陆续落地,区块链技术也被誉为“数字时代的信用基础设施”。

本质上区块链与大数据都是一种数据存储架构,其基础设施均是从单一主从范式的体系结构转变为分布式模式。区别在于:大数据平台存储多元、异构、多种类型的数据,是解决大规模离线与在线数据统计、分析的技术方案;而区块链的主要特点是“共享写入”,结合了去中心化分布式账本和加密方法实现对可信数据的一致性访问。

大数据与区块链将会是未来企业构建企业数据基础设施的重要方向。其中,区块链技术作为存证、凭据、交易等场景数据的存储,自动校验提供数据一致、完整和准确性,形成区块链即服务(Blockchain-as-a-Service);而大数据集成、存储、计算与分析作为数据即服务的解决方案(Data-as-a-Service)。

支撑大数据与区块链的混合数据计算架构(Hybrid Data Architecture)既要体现弹性、冗余、安全、一致性和随时可用的数据访问,也需要满足联盟链或私有链对于非中心化设计、各结点独立保存全量副本的设计标准。

此外,基于区块链数据的处理、分析技术作为重要的基础服务,将会逐步市场化应用。例如,在监管科技应用中,区块链账户身份特征的识别、对区块链交易网络的画像、异常交易行为检测、洗钱与欺诈行为检测等将会是监管机构关注的重点。由于区块链的数据特征、存储模式与传统数据平台较大的差异,如何将区块链数据的分析型应用与可视化,将会是行业探索的重点方向。

四、基于AI的数据管理

随着企业数据资源的积累越来越丰富,对数据管理与治理的需求也变得更加强烈。从数据引入、汇集、存储、建模、元数据、质量、测试校验、发布等过程,需要大量的数据模型设计、研发、运维人员的参与,企业正寻求通过AI技术实现数据管理全链路的优化方案。

信息技术研究机构Gartner预测,在2022年底之前,通过机器学习和和自动化服务管理技术,数据管理的手动任务将会减少45%。基于AI的数据管理(Gartner称之为“增强数据管理”)通过机器学习模型,结合研发与运维等操作过程中的元数据,自动化创建数据质量规则,提供问题精准定位、监控预警等能力,从而免去许多手动任务操作过程。

基于AI的数据管理已经在一些大型科技公司中得到应用,如数据研发链路的质量规则配置、针对计算任务的故障定位、异常操作行为识别等领域;而提供增强数据管理工具的技术提供商也将会逐渐增多。

五、边缘数据科学

5G时代已至,伴随物联网IoT技术的发展,企业面临设备、终端上的海量、多样数据越来越庞大。传统云端集中式的数据处理模式,由于大规模数据传输压力大、网络延迟等问题,已不再适应当前企业发展的需求。近些年兴起的边缘计算(Edge Computing),在数据源头边缘侧提供服务,数据不再上传至云端,成为一种实时、高性能数据处理解决方案。

边缘计算的丰富应用催生了边缘数据科学(Edge Data Science)——基于边缘设备形成的计算与存储平台,对终端产生的大批量、实时业务数据进行预处理、加工、分析与建模。边缘数据科学的重要意义在于它是实现边缘智能的必要条件。例如,边缘设备、终端中需要执行多种算法任务,如自然语言处理(NLP)、实时语音数据分析、视频与图像识别,对机器学习、深度学习、在线强化学习提出了较高的要求。随着AI芯片技术的突破,可在边缘设备上执行的轻量、实时、高性能算法框架(如Caffe)将会快速发展。

万物互联时代即将到来,如何加工处理边缘设备终端中产生的高频、海量的大规模数据是边缘数据科学探索的重要方向。此外,基于边缘设备的数据管理、分析与共享平台也将在更多的场景中得到规模化应用。

文章来源知乎

关于大数据技术的演讲_2020年大数据技术应用趋势与当前大数据技术实践反思...相关推荐

  1. 关于大数据技术的演讲_百度大数据技术开放平台再度亮相

    众所周知,百度凭借在大数据领域多年的深厚技术积累,一直冲在产业智能化的最前线.在去年的百度AI开发者大会上,百度大数据发布了全新的大数据产品技术栈,覆盖了数据工程.数据科学.数据产品和行业解决方案,并 ...

  2. 关于大数据技术的演讲_大数据以及大数据技术都包括哪些内容

    大数据经过多年的发展,目前在概念上已经有了更多的含义,从不同的角度来看待大数据也会有不同的定义,但是总的来说,大数据可以用三个方面来进行概括,其一是"新的价值领域";其二是&quo ...

  3. 大咖实录|漆远蚂蚁金服首席数据科学家等演讲实录

    主持人:在人工智能领域,蚂蚁金服也一直在努力.今天要为大家揭晓蚂蚁阶段性的成果,有请蚂蚁金服副总裁.首席数据科学家漆远! 漆远:大家好!从长远发展来讲,任何公司.任何机构的长远发展需要一个真正扎实的积 ...

  4. 大咖实录 漆远蚂蚁金服首席数据科学家等演讲实录

    主持人:在人工智能领域,蚂蚁金服也一直在努力.今天要为大家揭晓蚂蚁阶段性的成果,有请蚂蚁金服副总裁.首席数据科学家漆远! 漆远:大家好!从长远发展来讲,任何公司.任何机构的长远发展需要一个真正扎实的积 ...

  5. 《企业大数据系统构建实战:技术、架构、实施与应用》——第3章 企业大数据解决方案 3.1 企业大数据解决方案实现方式...

    本节书摘来自华章计算机<企业大数据系统构建实战:技术.架构.实施与应用>一书中的第3章,第3.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区"华章计算机 ...

  6. 《企业大数据系统构建实战:技术、架构、实施与应用》——第1章 企业大数据战略定位 1.1 宏观...

    本节书摘来自华章计算机<企业大数据系统构建实战:技术.架构.实施与应用>一书中的第1章,第1.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区"华章计算机 ...

  7. 云消防大数据_2020年刚需系列专题之智慧消防大数据平台建设方案 智慧消防云平台项目 解决方案,一查就有...

    消防产业关乎国计民生,伴随城镇化进程而逐步成长.根据中国消防协会编撰的<中国消防产业发展现状>,我国消防产业每年的总体规模约为 1000-2000 亿元.消防产业的成长伴随着我国的城镇化进 ...

  8. 本周数讯:《中国气象大数据2018》发布;“互联网+”联盟在北京成立;2018中国大数据技术大会召开

    1."互联网+"联盟在北京成立 12月3日,"互联网+"联盟在京成立,并举行第一次成员大会暨第一次理事会.该联盟由国家发展改革委.工业和信息化部.中央网信办共同 ...

  9. 发布职位:智行者科技idriverplus#d轮结束,即将ipobase:北广鄂渝技术路线:激光雷达+摄像头+高精地图前端后端移动端大数据感知嵌入式算法

    发布职位:智行者科技idriverplus# d轮结束,即将ipo base:北广鄂渝 技术路线:激光雷达+摄像头+高精地图 前端后端移动端大数据感知嵌入式算法

最新文章

  1. BASIC-5 查找整数
  2. html(4)标签form表单——基础
  3. 6.1 API : AdaBoostClassifier与AdaBoostRegressor
  4. character-RNN模型介绍以及代码解析
  5. 2月11日 TensorBoard+DNN+CNN
  6. 别在花钱买Java资料了!自学Java必备的干货合集免费给你(含珍藏电子书)
  7. 前端实现在线预览pdf、word、xls、ppt等文件
  8. 根轨迹法和频率响应法设计PI控制器学习笔记
  9. python语言实验——某年某月的天数 OJ1160
  10. Python爬虫实战之五:requests-re多页爬取链家成都地区租房市场信息
  11. 【代码】eclipse搭建ssm框架所需约束
  12. Unity小地图制作与美化
  13. 深度学习项目,使用python进行表情识别,pytorch应用
  14. 【文文殿下】ExBSGS
  15. Centos7配置 yum代理
  16. 谷歌海外推广怎么做?
  17. JS事件—unload、beforeunload
  18. oracle怎么备份bak文件,[转载]如何将sqlserver的bak文件中的数据还原到oracle数据库中...
  19. 【渝粤教育】 广东开放大学21秋期末考试刑事诉讼法学10228k2
  20. c语言中%p和%x的意思

热门文章

  1. 如何运用python画名字_[原创]如何使用Python在好友画我上画一个标准的汉字震惊朋友圈...
  2. ES(elasticsearch)已启动成功但服务器IP却打不开
  3. java数组下标越界处理_可恶的Java数组下标越界检查
  4. 生产排故_ORA-01000: maximum open cursors exceeded
  5. 【计算机科学基础】计算理论基础
  6. 香港武侠电影十大金曲
  7. 扩散(diffusion)和弥散(dispersion)有什么区别
  8. @Component与@Configuration区别
  9. 等级保护2.0-大数据安全要求梳理
  10. hive SQL优化