大数据与快速数据分析对高性能分析的需求

智能家居的设备的产生必然使下一代家居服务概念化,社交网站和知识社区的日益普及,科学实验和技术计算的激增,高度可编程以及软件定义IT基础设施(服务器、存储装置、网络解决方案的涌现等都极大促进了可用数据的指数级增长)。

大数据分析范型

大数据分析的成熟度、稳定性、战略符合程度需要进行彻底调查,从而才能够在开始阶段就完全确定和清晰表达各种可见和隐藏的风险(可行性、财务影响、技术成熟和稳定程度、资源可用性)。实时分析是当前热门的需求,很多人努力实现这一关键需求。

描述大数据

随着产品供应商、服务组织、独立软件供应商、系统集成商、创新者和研究机构之间更深入的协作,这种范型正在逐步的确认。创建、持续并维持简化技术、平台和基础设施、集成流程、最佳实践、设计模式、关键指标,目的是使得这一新的学科更具有渗透力和说服力。大数据的含义是广泛的,主要的活动是对大数据进行基于工具和数学的分析,从而获得更大的洞见。分析学是IT中的独立学科,研究数据收集、过滤、清理、转换、存储、表示、处理、挖掘和分析的方法,目的是提取可用的情报。。

大数据特性

大数据的一般特性

  • 数据存储的容量定义为PB级、EB级等。超过当前存储限制(GB、TB)
  • 大数据可以有多种结构(结构化、非结构化、半结构化)
  • 大数据有多种类型的数据来源(传感器、计算机、移动电话、社交网络)和资源
  • 数据收集、获取、处理、挖掘的速度跨越两个极端,即在实时到面向批处理的变化

高性能分析

有多种的分布式处理机制

  • in-memory分析将分析过程划分为易于管理的片段,将计算并行分布到一组专用的机器中。
  • in-database处理是用大规模并行处理(MPP)数据库结构来更快执行关键数据管理分析开发及部署任务。相关任务被移动到更接近数据集的位置,而且计算会运行在数据库中,从而避免耗时的数据移动和转移。
  • 网格计算:创建一个受控的,共享的来使用动态的、基于资源的负载均衡快速处理大量数据和分析程序。可以将任务进行分割,然后将分割后的任务运行在使用共享物理存储的多个对称多处理(SMP)机上。集中管理使得你可以在执行的一组约束下监视和管理多个用户及应用程序。

大数据和快速数据的含义

大数据的主要影响包括:

  • 数据管理(端到端的数据生命周期)基础设施
  • 数据分析平台
  • 构建下一代洞见驱动的应用程序。

大数据基础设施

从数据获取到清理数据从而快速容易地提取可用洞见,要求大量的统一的IT基础设施和无缝同步的平台。最近出现了存储设备、网络连接方案、裸机服务器、虚拟机(VM)、Docker容器等用于受Hadoop启发的大数据分析。

大数据平台

在平台方面,最合理的场景是采取集成的平台进行数据采集、分析、知识发现和可视化。可以使用连接器、驱动器、适配器来从不同的数据来源获得数据,例如文件、数据库、设备、传感器、操作系统、社交网站等。Hadoop平台主要支持粗粒度数据查询和检索。Hadoop将多结构数据转化为结构化数据,从而使得商业智能(BI)平台能够有效地处理格式化和规范化后的数据。Hadoop用来删除各种类型冗余和重复数据,这样总数据规模就会急剧下降。MapReduce是主要的数据处理框架。任意编程语言和脚本语言都可用于编写MapReduce应用程序。Hadoop分布式文件系统(HDFS)是朱啊哟数据存储框架。即便是传统的数据库管理系统也正在相应的更新,目的是高效的应对数据分析带来的挑战。产生了并行、分析、集群、分布式数据库管理系统来迎合(BDA)。还出现了中间件解决方案,形式包括数据hub、消息总线和网络架构、代理等。目的是将粗糙的边界抚平。

还有集成的解决方案,Datameer(http://www.datameer.com/)就是这样的平台,被用来简化大数据平台分析任务。

大数据应用程序

BDA正在快速成为学术机构和IT组织的研究实验室的等学习和研究的一个重要学习。随着软件定义的基础设施(SDI)和基于云的平台稳定分析即服务(Analytics as a Service,AaaS)。

用于精确、预测性、规范性洞见的新兴数据源

数据爆炸的关键驱动是因为采用了下面列出的技术

  • 由于通过先进技术实现数字化,感知和智能物体的数量多达数以万计。
  • 由于IT消费化,智能手机和可穿戴设备多达数十亿。
  • 设备和服务生态系统的空前增长。
  • 运营系统、事务系统、实时系统、交互系统的指数级增长。
  • 通过更加深入、极致网络和通信互连的设备和系统多达数十亿。
  • 大规模技术计算和科学实验
  • 社交网络(web2.0)和知识社区的繁荣。
  • IT集中化、商业化、产业化(云计算)
  • 物联网(loT)、空间物理系统(CPS)、环境智能(AmI)等技术的采纳

计算变得分布而管理变得集中,通信变为自治的,统一的,感知变得无处不在。具有感知能力的物体遍布各处。视觉、感知、决策支持、驱动是普适的。知识捕捉和利用强制在系统和服务中实现等。用于设备、应用继承的标准兼容服务支持和用于远程发现、访问、诊断、可修复性、可管理性、可维持性的编程基础设施。

各种各样的通用或专用的网络(BCN、CAN、LAN、PAN等)将会产生大量的有用信息。

此外、各种电子交易和交互都会产生大量的数据。

其他导致大数据的主要进程如下

  • 设备到设备(D2D)集成
  • 设备到企业(D2E)集成
  • 设备到云(D2C)集成:随着多数企业系统移动到云,设备到云(D2C):随着多数企业系统移动到云,设备到云(D2C)互联网变得更加重要
  • 云到云(C2C)集成:不同的、分布式的、去中心的云逐渐连接起来,以便提供更好的服务。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qsWkCPec-1570284078666)(assets/1570192439718.png)]

新兴的物联网的参考架构

大数据分析

特定的及通用的分析学科

类型 类型
实时分析 社交媒体分析
预测性分析 运营分析
规范性分析 机器分析
高性能分析 零售与安全分析
诊断分析 情感分析
流分析 环境感知分析

大数据分析的主要应用领域

处理运转中、使用中和持久的数据

受分析影响的主要领域

新一代的数据分析

大数据分析技术架构

大数据分析的宏观架构

与平台相关的高度优化的基础设施是从大数据领域中不断获得预期成功的主要支柱。除了数据虚拟化、提取、预处理和分析平台外,还有中间件、代理器、连接器、驱动器、适配器解决方案以及不同的数据管理平台集合。可视化工具对于及时向正确的用户和系统传递消息是非常必要的。还有消息队列和代理用来接收数据和文档消息。

混合架构

随着新类型的数据以及来源不断的涌现,大数据仍然在不断的增长。混合架构代表了两种不同架构模式和谐共存,对于数据采集、有标准的的以及具体的、第三方的、专门的连接器。

机器数据分析

在一些数据中心中,大量企业级运营和分析系统,数据管理系统,成套的、自产的总控系统,以及集成引擎。在云技术的采用,这些传统的数据中心正在逐渐成为强大的私有云环境。

基于云的大数据分析

用于大数据集分析的公有云

云计算的最大潜力是对已经存在于云中心的数据的可负担的,熟练的处理。云作为IT的基础设施(服务器、存储、网络)、商业基础设施、管理软件解决方案和应用的融合高度优化且自动、专用和共享、虚拟化、软件定义的环境,其地位正在快速巩固。跨国组织的数量正在稳步的增长,对于IT的直接影响就是多样性,分布式的应用程序和数据源位于多个环境中,包括私有云、公有云、混合云。考虑到安全性需要,客户、机密、公司信息主要保存在私有云中,为了满足需求,所有企业级业务应用(ERP、SCM、CRM、KM、CM等)放置在私有云中。

WAN优化技术正在快速成熟,目的在地理分布的云的系统之间传递大量数据时大幅减少网络的延迟。联合、开放、互联、互操作的云模式正在快速的关注。

混合云

各种软件系统正在逐步现代化,并被移动到云环境中,尤其是公有云,这样就能够作为公网上的服务来进行订阅和使用。

企业分析

多数企业已经在大量企业级存储中积累了很多的数据,企业需要从数据中创建智能并收集大的洞见和价值,从而指定策略和有价值的技术。

通常企业分析部分的需求包括:

  • 工作负载管理和优先级管理
  • 管理整个IT环境
  • 对所有业务处理进行性能优化。

社交媒体分析SMA

社交数据的规模正在快速增长,如果能够适当进行各种特定探测,不断增加的社交数据能够产生多种价值增值。加速决策的过程。

大数据分析的主要步骤

有一些新兴的数据源坚持要求自动数据采集、清理、修正、格式化、过滤等。预处理动作需要同步执行,而且随着数据复杂性的增加。需要具备高度胜任的平台和工具集,再加上适配器、连接器、驱动器、才能够加速预处理功能。Hadoop平台被视为最有前途的平台。

数据采集

数据被采集并上传到基于云的数据服务中。例如Datameer这个端到端的大数据平台,它忽略了ETL和静态模式的限制,使得业务用户能够用于所有常见的结构和非结构化的数据源。Datameer将所有的数据以原始格式直接加载到Hadoop中,通过健壮的采样、解析、调度和数据保持工具,处理过程得到了优化和支持,使得任何用户能够快速、高效地获得他们需要的数据。

Treasure Data Serive(另一个大数据平台服务供应商)使用并行批量数据导入工具或运行在客户本地系统中的实时数据收集代理。批量数据导入工具通常用于从关系型数据库、平面文件(Excel、逗号分隔文件)、应用系统(ERP、CRM等)导入数据。数据的收集代理被设计为实时从web和应用程序日志、传感器、移动系统等捕获数据。数据收集代理在数据转送到云服务之前进行过滤、转换、聚集。所有的数据会被转换为MessagePack的二进制格式。代理技术被设为轻量级、可扩展、可靠的。还有使用并行化、缓冲、压缩机制来使用性能达到最高、减少网络流量,确保在数据传输中不重不漏。

数据存储

大数据存储可以使用SQL、NoSQL和NewSQL数据库。架构师需要选择适当的数据库管理系统。Treasure Data service在Plazma中保存数据。它是可扩展、安全、基于云的、列式数据库。Plazma为时序数据进行了优化。

实时分析

通常大量结构化和半结构化数据保存在Hadoop中(数量+多样性)。另一方面,流数据用于快速数据需求(速度+多样性)。两者相辅相成。

Hadoop是大数据时代的典型的批处理解决方案,数据被收集和保存到商用服务器和磁盘中,进而采用许多不同的处理技术在预定的时间内获得洞见。

实时数据或快速数据、事件数据、连续数据、流数据要求实时分析能力,运营数据是一种实时数据,用于产生运营智能。不仅IT基础设施平台、定制的、自产的、成套的业务应用程序也能产生大量的运行数据,包括日志文件、配置文件、策略文件等。

实时分析的主要用例:

  • 入侵、监视、欺诈检测
  • 实时安全性和监视
  • 算法交易
  • 医疗、运动分析等
  • 对生产、运营、交易系统的监视、度量和管理
  • 供应链优化与智能电网
  • 智能环境:智能汽车、智能家居、智能医院、智能旅馆等。
  • 车辆和野生动物的追踪。
  • 环境、状况感知。

实时分析平台


Apache Drill 是用于Hadoop和NoSQL的开源、低延迟SQL查询引擎。Apache Drill 的目的是自底向上地在规模快速增加的多结构化数据集上提供低延迟查询。

VoltBD和MemSQL是市场上获得足够关注的两种著名的in-memory数据库。

MemSQL DB的参考架构

主要的区别就是

  • 加速应用程序并增加实时运营分析
  • 基于商用硬件灵活扩展、最大化性能及ROI
  • 同时分析实时和历史数据
  • 将关系型数据和JSON数据合并。

流分析

Storm和Spark用于加速流分析的处理。

主要的应用:

  • 业务流程管理与自动化(过程监视,BAM、异常报告、商业智能)
  • 金融(算法交易、欺诈检测、风险管理)
  • 网络与应用监视(入侵检测、SLA监视)
  • 传感器网路应用(RFID读取、生产线调度与控制、空中交通)

结论

高性能计算系统——大数据与快速数据分析对高性能分析的需求相关推荐

  1. 高性能计算系统——大数据/快速数据分析中的高性能技术

    大数据/快速数据分析中的高性能技术 高性能计算的目的是为了数据密集型以及处理密集型的工作实现少费而多用的目标.计算机.存储设备和网络解决方案也相应变得高性能和可扩展. 高通量计算(HTC)同高性能计算 ...

  2. [毕业设计] 基于大数据B站数据分析项目 - 情感分析

    文章目录 0 数据分析目标 1 B站整体视频数据分析 1.1 数据预处理 1.2 数据可视化 1.3 分析结果 2 单一视频分析 2.1 数据预处理 2.2 数据清洗 2.3 数据可视化 3 文本挖掘 ...

  3. CSDN开发者周刊 TDengine:专为物联网订制的大数据平台 YugaByte DB:高性能的分布式ACID事务数据库

    CSDN开发者周刊:   TDengine:专为物联网订制的大数据平台 YugaByte DB:高性能的分布式ACID事务数据库 CSDN开发者周刊:只为传递"有趣/有用"的开发者 ...

  4. 开课吧:大数据时代,数据分析的特点是什么?

    目前数据分析技术能够为我们个人以及企业发展提供帮助,所以很多企业对于数据分析师都很重视,这也是数据分析师拥有良好的待遇以及发展前景的主要原因.为了能够顺利成为数据分析师,需要明白大数据时代,数据分析的 ...

  5. 大数据、快速数据和数据湖概念

    作者: 娜塔莉亚·米洛斯拉夫斯卡娅和亚历山大·托尔斯泰 国立核研究大学MEPhI(莫斯科工程物理研究所) 摘要 今天,我们见证了大数据的另外两个概念的出现:数据湖和快速数据.它们只是旧大数据IT的新营 ...

  6. 剖析大数据平台的数据分析

    无论是采集数据,还是存储数据,都不是大数据平台的最终目标.失去数据处理环节,即使珍贵如金矿一般的数据也不过是一堆废铁而已.数据处理是大数据产业的核心路径,然后再加上最后一公里的数据可视化,整个链条就算 ...

  7. 基于大数据的旅游数据分析系统的设计与实现

    基于大数据的旅游数据分析系统的设计与实现 摘    要 网络技术的不断发展,使网络成为人们的日常生活中不可缺少的一部分,而旅游数据分析系统是网络的一种新型体现,它以其特有的便捷和快速的特点得到了广泛的 ...

  8. 大数据架构、大数据开发与数据分析的区别

    大数据架构.大数据开发与数据分析的区别 大数据产业 顾名思义大数据是一个以数据为核心的产业.大数据产业生成流程从数据的生命周期的传导和演变上可分为这几个部分:数据收集.数据储存.数据建模.数据分析.数 ...

  9. 周末去哪儿架构师跟你聊:大数据平台快速解决方案

    内容来源:2017年5月13日,周末去哪儿架构师李锡铭在"Java开发者大会 | Java之美[上海站]"进行<大数据平台快速解决方案中>演讲分享.IT大咖说作为独家视 ...

最新文章

  1. java basicstroke_使用java.awt.BasicStroke动画化虚线
  2. java并发编程——并发容器类介绍
  3. 10个机器学习的JavaScript示例
  4. Rundeck crontab格式
  5. python考级证书-python考级有几个级别
  6. bzoj1007[HNOI2008]水平可见直线
  7. Java中String、StringBuffer、StringBuilder三者的区别
  8. 阿里:千亿交易背后的0故障发布
  9. python画图代码的输入数据可以取出来_用Python写了个小程序:最小二乘法、读取文件、作图以及数据输出到文件...
  10. Bailian4132 四则运算表达式求值【文本处理】
  11. javascript垃圾回收机制
  12. OSChina 周二乱弹 —— 我国领先世界的IT技术
  13. php火车票查询,基于php的12306火车票查询接口调用代码实例
  14. ubuntu磁盘清理
  15. linux写含输入输出的代码,linux系统管理-输入输出
  16. JPA ERROR: value too long for type character varying(100)
  17. .xz是什么文件怎么解压_如何解压缩 tar.xz 文件
  18. 数据库中1NF,2NF,3NF的判别
  19. matlab摩托车刹车问题,摩托车刹车你用对了吗?老司机都不一定会用后刹
  20. jni开发中遇到的问题2:Type 'JNIEnv' could not be resolved/Type 'jobject' could not be resolved等等

热门文章

  1. 依赖注入是什么意思?获取依赖的方式是什么?
  2. 2017湖湘杯 pwn300
  3. 珠心算测验 【暴力】
  4. shell脚本修改服务器时间
  5. 第二节 下载和安装ISM Web组态软件
  6. 项目的时间进度该如何估算?
  7. 惯性思维有时会影响我们的判断
  8. win7游戏无法全屏问题
  9. COMSOL电化学系列专题
  10. python做什么最赚钱农村_农业种植致富项目:农村有2个不错的种植项目,投入不多,收益却比打工强...