一个成功的大数据分析程序对于收集以及分析大数据都是至关重要的,对于大数据分析程序我们需要一个有效的流程管理,而今天我们就一起来了解和学习一下,大数据分析过程都包含了哪些内容。

  大数据分析流程都包含哪些步骤

  1、数据收集

  大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在多台服务器上进行,且采集过程不能影响正常业务的开展。基于这种需求,就衍生了多种日志收集工具,如Flume、Logstash、Kibana等,它们都能通过简单的配置完成复杂的数据收集和数据聚合。

  2、数据存储

  收集到数据后,下一个问题就是:数据该如何进行存储?通常大家最为熟知是MySQL、Oracle等传统的关系型数据库,它们的优点是能够快速存储结构化的数据,并支持随机访问。但大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),为了解决海量半结构化和非结构化数据的存储,衍生了HadoopHDFS、KFS、GFS等分布式文件系统,它们都能够支持结构化、半结构和非结构化数据的存储,并可以通过增加机器进行横向扩展。

  分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据库的优点,基于这种需求,就产生了HBase、MongoDB。

  3、数据分析

  大数据处理最重要的环节就是数据分析,数据分析通常分为两种:批处理和流处理。

  批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架有HadoopMapReduce、Spark、Flink等;

  流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有Storm、SparkStreaming、FlinkStreaming等。

  批处理和流处理各有其适用的场景,时间不敏感或者硬件资源有限,可以采用批处理;时间敏感和及时性要求高就可以采用流处理。随着服务器硬件的价格越来越低和大家对及时性的要求越来越高,流处理越来越普遍,如股票价格预测和电商运营数据分析等。

  上面的框架都是需要通过编程来进行数据分析,那么如果你不是一个后台工程师,是不是就不能进行数据的分析了?当然不是,大数据是一个非常完善的生态圈,有需求就有解决方案。为了能够让熟悉SQL的人员也能够进行数据的分析,查询分析框架应运而生,常用的有Hive、SparkSQL、FlinkSQL、Pig、Phoenix等。这些框架都能够使用标准的SQL或者类SQL语法灵活地进行数据的查询分析。这些SQL经过解析优化后转换为对应的作业程序来运行,如Hive本质上就是将SQL转换为MapReduce作业,SparkSQL将SQL转换为一系列的RDDs和转换关系(transformations),Phoenix将SQL查询转换为一个或多个HBaseScan。

  4、数据应用

  数据分析完成后,接下来就是数据应用的范畴,这取决于你实际的业务需求。比如你可以将数据进行可视化展现,或者将数据用于优化你的推荐算法,这种运用现在很普遍,比如短视频个性化推荐、电商商品推荐、头条新闻推荐等。当然你也可以将数据用于训练你的机器学习模型,这些都属于其他领域的范畴,都有着对应的框架和技术栈进行处理,这里就不一一赘述。

  5、其他框架

  上面是一个标准的大数据处理流程所用到的技术框架。但是实际的大数据处理流程比上面复杂很多,针对大数据处理中的各种复杂问题分别衍生了各类框架:

  单机的处理能力都是存在瓶颈的,所以大数据框架都是采用集群模式进行部署,为了更方便的进行集群的部署、监控和管理,衍生了Ambari、ClouderaManager等集群管理工具;

  想要保证集群高可用,需要用到ZooKeeper,ZooKeeper是最常用的分布式协调服务,它能够解决大多数集群问题,包括领选举、失败恢复、元数据存储及其一致性保证。同时针对集群资源管理的需求,又衍生了HadoopYARN;

  复杂大数据处理的另外一个显著的问题是,如何调度多个复杂的并且彼此之间存在依赖关系的作业?基于这种需求,产生了Azkaban和Oozie等工作流调度框架;

  大数据流处理中使用的比较多的另外一个框架是Kafka,它可以用于消峰,避免在秒杀等场景下并发数据对流处理程序造成冲击;

  另一个常用的框架是Sqoop,主要是解决了数据迁移的问题,它能够通过简单的命令将关系型数据库中的数据导入到HDFS、Hive或HBase中,或者从HDFS、Hive导出到关系型数据库上。

  大数据分析的过程和结果都要依托于一个强大的计算机基础架构,这对于处理大数据信息也是至关重要的,如果要开发一些交互的系统,那么对于满足不同的用户需求是很重要的。

大数据分析流程步骤都有哪些相关推荐

  1. 数据分析的步骤都有什么?

    就目前而言,人们通过网络了解数据分析已经知道了数据分析的好处了大数据的好处就是数据分析的使用能够为企业的决策和未来提供发展方向.很多人看到了这一点就开始研究数据分析,而数据分析师需要一定的步骤,那么大 ...

  2. 大数据分析建模步骤有哪些

    企业开展大数据分析,首先应开展业务调研和数据调研工作,明确分析需求,其次应开展数据准备工作,即选择数据源.进行数据抽样选择.数据类型选择.缺失值处理.异常值检测和处理.数据标准化.数据簇分类.变量选择 ...

  3. 大数据分析的特点都有哪些

    了解大数据首先要从大数据的概念开始,不同于人工智能概念,大数据概念还是相对比较明确的,而且大数据的技术体系也已经趋于成熟了.解释大数据概念,可以从数据自身的特点入手,然后进一步从场景.应用和行业来逐渐 ...

  4. 大数据分析的步骤有哪些

    数据分析过程的主要活动包括识别信息需求,收集数据,分析数据,评估和提高数据分析的有效性.下面,中琛魔方将为大家详细介绍这四个步骤. 一,识别需求 信息需求是确保数据分析过程有效性的主要条件,并且可以为 ...

  5. 大数据分析五步法流程顺序

    我们知道做认识事情都有个流程顺序,正确的流程可以事半功倍,错误的流程往往会导致事情重新来做.流程如此重要,具体到数据分析的流程也是一样的,数据分析可以分为五步,过程和家里的贤内助做饭的过程相似,分为问 ...

  6. 阿里大数据分析与应用(part2)--大数据分析的流程与常用技术

    学习笔记,仅供参考,有错必纠 学习自:云中学院大数据课堂 文章目录 大数据分析流程 数据采集方法 大数据采集方法 离线数据采集ETL 实时数据采集与处理 数据预处理技术 数据集成 数据清洗 数据变换 ...

  7. 【我的物联网成长记5】如何进行物联网大数据分析?

    [摘要] 在物联网时代,数量庞大的"物"会产生海量数据,本文为您介绍两种基于物联网平台进行大数据分析的方法-实时分析和离线分析. 在物联网时代,数量庞大的"物" ...

  8. 基于IDSS和Machine Learning的零售金融大数据分析(二)

    基于IDSS和Machine Learning的零售金融大数据分析(二) 接上一篇简要分析了Fintech的发展对银行业的影响,金融大数据诞生背后原因,本篇将继续讨论下面话题: 1.       金融 ...

  9. 一份价值百万的大数据分析报告如何炼成?

    曾经,咨询公司一份报告就能收取企业几十万.甚至于上百万.而今,矫枉过正,数据分析报告却常常被企业认为没有任何实际价值.我经常和企业交流,他们告诉我,需要的是能够为他带来直接价值的东西,比如广告投放能够 ...

  10. 电子商务中的大数据分析——数据平台和人工智能

    作者 | Ayn de Jesus 编译 | CDA数据分析师 ​数字原生电子商务企业习惯于帮助处理其客户提供的数据,以便为营销活动编写副本,运行PPC广告,计算客户生命周期价值以及基于CRM仪表板内 ...

最新文章

  1. 基于轮廓调整的SOTA实例分割方法,速度达32.3fps | CVPR 2020
  2. 019_with语句
  3. Hibernate一个简单实例的各种坑
  4. mysql8.0 linux 安装教程_linux下mysql8.0安装详细教程
  5. python数据分析知识点_Python基础知识点总结:数据
  6. 名图1.8智能隐藏功能_7年后再度回归 全新一代名图“大”不同_搜狐汽车
  7. [企业内部https证书配置]tomcat 7配置https的完整历程
  8. 结构体指针大小_C语言100题集合013-指向结构体变量的指针
  9. python参考文献及其出版社_金融工程及其Python应用(高等院校财政金融专业应用型教材) 正版 朱顺泉 9787302510758_朱顺泉_孔夫子旧书网...
  10. 利用js+html做一个简单的体脂率计算
  11. MATLAB中直方图均衡化和线性与非线性增强
  12. ios12卡贴机(有锁)/无锁机 改电信VOLTE //高通基带//教程
  13. 分享【百度搜狗360】SEO优化交流讨论Q群【禁广告/精品群】
  14. 单片机开发产品流程,照这个来没错!
  15. Linux设备类型有哪些?
  16. NEXYS4_DDR迪芝伦XC7A100TCSG324-1型,VGA接口显示彩条
  17. 巧用接口解耦分离实现
  18. 常用数据集预处理(dota)
  19. 《组网技术》:路由器基本配置
  20. 利用Word 中的“从任意文件中恢复文本”转换器来恢复损坏的文档

热门文章

  1. windows逆向工程学习
  2. 微信小程序消息推送至微信公众平台总结
  3. vmware虚拟机启动失败
  4. 计算机术语CPI是什么意思,鼠标上的cpi什么意思?鼠标知识科普
  5. 笔记本电脑拔掉电源屏幕会黑一下怎么办
  6. linux下STM32开发环境搭建
  7. 使用协同过滤推荐算法进行电影推荐
  8. 华为防火墙NAT分类(源地址转换和目标地址转换)
  9. Customer类的设计
  10. 图中PNP型三极管发射极和基极为什么要加个100K(R21)的电阻?