写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

大数据处理流程主要分为3步:
1.数据抽取和集成
2.数据分析
3.数据解释

补充

1.数据抽取与集成

由于大数据处理的数据来源类型丰富,利用多个数据库来接收来自客户端的数据, 包括企业内部数据库、互联网数据和物联网数据,所以需要从数据中提取关系和实体, 经过关联和聚合等操作,按照统一定义的格式对数据进行存储。 用户可以通过上述数据库来进行简单的查询和处理。
在大数据的采集过程中,并发数高是其主要的特点和挑战,因为成千上万的用户可能同时来进行访问和操作,比如火车票售票网站和新浪微博,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑,如何在这些数据库之间进行负载均衡和分片更是需要深入思考和设计的问题。

2.数据分析

待获取数据后,用户可以根据自己的需求对这些数据进行分析处理,如数据挖掘、机器学习、数据统计等。统计与挖掘主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。分析涉及的数据量大是统计与分析这部分的主要特点和挑战,统计与分析对系统资源会有极大的占用。数据挖掘一般没有预先设定好的主题,主要是对现有数据进行各种算法的计算,从而起到预测的效果,然后实现高级别数据分析的需求。挖掘大数据价值的关键是数据分析环节。

3.数据解释

数据处理的结果是大数据处理流程中用户最关心的问题,正确的数据处理结果需要通过合适的展示方式被终端用户正确理解。数据解释的主要技术是可视化和人机交互。

大数据处理的基本流程是什么?相关推荐

  1. 大数据标签获取处理步骤_大数据处理分为哪些步骤

    具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助.大数据来源广泛,应用需求和数据类型都不尽相同,不过最基 ...

  2. 大数据处理分为哪些步骤

    具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助.大数据来源广泛,应用需求和数据类型都不尽相同,不过最基 ...

  3. 【数据库系统工程师】第13章 云计算与大数据处理

    目录 思维导图 13.1 云计算基础知识 1.云计算的关键特征 2.云计算分类 3.云关键技术 4.云计算实施 13.2 大数据处理基础知识 1.基本概念 2.大数据处理技术 3.大数据应用 思维导图 ...

  4. 医疗大数据处理流程_我们需要数据来大规模改善医疗流程

    医疗大数据处理流程 Note: the fictitious examples and diagrams are for illustrative purposes ONLY. They are ma ...

  5. NiFi-面向流程的大数据处理框架

    2019独角兽企业重金招聘Python工程师标准>>> NiFi资源大全:https://my.oschina.net/u/2306127/blog/858096 任何一个大数据分析 ...

  6. 大数据教程之大数据处理流程

    随着互联网的发展,大数据也在逐渐彰显出自己的优势特点,那么关于大数据的处理流程,你是否了解?今天老男孩讲师带你来看看大数据的处理流程. 第一,数据采集 定义:利用多种轻型数据库来接收发自客户端的数据, ...

  7. 大数据处理也要安全--关于MaxCompute的安全科普

    [TOC] 1.企业大数据处理现状 当今社会数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(百GB.TB乃至PB)级别.基于此,阿里云推出有了一套快速.完全托 ...

  8. 想学大数据?大数据处理的开源框架推荐

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文讨论大数据处理生态系统和相关的架构栈,包括对适应于不同任务的多种框架特性的调研.除此之外,文章还从多个层次对框架进行深入研究,如存储,资 ...

  9. 第二章-大数据处理框Hadoop

    第二章-大数据处理框Hadoop 文章目录 第二章-大数据处理框Hadoop Hadoop简介 Hadoop概念 Hadoop版本 Hadoop优化与发展 Hadoop生态系统 Hive Pig Ha ...

  10. Java大数据处理的流行框架

    大数据挑战 在公司需要处理不断增长的数据量的各个领域中,对大数据的概念有不同的理解. 在大多数这些情况下,需要以某种方式设计所考虑的系统,以便能够处理该数据,而不会随着数据大小的增加而牺牲吞吐量. 从 ...

最新文章

  1. 最早接触到的计算机编程语言——c语言
  2. Sass函数-数字函数-floor()函数
  3. 【Java】HashMap 和 Hashtable 的 6 个区别
  4. 运用计算机怎么实现自动化,如何用计算机串口实现自动化控制
  5. Android Binder Driver流程分析
  6. 优点 spark_分布式计算引擎之星——Spark
  7. S32K1XX系列单片机 ——(1)开发环境搭建
  8. [信道编码/Channel Coding】信道编码的整体框架
  9. 2016 server win 假死_win10程序假死无响应的两种解决办法
  10. 凸优化基础知识—凸集(Convex Sets)
  11. cygwin apt-cyg
  12. linux chsh命令参数及用法详解(linux设置系统shell命令) 详细出处参考:http://www.jb51.net/LINUXjishu/57945.html
  13. Linux下硬盘加密
  14. window10安装虚拟机及相关软件
  15. actor 模型原理 (二)
  16. android wifi 框架图,android wifi框架
  17. 牛客IOI周赛27-普及组
  18. FS100N03替代NCE3080K新洁能30V 80A MOS场效应管
  19. 网传叮咚买菜大裁员?并非空穴来风
  20. luogu P2762 太空飞行计划问题(最大权闭合图)

热门文章

  1. oracle 查询表最大值,ORA-1653报错 调整oracle数据表的最大值
  2. 2015中国企业500强名单
  3. Eclipse中jsp文件ISO-8859-1编码转换为UTF-8或者GBK方法
  4. 基于wine葡萄酒数据集的分类方法研究
  5. QDateTime 和tm 的时间显示
  6. 输入时(hour)、分(minute)、秒(second)的一个具体时间,要求打印出它的下一秒出来(一天24小时)。 例如输入的是23时59分59秒,则输出00:00:00
  7. 爬虫练习案例:交通路况
  8. 设为首页 加入收藏 html,JS设为首页和加入收藏的代码
  9. 花花公子 243线SLOT
  10. 计算机windows7桌面是指什么,认识Windows 7桌面,增加了哪些功能,它是应用程序操作的出发点...