从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?

一、大数据分析的五个基本方面

1. Analytic Visualizations(可视化分析)
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。

2. Data Mining Algorithms(数据挖掘算法)
可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。

3. Predictive Analytic Capabilities(预测性分析能力)
数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

4. Semantic Engines(语义引擎)
我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

5. Data Quality and Master Data Management(数据质量和数据管理)

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。

二、大数据处理

周涛博士说:大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。

具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。

采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。

该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。

[ 大数据分析 ] 大数据分析与处理方法介绍相关推荐

  1. 大数据时代 | 数据分析方法及理论详解

    大数据时代 | 数据分析方法及理论详解 1 数据分析前,我们需要思考 像一场战役的总指挥影响着整个战役的胜败一样,数据分析师的思想对于整体分析思路,甚至分析结果都有着关键性的作用. 2 分析问题和解决 ...

  2. 视频教程-数据挖掘基础:零基础学Python数据分析-大数据

    数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...

  3. 视频教程-实用数据分析:数据分析师从小白到精通-大数据

    实用数据分析:数据分析师从小白到精通 多年数据分析.数据产品设计经验.先后供职于世界500强汽车.互联网企业,从0到1的负责大数据平台设计,数据决策平台设计和数据风控平台设计.在数据的分析和使用上经验 ...

  4. 从Python爬虫小白进阶数据分析大神,必看的10本书

    导读:吾日三省吾身,过年胖了吗?情人节过了吗?发际线还好吗?别想这么多啦,程序员和数据科学家的世界里,只有Python值得你费脑子!今天为大家准备了10本数据分析相关好书,助你早日成为Python大神 ...

  5. 数据分析大数据面试题大杂烩02

    Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill ...

  6. 视频教程-完整的Python和SAS数据分析-大数据

    完整的Python和SAS数据分析 北美运筹学硕士,统计学博士 就职于北美各大银行,信用局,交通和零售企业和咨询公司 李盛刚 ¥168.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+ ...

  7. 数据科学、大数据和数据分析之间的区别?

    随着技术的进步,数据也在快速增长.最近几年创造的数据比整个人类历史上创造的数据还要多. 你知道到2020年,每秒钟大约会产生1.7兆的新信息吗? 请记住,大数据并非一时兴起,而是一场已经开始的革命,毫 ...

  8. 大数据---大数据分析的道与术(笔记)

    道 1.大数据分析之道 1.1.做好数据分析的关键 什么是数据分析–传统数据分析与大数据分析 ​ 分析方法上,两者没有本质不同.数据分析的核心工作是人对数据指标的分析.思考和解读,人脑所承载的数据量是 ...

  9. 数据分析大数据分析如何应用于电商行业?

    这几年想做电商和进入电商行业的人越来越多了,不管是自己开的淘宝店还是微店,你会发现自己朋友圈里面,总会有那么几个已经在做电商的.电商这么火,那对于做电商而言什么是最重要的呢?答案毫无疑问是数据·大数据 ...

  10. 系统的认识大数据人工智能数据分析中的数据

    今天,大量数据.信息充斥我的日常生活和工作中,仿佛生活在数据和信息的海洋中,各类信息严重影响了我们的生活,碎片.垃圾.过时信息耗费了我们宝贵时间,最后可留在我们大脑中的数据.信息和知识少之又少,如何提 ...

最新文章

  1. 如何防止我的模型过拟合?这篇文章给出了6大必备方法
  2. 【Spring学习笔记-MVC-13.2】Spring MVC之多文件上传
  3. jtabel 遍历_单击按钮更新JTable
  4. PowerShell 调用dll
  5. 友盟统计封装android,react native 友盟统计 Android 端集成
  6. 基于Zookeeper使用ZkClient实现分布式锁
  7. 整理下STL algorithms(3)
  8. RabbitMQ 镜像模式 集群架构 工作最常用集群
  9. 查看mysql数据插入时间_[译] MySQL 最佳实践 —— 高效插入数据
  10. 如何展开Linux Memory Management学习?
  11. 对标印度的PostMan,一款中国接口测试软件的崛起
  12. chrome配置文件校验初始化隐含參数的逆向
  13. java美图秀秀,SpringMvc整合美图秀秀M4(头像编辑器)
  14. Linux下TCP Socket编程实例
  15. Web入门-namp的下载与使用
  16. 数据分析的步骤和常用方法
  17. leetcode: 529. 扫雷游戏
  18. Acrobat Pro DC 教程:了解 Acrobat Pro DC 界面
  19. 炸裂,AI 打造了一个西部世界!
  20. CSS样式之块元素行内元素

热门文章

  1. 小丸子学MongoDB系列之——安装MongoDB
  2. 【思维】黄金圈思维法则
  3. 《哲学史讲演录》——思辨节选---塞诺芬尼 、巴门尼德
  4. 数字化时代,如何推动实体经济和数字经济的融合
  5. Unirech:阿里云国际版账户无法登陆,为什么账户会被风控?
  6. 关于squid版本问题
  7. 华为CE系列和S系列交换机堆叠配置及mad检测
  8. DTO-VO-DO-Query理解
  9. opencv中Mat与vector互转
  10. 使用注解失败的原因及解决方法