1. 大数据处理之一:采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户 来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间 进行负载均衡和分片的确是需要深入的思考和设计。

2. 大数据处理之二:导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使 用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3. 大数据处理之三:统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通 的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

4. 大数据处理之四:挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数 据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于 统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

如何进行大数据处理?大数据处理的方法步骤相关推荐

  1. 大数据处理与分析方向主要干什么_大数据分析_方向_方法与工具

    001 论 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟 坛 ● 曾忠禄 ( 澳门理工学院 , 澳门 ) 大数据分析 : 方向 . 方法与工具 摘 要 ...

  2. python数据处理高斯滤波_十大点云数据处理技术梳理

    研究点云数据时,感觉无从下手? 看看这十大点云数据处理技术,换个思路学点云. 点云 · 定义 简言之,在获取物体表面每个采样点的空间坐标后,得到的是一个点的集合,称之为"点云".包 ...

  3. 大数据时代数据处理技术及应用

    大数据时代数据处理技术及应用     现如今,人们所处的社会是信息化社会,人们不再认为数据是静止而陈旧的.以前,一旦完成了数据收集的目的后,数据便会没有任何用处变为废弃物.例如在火车到达终点站后,火车 ...

  4. 点云处理算法整理(超详细教程)十大点云数据处理技术梳理

    研究点云数据时,感觉无从下手? 看看这十大点云数据处理技术,换个思路学点云. 点云 · 定义 简言之,在获取物体表面每个采样点的空间坐标后,得到的是一个点的集合,称之为"点云".包 ...

  5. 基于CUDA的医学影像数据处理工作站的配置方法

    基于CUDA的医学影像数据处理工作站的配置方法 王飞 高嵩 [摘要]:目的:以个人电脑为平台,结合CUDA(Compute Unified Device Architecture,统一计算设备架构)以 ...

  6. [ 大数据分析 ] 大数据分析与处理方法介绍

    从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息.那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速 ...

  7. 大数据时代,统计学方法有多大的效果?

    统计学理论得以发展,主要还是因为无法观测到全体,需要抽样,需要通过样本推断总体,才发展了许多方法. 61 人赞同 居然有这么多说大数据时代统计无用的观点!?楼上各位的眼中统计似乎只是门抽样学. 以前当 ...

  8. 千万级别数据查询优化_MySQL大数据量分页查询方法及其优化

    MySQL大数据量分页查询方法及其优化 ---方法1: 直接使用数据库提供的SQL语句 ---语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N ---适 ...

  9. mysql 大表 备份_MySQL大表备份的简单方法

    MySQL大表备份是一个我们常见的问题,下面就为您介绍一个MySQL大表备份的简单方法,希望对您学习MySQL大表备份方面能有所帮助. 这里所说的大表是超过4G以上的表,我目前见到过最大为60多G的单 ...

  10. python编写交互界面查分app_Django项目中model的数据处理以及页面交互方法

    Django中Models是什么: 通常,一个Model对应一张数据表, Django中Models以类的形式表现, 它包含一些基本字段以及数据的一些行为 ORM: 对象关系映射(Object Rel ...

最新文章

  1. R语言ggplot2可视化在散点图中的每个点上绘制两个错误条:常见的是垂直错误条,它对应于Y值点上的错误(error bar),添加与X轴(水平)相关的错误条(error bar)
  2. 判断一个请求是否为Ajax请求
  3. 介绍4种HTML5 Canvas库
  4. php zip.so 编译出错,php使用ZipArchive提示Fatal error: Class ZipArchive not found in的解决方法...
  5. QM模块常见检验分类术语
  6. 计算机硬件耗电,电脑中最耗电的三个硬件排行:这答案意料之外的情理之中!...
  7. Hibernate事务管理-HibernateTransactionManager-对hibernate session的管理
  8. 学习笔记----周志华《机器学习》第五章(神经网络)(一)
  9. oracle Hint 使用
  10. Newbe.Claptrap - 一套以 “事件溯源” 和“Actor 模式”作为基本理论的服务端开发框架...
  11. 使用SharedPreferences存储和读取数据
  12. arduino 温度调节器_Arduino用温湿度传感器控制继电器,为什么点了串口助手才能运行,拔掉usb线,直接外界9V电源却用不了...
  13. MVC Remote属性验证
  14. 2021牛客寒假算法基础集训营3,签到题DGHIJ
  15. HTML 5 新标签
  16. RHadoop的技术性文章
  17. Log4cxx使用小结
  18. dd dt标签 显示与隐藏
  19. “程序员”眼中的中秋节
  20. 面试题:25匹马最快3匹及扩展

热门文章

  1. ubuntu死机咋办_Ubuntu16.04死机解决方案
  2. SuperMap iClient3D for WebGL制作立体地图
  3. 如何理解电容的阻抗-频率曲线
  4. 项目经理和产品经理的职责
  5. jQuery插件-Slider轮播图
  6. manjaro 配置 独立显卡驱动
  7. CodeForces - 999C Alphabetic Removals
  8. 爬虫日记(23):用scrapy快速地爬取蜂鸟网图片
  9. Django发送电子邮件
  10. 梁文道:盗版电影网站死去,我们仍然不见光明