文章目录

  • 1. 大数据启蒙
    • 1.1 意义
      • 1.1.1 查找元素
      • 1.1.2 单机处理大数据问题
  • 1.2 历史
  • 1.3 hadoop

1. 大数据启蒙

学习视频
大数据多,复杂度很重要,

  • 内存不够,分治处理
  • IO仍成为瓶颈,多机器并行
  • 多机器间通信也可以并行,但仍是个问题
    • 分发上传,累计计算的话,多台同时跑+通信也比一台快

总结(大数据的重点)

  • 分而治之
  • 并行计算
  • 计算向数据移动:数据移动化成本高
  • 数据本地化读取

1.1 意义

1.1.1 查找元素

1w个元素中查找X?
线性查找:O(N)
想要O(4)呢?hash

1.1.2 单机处理大数据问题

大文本,仅两行一样,想要找出。
单机,内存小(几十兆)

2. 如果文件中全是数字,做排序呢?
桶排序:外部有序,内部无序
先分到不同桶里,再给桶内排序

归并:一次读50M排序,第二次在读50M对这个50M排序–外部无序,内部无序

单机IO瓶颈,所以多机器并行

多台机器并行操作,处理速度快,但不同机器间网络通信?

1.2 历史

Hadoop
NDFS(一开始的文件系统)
hadoop.apache.org:顶级项目

1.3 hadoop

hadoop项目包含:
1.x:
hadoop common
hdfs(hadoop distributed file system
hadoop mapreduce
2.x:
新增yarn:job管理、资源分配

其他相关项目(生态圈):
Hbase:
Hive:sql、数仓
Spark:用内存,更快,是hadoop的十倍
Zookeeper:协调服务


网站:www.cloudera.com
ducumentation:选择版本
目前企业版本:5.16.X–可靠,hadoop2.6
原来:batch批量计算
flink/spark:全栈的

  • flink:阿里用的多:流式计算,来一个搞一个/5min跑一次

    • 可以实时
  • spark:伪实时

【大数据学习-hadoop1】大数据如何处理相关推荐

  1. 大数据学习系列----大数据项目的思考

    2019独角兽企业重金招聘Python工程师标准>>> 最近做了一个大数据可视化的项目,目前阶段还仅仅对我们关心的指标做一些年度,季度,月度维度的汇总和展示,提供了简单的纵向横向的指 ...

  2. 大数据学习:大数据就业前景和就业方向

    对于想要学习数据分析的同学来说,最重要的应该就是学完之后的就业吧.那么,大数据的就业前景和就业方向是怎样的呢? 大数据的就业领域是很宽广的,不管是科技领域,还是食品产业,零售业等等,都是需要大数据人才 ...

  3. 大数据学习1——大数据概述

    一.三次信息化浪潮的标志 第一次:PC 第二次:互联网 第三次:大数据.云计算.物联网 二.大数据关键技术 大数据特点:4V,数据量大(Volume).数据类型多(Variety).处理速度快(Vel ...

  4. (一)大数据学习引言——大数据概述

    一.大数据的概念 概念 大数据是指:无法在现有的常规软件工具对其内容进行抓取.管理和处理的数据集合. 特征 Volume:数据量足够大 Variety:数据的种类多样 Velocity:数据的增长速度 ...

  5. 大数据学习笔记—大数据概论

    大数据概论 一. 大数据的概念 二.大数据的特点(4V) 三. 大数据的应用场景 四.大数据的发展前景 五.大数据部门的业务流程/组织结构 一. 大数据的概念 大数据(big data),指无法在一定 ...

  6. 02云计算与大数据学习之大数据关键技术与应用

    文章目录 1.应知应会 2.大数据总体框架 架构设计原则 总体架构特点 3.大数据存储技术 4.大数据处理技术 大数据处理模式 大数据处理Storm平台 5.大数据分析技术 大数据分析特点 大数据分析 ...

  7. 嘉明的云计算与大数据学习之大数据综合实验案例

    1.实验环境 (1)Linux:Ubuntu 16.04. 虚拟机镜像下载链接:https://pan.baidu.com/s/1i_B-2rAfPM53jf7Besi0tw 提取码:WZJM (2) ...

  8. 大数据学习——基于大数据平台的数据仓库ETL基本思路

    大数据平台数据仓库ETL基本思路 ETL工具 开源工具: Sqoop:Hadoop(hive)和关系型数据库之间传输数据的开源ETL工具. Beeline:hive客户端工具,基于SQLline的JD ...

  9. 02云计算与大数据学习之大数据关键技术与应用习题

    一.选择题 以下是大数据技术架构的特点的是(  ). A.集成性  B.架构先进性  C.实时性  D.以上都是 大数据分析的理论核心是(  ). A.数据挖掘算法  B.聚类算法  C.统计分析算法 ...

最新文章

  1. 命名实体识别学习笔记——使用Ltp
  2. spring boot配置写法
  3. X509证书 指定了无效的提供程序类型 System.Security.Cryptography.CryptographicException 错误解决方法
  4. 深圳快测计算机技术有限公司,口罩快速检测出数据口罩快检预检办理
  5. php post请求后端拿不到值_php服务器能获取post请求的数值不能获取get请求的数值...
  6. [Docker]Docker快速上手学习笔记
  7. Magento教程 16:Magento价格规则的优先度
  8. SQL 中为什么经常要加NOLOCK?
  9. c语言常用单词表格,C语言常用单词
  10. 计算机三级网络技术综合题解析,计算机三级网络技术上机考试习题答案及解析...
  11. SQL Cookbook:一、检索记录(2)从表中检索部分行
  12. Qt之进程间通信(Windows消息)
  13. 模拟实现memcpy、memmove函数
  14. 当 p<1时,p 范数不满足三角不等式的证明 | p norm | triangle inequality
  15. 简单几步配置gitlab
  16. 《Android框架揭秘》——2.5节应用程序Framework源码级别调试
  17. 实现搜索框(含历史搜索记录)
  18. 坚定文化新自信 提升文化软实力
  19. 关于Docker以及安装方法
  20. 人脸检测:《MTCNN》论文详解2016

热门文章

  1. 震惊,用了这么多年的 CPU 利用率,其实是错的
  2. class_create和class_device_create
  3. 数据结构-- 线性表之链式存储
  4. c++ doxygen 注释规范_利用Doxygen给C程序生成注释文档
  5. 每日一题(6)—— sizeof用法
  6. 单链表的应用 就地逆置
  7. 测试两个主机之间的连通性_借助网络测试神器极速解决网络故障
  8. 二进制包如何知道go 版本_gops 是怎么和 Go 的运行时进行交互的?
  9. Node中使用token(基于第三方包jsonwebtoken)
  10. 二十、MySQL之用户权限管理(用户管理、权限管理、忘记root密码的解决方案)