目录

①大数据(Big Data)与云计算、物联网的相互关系

②介绍Hadoop、MapReduce、HDFS和HBase以及其他功能组      件,复习重点以及其他可用点!

一 大数据介绍

1信息科技为大数据时代提供技术支撑

2数据产生方式的变革促成大数据时代的来临

3大数据特点

4大数据影响

5大数据关键技术

6 大数据产业

7大数据与云计算、物联网的关系

二  Hadoop

1.Hadoop基础了解与使用

2.hdfs相关命令

3.分布式文件系统HDFS


①大数据(Big Data)与云计算、物联网的相互关系

②介绍Hadoop、MapReduce、HDFS和HBase以及其他功能组      件,复习重点以及其他可用点!

三次信息化浪潮

一 大数据介绍

1信息科技为大数据时代提供技术支撑

☺存储设备容量不断增加

☺CPU处理能力大幅提升

☺网络带宽不断增加

2数据产生方式的变革促成大数据时代的来临

·运营式系统阶段

·拥护原创内容阶段

·感知式系统阶段

3大数据特点

①数据量大

②数据类型繁多

③处理速度快

④价值密度低

4大数据影响

四种范式:

实验科学   理论科学 计算科学 数据密集型科学

5大数据关键技术

层面分为:

数据采集与预处理

数据存储和管理

数据处理与分析

数据安全与隐私保护

数据计算模式分为:

批处理计算  MapReduce  Spark

图计算  百度的DStream  淘宝的银河流数据处理平台

图计算  Pregel

查询分析计算 Impala

6 大数据产业

IT基础建设层

数据源层

数据管理层

数据分析层

数据平台层

数据应用层

7大数据与云计算、物联网的关系

云计算:虚拟化 分布式存储 分布式计算 多租户

物联网:识别和感知技术 网络与通信技术 数据挖掘和融合技术

二  Hadoop

1.Hadoop的基础了解及使用

Hadoop是一个开源的,可运行于大规模集群上的分布式计算平台,具有MapReduce计算模型和分布式文件系统HDFS等功能。它具有可靠性,高效,可维持的特性。

在后续开发Hadoop2.0,实现联邦集群管理和YARN资源管理

它包含Map和Reduce操作,尤其是suffer操作很重要

它与后来的spark平台有相对的比较

在Hadoop生态系统中包含了很多其他的组件。如Zookepper,hive仓库

Hadoop自带有hdfs分布式系统,可以进行相关的shell命令

在Hadoop的安装中注意相关文件的配置,熟悉相关的命令

在后续Hbase数据库等都在Hadoop上进行运行

2关于hdfs分布式系统中的一些常用命令

1》创建文件:

mkdir创建文件夹:hdfs fs -mkdir [-p] < paths >      hdfs dfs -mkdir /jdh
 touchz新建文件:hdfs fs -touchz URI [URI …]      hdfs dfs -touchz /jdh

2》显示文件:

显示目录与文件名:hdfs dfs -ls [-d][-h][-R] < paths >

d 列出/test目录信息    -h列出目录和文件的大小   -R循环列出目录、子目录及文件信息

3》删除文件目录或者全部文件:

删除目录和文件:hdfs dfs -rm [-f] [-r|-R] < paths >

-r 级联删除目录下的所有文件和子目录文件

4》上传,复制和覆盖:

hdfs dfs -put [-f] [-p] < localsrc > … < dst >
hdfs dfs -get [-p] [-ignoreCrc] [-crc] < src > … < localdst >

put将本地文件系统的复制到HDFS文件系统的目录下
get 将HDFS中的文件复制到本地文件系统中,与-put命令相反
-f 如果文件在分布式文件系统上已经存在,则覆盖存储,若不加则会报错

-p 保持源文件的属性(组、拥有者、创建时间、权限等)把本地新建的文件放到分布式文件系统主目录下,保持源文件属性

5》查看文件内容:
hdfs dfs -cat/text [-ignoreCrc] < src >
Hdfs dfs -tail [-f] < file >

其中,-ignoreCrc 忽循环检验失败的文件;-f 动态更新显示数据,如查看某个不断增长的文件的日志文件。

3个命令都是在命令行窗口查看指定文件内容。区别是 text 不仅可以查看文本文件,还可以查看压缩文件和Avro序列化的文件,其他两个不可以;tail 查看的是最后1KB的文件(Linux上的tail默认查看最后10行记录)
6》appendToFile追写文件

使用方法: hdfs dfs -du [-s] [-h] < path > …

7》cp复制文件

hdfs dfs -cp /test/file /test/file   注意空格

3分布式文件系统HDFS

是Hadoop中的分布式文件系统,对大量的集群的文件进行管理。

  • 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易。

  • 文件名:在文件系统中,文件名是用于定位存储位置。

  • 元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等。

  • 数据块(Block):存储文件的最小单元。对存储介质划分了固定的区域,使用时按这些区域分配使用。

①特点:具有容错性,高吞吐量,存储容量大

它延迟比较低,有很多的小文件,

流式数据访问

②HDFS架构包含三个部分:NameNode,DataNode,Client。

NameNode叫名称节点,DataNode叫数据节点

名称节点负责元数据之间的映射关系

数据节点负责对元数据的读写信息

……

了解大数据技术原理与应用(复习知识点)相关推荐

  1. 大数据技术原理与应用 第三版 林子雨 期末复习(二) Hadoop HDFS HBase

    大数据技术原理与应用 第三版 林子雨 期末复习(二) Hadoop HDFS HBase Hadoop生态系统 HDFS HDFS结构 块 Name Node与Second Name Node与Dat ...

  2. [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料

    教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...

  3. 大数据技术原理与应用课后题(林子雨)

    大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...

  4. 关于大数据技术原理与应用的学习(6)

    学习目标: 大数据技术原理与应用 学习内容: 6云数据库 6.1概述 6.2产品 6.3UMP系统 6.4Amazon云数据库 6.5微软云数据库SQL Azure 学习时间: 2022/03/31 ...

  5. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  6. 大数据技术原理与应用—课后题答案(第一章)

    大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志  解决问题                           ...

  7. 《大数据技术原理与应用》(第八章Hadoop 课后答案)

    第八章 Hadoop再探讨 参考资料 1.林子雨_大数据技术原理与应用课后习题_NPU_阿夏的博客-CSDN博客 2.林子雨编著<大数据技术原理与应用(第3版)>教材官网_厦门大学数据库实 ...

  8. 林子雨试卷《大数据技术原理与应用》试题与答案

    <大数据技术原理与应用>试题与答案 问答题(100分): (问答题,共13道题目,第1题4分,第2题6分,第3题10分,第4题10分,第5题16分,第6题6分,第7题12分,第8题6分,第 ...

  9. 大数据技术原理与应用课程建设经验分享

    大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005   摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...

  10. 关于大数据技术原理与应用的学习(1)

    学习目标: 大数据技术原理与应用 学习内容: 大数据概述 1.1大数据时代 1.2大数据的概念和影响 1.3大数据的应用 1.4大数据的关键技术 1.5大数据与云计算.物联网的关系 学习时间: 202 ...

最新文章

  1. 在python中给自己介绍对象笔记--OO面向对象
  2. POJ - 2773 Happy 2006(欧几里得+构造)
  3. 2.2 矩阵基本运算
  4. 工具栏自定义_EXCEL LESSON12 自定义功能区菜单及工具栏(1/3)
  5. 浏览器输入网址到浏览器渲染页面的过程
  6. (十三) 深入浅出TCPIP之TCP套接字参数
  7. python36 mysql_python-day36(初识MySQL数据库)
  8. 工程数学(数值分析)第五讲:数据拟合
  9. 安装netca_安装oracle 10g rac上的那些拦路虎
  10. sdk开发包怎么使用_怎么使用 Buildroot 构建根文件系统?
  11. HDU 1711 Number Sequence (KMP)
  12. Spring之AOP的实现
  13. 阿里云CentOS下搭建LNMP环境和Moodle安装
  14. 苹果Mac专业的3D建模软件SketchUp Pro
  15. myeclipse 10破解
  16. 金庸:为什么历史上没有一个国家能成功吞并中国?
  17. linux小白家教学一
  18. 沙漠帕拉萨德别墅室内外Corona建筑作品赏析
  19. Cloud-Platform 开源项目环境搭建及运行
  20. Itext 学习笔记(六) pdf的页眉页脚

热门文章

  1. Salesforce Apex初级教程
  2. 13个Vue3中的全局API的源码浅析汇总整理
  3. 读《像google一样开会》
  4. 转-先谢国家,再谢父母,就是这个下场~~
  5. 【笔试真题】python实现加密电报,字母移位,凯撒密码
  6. spring+dbcp连接池源码分析
  7. Arduino的IDE下载ESP8266失败
  8. cmd长ping记录日志和时间_ping命令的时间间隔是多少?
  9. 当所有人都向往大厂时,这些00后程序员却选择逃离
  10. 《ZigBee Wireless Networking》学习笔记【2】