了解大数据技术原理与应用(复习知识点)
目录
①大数据(Big Data)与云计算、物联网的相互关系
②介绍Hadoop、MapReduce、HDFS和HBase以及其他功能组 件,复习重点以及其他可用点!
一 大数据介绍
1信息科技为大数据时代提供技术支撑
2数据产生方式的变革促成大数据时代的来临
3大数据特点
4大数据影响
5大数据关键技术
6 大数据产业
7大数据与云计算、物联网的关系
二 Hadoop
1.Hadoop基础了解与使用
2.hdfs相关命令
3.分布式文件系统HDFS
①大数据(Big Data)与云计算、物联网的相互关系
②介绍Hadoop、MapReduce、HDFS和HBase以及其他功能组 件,复习重点以及其他可用点!
三次信息化浪潮
一 大数据介绍
1信息科技为大数据时代提供技术支撑
☺存储设备容量不断增加
☺CPU处理能力大幅提升
☺网络带宽不断增加
2数据产生方式的变革促成大数据时代的来临
·运营式系统阶段
·拥护原创内容阶段
·感知式系统阶段
3大数据特点
①数据量大
②数据类型繁多
③处理速度快
④价值密度低
4大数据影响
四种范式:
实验科学 理论科学 计算科学 数据密集型科学
5大数据关键技术
层面分为:
数据采集与预处理
数据存储和管理
数据处理与分析
数据安全与隐私保护
数据计算模式分为:
批处理计算 MapReduce Spark
图计算 百度的DStream 淘宝的银河流数据处理平台
图计算 Pregel
查询分析计算 Impala
6 大数据产业
IT基础建设层
数据源层
数据管理层
数据分析层
数据平台层
数据应用层
7大数据与云计算、物联网的关系
云计算:虚拟化 分布式存储 分布式计算 多租户
物联网:识别和感知技术 网络与通信技术 数据挖掘和融合技术
二 Hadoop
1.Hadoop的基础了解及使用
Hadoop是一个开源的,可运行于大规模集群上的分布式计算平台,具有MapReduce计算模型和分布式文件系统HDFS等功能。它具有可靠性,高效,可维持的特性。
在后续开发Hadoop2.0,实现联邦集群管理和YARN资源管理
它包含Map和Reduce操作,尤其是suffer操作很重要
它与后来的spark平台有相对的比较
在Hadoop生态系统中包含了很多其他的组件。如Zookepper,hive仓库
Hadoop自带有hdfs分布式系统,可以进行相关的shell命令
在Hadoop的安装中注意相关文件的配置,熟悉相关的命令
在后续Hbase数据库等都在Hadoop上进行运行
2关于hdfs分布式系统中的一些常用命令
1》创建文件:
mkdir创建文件夹:hdfs fs -mkdir [-p] < paths > hdfs dfs -mkdir /jdh
touchz新建文件:hdfs fs -touchz URI [URI …] hdfs dfs -touchz /jdh
2》显示文件:
显示目录与文件名:hdfs dfs -ls [-d][-h][-R] < paths >
d 列出/test目录信息 -h列出目录和文件的大小 -R循环列出目录、子目录及文件信息
3》删除文件目录或者全部文件:
删除目录和文件:hdfs dfs -rm [-f] [-r|-R] < paths >
-r 级联删除目录下的所有文件和子目录文件
4》上传,复制和覆盖:
hdfs dfs -put [-f] [-p] < localsrc > … < dst >
hdfs dfs -get [-p] [-ignoreCrc] [-crc] < src > … < localdst >
put将本地文件系统的复制到HDFS文件系统的目录下
get 将HDFS中的文件复制到本地文件系统中,与-put命令相反
-f 如果文件在分布式文件系统上已经存在,则覆盖存储,若不加则会报错
-p 保持源文件的属性(组、拥有者、创建时间、权限等)把本地新建的文件放到分布式文件系统主目录下,保持源文件属性
5》查看文件内容:
hdfs dfs -cat/text [-ignoreCrc] < src >
Hdfs dfs -tail [-f] < file >
其中,-ignoreCrc 忽循环检验失败的文件;-f 动态更新显示数据,如查看某个不断增长的文件的日志文件。
3个命令都是在命令行窗口查看指定文件内容。区别是 text 不仅可以查看文本文件,还可以查看压缩文件和Avro序列化的文件,其他两个不可以;tail 查看的是最后1KB的文件(Linux上的tail默认查看最后10行记录)
6》appendToFile追写文件
使用方法: hdfs dfs -du [-s] [-h] < path > …
7》cp复制文件
hdfs dfs -cp /test/file /test/file 注意空格
3分布式文件系统HDFS
是Hadoop中的分布式文件系统,对大量的集群的文件进行管理。
文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易。
文件名:在文件系统中,文件名是用于定位存储位置。
元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等。
数据块(Block):存储文件的最小单元。对存储介质划分了固定的区域,使用时按这些区域分配使用。
①特点:具有容错性,高吞吐量,存储容量大
它延迟比较低,有很多的小文件,
流式数据访问
②HDFS架构包含三个部分:NameNode,DataNode,Client。
NameNode叫名称节点,DataNode叫数据节点
名称节点负责元数据之间的映射关系
数据节点负责对元数据的读写信息
……
了解大数据技术原理与应用(复习知识点)相关推荐
- 大数据技术原理与应用 第三版 林子雨 期末复习(二) Hadoop HDFS HBase
大数据技术原理与应用 第三版 林子雨 期末复习(二) Hadoop HDFS HBase Hadoop生态系统 HDFS HDFS结构 块 Name Node与Second Name Node与Dat ...
- [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料
教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...
- 大数据技术原理与应用课后题(林子雨)
大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...
- 关于大数据技术原理与应用的学习(6)
学习目标: 大数据技术原理与应用 学习内容: 6云数据库 6.1概述 6.2产品 6.3UMP系统 6.4Amazon云数据库 6.5微软云数据库SQL Azure 学习时间: 2022/03/31 ...
- 大数据技术原理与应用 第一篇 大数据基础
目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...
- 大数据技术原理与应用—课后题答案(第一章)
大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志 解决问题 ...
- 《大数据技术原理与应用》(第八章Hadoop 课后答案)
第八章 Hadoop再探讨 参考资料 1.林子雨_大数据技术原理与应用课后习题_NPU_阿夏的博客-CSDN博客 2.林子雨编著<大数据技术原理与应用(第3版)>教材官网_厦门大学数据库实 ...
- 林子雨试卷《大数据技术原理与应用》试题与答案
<大数据技术原理与应用>试题与答案 问答题(100分): (问答题,共13道题目,第1题4分,第2题6分,第3题10分,第4题10分,第5题16分,第6题6分,第7题12分,第8题6分,第 ...
- 大数据技术原理与应用课程建设经验分享
大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005 摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...
- 关于大数据技术原理与应用的学习(1)
学习目标: 大数据技术原理与应用 学习内容: 大数据概述 1.1大数据时代 1.2大数据的概念和影响 1.3大数据的应用 1.4大数据的关键技术 1.5大数据与云计算.物联网的关系 学习时间: 202 ...
最新文章
- 在python中给自己介绍对象笔记--OO面向对象
- POJ - 2773 Happy 2006(欧几里得+构造)
- 2.2 矩阵基本运算
- 工具栏自定义_EXCEL LESSON12 自定义功能区菜单及工具栏(1/3)
- 浏览器输入网址到浏览器渲染页面的过程
- (十三) 深入浅出TCPIP之TCP套接字参数
- python36 mysql_python-day36(初识MySQL数据库)
- 工程数学(数值分析)第五讲:数据拟合
- 安装netca_安装oracle 10g rac上的那些拦路虎
- sdk开发包怎么使用_怎么使用 Buildroot 构建根文件系统?
- HDU 1711 Number Sequence (KMP)
- Spring之AOP的实现
- 阿里云CentOS下搭建LNMP环境和Moodle安装
- 苹果Mac专业的3D建模软件SketchUp Pro
- myeclipse 10破解
- 金庸:为什么历史上没有一个国家能成功吞并中国?
- linux小白家教学一
- 沙漠帕拉萨德别墅室内外Corona建筑作品赏析
- Cloud-Platform 开源项目环境搭建及运行
- Itext 学习笔记(六) pdf的页眉页脚