数据结构大作业_大数据课程笔记
前言:
到目前为止有了一个月的时间,学习了python基础及算法、常用计算库numpy和pandas数据的导入和各种处理、matplotlib和seaborn做数据可视化 以及上周的大数据框架hadoop及spark相关思想和操作。通过这段时间的课程、作业、考试和线下练习,自我感觉打下了比较良好的基础。
今天主要总结下上周的大数据的内容
一、课程大纲及的知识点
1)Hadoop的历史及概念和结构组成大致了解。
首先它是起源于google的三篇论文,再者Doug Cutting基于Google的GFS论文实现了分布式文件存储系统,可以说他是hadoop之父。
概念:Hadoop的核心是HDFS和Map-Reduce ,所以它解决了因单机存储和计算瓶颈带来的问题,首先可以通过多台廉价的PC组成集群来存储大数据,同时多个节点并行的读取和处理数据相比单机也极大的提升了性能。
HDFS是什么呢?
- HDFS 即hadoop 分布式文件存储系统。它被设计为主从模式(即Master - Slave),Master即NameNode,作为集群的主节点,它提供统一的命名空间,负责维护整个hdfs文件系统的目录树。 DataNode作为slave集群的从节点,主要负责存储和管理各个数据块block。
- 简单的说,在物理上,它是由多台普通linux服务器构建成一个集群,当存储大数据时,数据会平均分成多个数据块(默认大小为128MB),它们会存储在多个DataNode上。同时为了保证数据不会因为节点故障而丢失,每份block都会备份多份(默认3)存储在不同的节点。
- 另外,HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改。需要频繁的RPC交互,写入性能不好。
而MAP-REDUCE是一种编程模型。
通俗说MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。
MapReduce的基本原理就是:将大的数据分析分成小块逐个分析,最后再将提取出来的数据汇总分析,最终获得我们想要的内容。
2)Spark
Spark是一个开源的分布式计算框架,它可以替代Map-Reduce,它是基于内存计算的,处理速度比MapReduce快很多,同时它更加易于使用,还提供了 SparkSql sql 分析处理,SparkStreaming 实时计算 , Mlib 机器学习库 和Spark GraphX图计算。
在这里,我们要了解Spark的核心概念和数据结构
- 应用程序:由一个driver program和多个job构成;
- job:由多个stage组成;
- stage:对应一个taskset;
- taskset:对应一组关联的相互之间没有shuffle依赖关系的task组成。
- task:任务最小的工作单元
spark中核心的数据结构有 RDD dataFrame dataset
在spark2.0中主要使用的是dataFrame dataset并且它们二者也做了一定的统一。但是我们并不能不理解RDD,因为dataFrame dataset都是基于rdd的,了解它的原理和重要。
那么什么是DataFrame,以及为什么它可以替代rdd呢?
DataFrame与RDD相似,也是一个不可变分布式数据集合。与 RDD 不同的是,数据都被组织到有名字的列中,就像关系型数据库中的表一样,也类似pandas里的dataFrame,让开发者可以更方便和高效的处理大数据。
同时我们要知道,针对rdd DataFrame dataset都有两种类型的操作:
一是transformation算子:在原有的rdd上操作获取一个新的rdd
二是action算子: 在RDD上运算获取我们想要的结果,通常这个结果不是rdd
另外要记住,这三种数据结构都具有Lazy属性,即transformation算子不会进行运算,直到action算子时才会一并进行所有的操作。
总结
总的来说Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。
Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。
二、自己的收获&哪些还需要进一步学习掌握
在对大数据的整体概念和框架有了一个较为清晰的掌握的同时,不能放松实际的操作。
这里,我们在王老师搭建的集群上,进行了大量的hadoop操作。
首先基础,linux的常用操作管理,vim的数据使用。(还可以申请阿里云服务器练习)
想做大数据运维或者想进一步熟悉集群,可以自己尝试搭建自己的集群。
了解,我们ssh登录的客户端本地和hadoop集群的区别,熟练操作hadoop fs的相关指令。
通过词频统计练习,了解在hadoop上map -reduce的整个过程和机理。
在第二个环节,使用spark练习时,通过对数据的map filter 深圳sql 等操作实现种种功能,愈发加深对大数据存储和处理的了解。
同时,我在本地搭建了local模式的spark环境,通过网上一些数据和实例做了大量的练习
当然,完整项目的缺失,是我目前的致命弱点,希望后续通过一个个实际项目,夯实这部分的知识,能够学以致用。
三、立个FLAG吧
当前的一切,我都认为是为后续的机器学习打基础。不打算好高骛远,希望一切从实际出发,一步一个脚印,夯实基础,多预习多提问多练习多复习,练好四大金刚,争取Kaggle打一场好比赛,结业项目也做好点,给自己多加点分。
数据结构大作业_大数据课程笔记相关推荐
- php开发与应用,PHP开发与应用_大作业_模板
PHP开发与应用_大作业_模板 本 科 课 程 论 文题目_____________________________________学生姓名 学 号 指导教师 学 院 专 业 交稿日期 信息技术学院网 ...
- HTML5期末大作业:三亚旅游网站设计——三亚旅游网页设计(6页) html网页设计期末大作业_网页设计平时作业
HTML5期末大作业:三亚旅游网站设计--三亚旅游网页设计(6页) html网页设计期末大作业_网页设计平时作业 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电器. ...
- HTML+CSS+JS`管理系统网站设计——学生信息管理系统模板 (13页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业
HTML5期末大作业:管理系统网站设计--学生信息管理系统模板 (13页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业 常见网页设计作业题材有 个人. 美食. ...
- HTML5期末大作业:管理系统网站设计——学生信息管理系统模板 (13页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业
HTML5期末大作业:管理系统网站设计--学生信息管理系统模板 (13页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业 常见网页设计作业题材有 个人. 美食. ...
- HTML5期末大作业:动漫网站设计——动漫电影《你的名字》(7页) HTML+CSS+JavaScript 学生DW网页设计作业成品 html网页设计期末大作业_网页设计平时作业
HTML5期末大作业:动漫网站设计--动漫电影<你的名字>(7页) HTML+CSS+JavaScript 学生DW网页设计作业成品 html网页设计期末大作业_网页设计平时作业 常见网页 ...
- DIV+CSS进行布局 HTML+CSS+JS大作业——汽车销售网站模板(7页) html网页设计期末大作业_网页设计平时作业模板下载
HTML+CSS+JS大作业--汽车销售网站模板(7页) html网页设计期末大作业_网页设计平时作业模板下载 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电器. ...
- HTML+CSS+JS大作业——汽车销售网站模板(7页) html网页设计期末大作业_网页设计平时作业模板下载
HTML+CSS+JS大作业--汽车销售网站模板(7页) html网页设计期末大作业_网页设计平时作业模板下载 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电器. ...
- HTML5期末大作业:小礼品购物网站设计——小礼品购物商城网站(12页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业
HTML5期末大作业:小礼品购物网站设计--小礼品购物商城网站(12页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业 常见网页设计作业题材有 个人. 美食. ...
- HTML期末大作业~ 大话西游之大圣娶亲电影4页面 ~学生网页设计作业源码(HTML+CSS+JS)
HTML期末大作业~ 大话西游之大圣娶亲电影4页面 ~学生网页设计作业源码(HTML+CSS+JS) 临近期末, 你还在为HTML网页设计结课作业,老师的作业要求感到头大?HTML网页作业无从下手?网 ...
最新文章
- 神经网络和深度学习各类概念名词解析
- jvm虚拟机_JVM虚拟机五连问,能过并不是只靠运气
- 计算机仿真在机械应用,浅谈计算机仿真在机械的应用.doc
- “睡服”面试官系列第二篇之promise(建议收藏学习)
- wsld2java axis_Weblogic+axis2安装
- 9 MM配置-主数据-维护物料管理的公司代码
- 经典问题8连:小球和盒子
- Datawhale编程学习之栈和队列(2)
- 设置 路由模式 桥接模式
- Tomcat + Spring MVC + HttpClient:怎样使用PUT和PATCH方法传递数据
- java后台通用权限管理系统(springboot)
- 豆瓣电影推荐系统(Ⅰ)ItemCF算法原理
- 微信公众号点击图片跳转关注
- rust阿尔法辅助_和平精英阿尔法辅助器
- 苹果手机解绑微信支付教程
- python终端界面分屏输出_linux命令 - screen/终端分屏命令
- linux proftpd 关闭匿名用户,Linux ProFTPd安装与卸载详细介绍_Linux_脚本之家
- java h265_2019-04-19 使用FFMPEG 解码HEVC(H265)
- sqlite多行插入_在SQLite中插入多行
- 第12周项目2—摩托车继承自行车和机动车
热门文章
- CCF201509-2 日期计算
- CCF201612-2 工资计算
- mysql between 等于_MySQL中BETWEEN子句的用法详解
- CDH6 kafka如何彻底删除topic及数据
- 华为服务器型号命名,服务器的命名规则
- 嘉年华ON LINE首次在墨天轮和视频号并机直播,数据库内核技术抢先get
- 1024 程序员节:给 DBA 们的福音
- 618技术特辑(三)直播带货王,“OMG买它”的背后,为什么是一连串技术挑战?
- “DNAT+云链接+CDN”加速方案,助力出海企业落地生长
- 【华为云技术分享】【我的物联网成长记20】物联网智慧路灯应用代码解析(下)