前言:

到目前为止有了一个月的时间,学习了python基础及算法、常用计算库numpy和pandas数据的导入和各种处理、matplotlib和seaborn做数据可视化 以及上周的大数据框架hadoop及spark相关思想和操作。通过这段时间的课程、作业、考试和线下练习,自我感觉打下了比较良好的基础。

今天主要总结下上周的大数据的内容

一、课程大纲及的知识点

1)Hadoop的历史及概念和结构组成大致了解。

首先它是起源于google的三篇论文,再者Doug Cutting基于Google的GFS论文实现了分布式文件存储系统,可以说他是hadoop之父。

概念:Hadoop的核心是HDFS和Map-Reduce ,所以它解决了因单机存储和计算瓶颈带来的问题,首先可以通过多台廉价的PC组成集群来存储大数据,同时多个节点并行的读取和处理数据相比单机也极大的提升了性能。

HDFS是什么呢?

  1. HDFS 即hadoop 分布式文件存储系统。它被设计为主从模式(即Master - Slave),Master即NameNode,作为集群的主节点,它提供统一的命名空间,负责维护整个hdfs文件系统的目录树。 DataNode作为slave集群的从节点,主要负责存储和管理各个数据块block。
  2. 简单的说,在物理上,它是由多台普通linux服务器构建成一个集群,当存储大数据时,数据会平均分成多个数据块(默认大小为128MB),它们会存储在多个DataNode上。同时为了保证数据不会因为节点故障而丢失,每份block都会备份多份(默认3)存储在不同的节点。
  3. 另外,HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改。需要频繁的RPC交互,写入性能不好。

而MAP-REDUCE是一种编程模型。

通俗说MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。

MapReduce的基本原理就是:将大的数据分析分成小块逐个分析,最后再将提取出来的数据汇总分析,最终获得我们想要的内容。

2)Spark

Spark是一个开源的分布式计算框架,它可以替代Map-Reduce,它是基于内存计算的,处理速度比MapReduce快很多,同时它更加易于使用,还提供了 SparkSql sql 分析处理,SparkStreaming 实时计算 , Mlib 机器学习库 和Spark GraphX图计算。

在这里,我们要了解Spark的核心概念和数据结构

  • 应用程序:由一个driver program和多个job构成;
  • job:由多个stage组成;
  • stage:对应一个taskset;
  • taskset:对应一组关联的相互之间没有shuffle依赖关系的task组成。
  • task:任务最小的工作单元

spark中核心的数据结构有 RDD dataFrame dataset

在spark2.0中主要使用的是dataFrame dataset并且它们二者也做了一定的统一。但是我们并不能不理解RDD,因为dataFrame dataset都是基于rdd的,了解它的原理和重要。

那么什么是DataFrame,以及为什么它可以替代rdd呢?

DataFrame与RDD相似,也是一个不可变分布式数据集合。与 RDD 不同的是,数据都被组织到有名字的列中,就像关系型数据库中的表一样,也类似pandas里的dataFrame,让开发者可以更方便和高效的处理大数据。

同时我们要知道,针对rdd DataFrame dataset都有两种类型的操作:

一是transformation算子:在原有的rdd上操作获取一个新的rdd

二是action算子: 在RDD上运算获取我们想要的结果,通常这个结果不是rdd

另外要记住,这三种数据结构都具有Lazy属性,即transformation算子不会进行运算,直到action算子时才会一并进行所有的操作。

总结

总的来说Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。

Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。

二、自己的收获&哪些还需要进一步学习掌握

在对大数据的整体概念和框架有了一个较为清晰的掌握的同时,不能放松实际的操作。

这里,我们在王老师搭建的集群上,进行了大量的hadoop操作。

首先基础,linux的常用操作管理,vim的数据使用。(还可以申请阿里云服务器练习)

想做大数据运维或者想进一步熟悉集群,可以自己尝试搭建自己的集群。

了解,我们ssh登录的客户端本地和hadoop集群的区别,熟练操作hadoop fs的相关指令。

通过词频统计练习,了解在hadoop上map -reduce的整个过程和机理。

在第二个环节,使用spark练习时,通过对数据的map filter 深圳sql 等操作实现种种功能,愈发加深对大数据存储和处理的了解。

同时,我在本地搭建了local模式的spark环境,通过网上一些数据和实例做了大量的练习

当然,完整项目的缺失,是我目前的致命弱点,希望后续通过一个个实际项目,夯实这部分的知识,能够学以致用。

三、立个FLAG吧

当前的一切,我都认为是为后续的机器学习打基础。不打算好高骛远,希望一切从实际出发,一步一个脚印,夯实基础,多预习多提问多练习多复习,练好四大金刚,争取Kaggle打一场好比赛,结业项目也做好点,给自己多加点分。

数据结构大作业_大数据课程笔记相关推荐

  1. php开发与应用,PHP开发与应用_大作业_模板

    PHP开发与应用_大作业_模板 本 科 课 程 论 文题目_____________________________________学生姓名 学 号 指导教师 学 院 专 业 交稿日期 信息技术学院网 ...

  2. HTML5期末大作业:三亚旅游网站设计——三亚旅游网页设计(6页) html网页设计期末大作业_网页设计平时作业

    HTML5期末大作业:三亚旅游网站设计--三亚旅游网页设计(6页) html网页设计期末大作业_网页设计平时作业 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电器. ...

  3. HTML+CSS+JS`管理系统网站设计——学生信息管理系统模板 (13页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业

    HTML5期末大作业:管理系统网站设计--学生信息管理系统模板 (13页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业 常见网页设计作业题材有 个人. 美食. ...

  4. HTML5期末大作业:管理系统网站设计——学生信息管理系统模板 (13页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业

    HTML5期末大作业:管理系统网站设计--学生信息管理系统模板 (13页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业 常见网页设计作业题材有 个人. 美食. ...

  5. HTML5期末大作业:动漫网站设计——动漫电影《你的名字》(7页) HTML+CSS+JavaScript 学生DW网页设计作业成品 html网页设计期末大作业_网页设计平时作业

    HTML5期末大作业:动漫网站设计--动漫电影<你的名字>(7页) HTML+CSS+JavaScript 学生DW网页设计作业成品 html网页设计期末大作业_网页设计平时作业 常见网页 ...

  6. DIV+CSS进行布局 HTML+CSS+JS大作业——汽车销售网站模板(7页) html网页设计期末大作业_网页设计平时作业模板下载

    HTML+CSS+JS大作业--汽车销售网站模板(7页) html网页设计期末大作业_网页设计平时作业模板下载 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电器. ...

  7. HTML+CSS+JS大作业——汽车销售网站模板(7页) html网页设计期末大作业_网页设计平时作业模板下载

    HTML+CSS+JS大作业--汽车销售网站模板(7页) html网页设计期末大作业_网页设计平时作业模板下载 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电器. ...

  8. HTML5期末大作业:小礼品购物网站设计——小礼品购物商城网站(12页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业

    HTML5期末大作业:小礼品购物网站设计--小礼品购物商城网站(12页) HTML+CSS+JavaScript html网页设计期末大作业_网页设计平时作业 常见网页设计作业题材有 个人. 美食. ...

  9. HTML期末大作业~ 大话西游之大圣娶亲电影4页面 ~学生网页设计作业源码(HTML+CSS+JS)

    HTML期末大作业~ 大话西游之大圣娶亲电影4页面 ~学生网页设计作业源码(HTML+CSS+JS) 临近期末, 你还在为HTML网页设计结课作业,老师的作业要求感到头大?HTML网页作业无从下手?网 ...

最新文章

  1. 神经网络和深度学习各类概念名词解析
  2. jvm虚拟机_JVM虚拟机五连问,能过并不是只靠运气
  3. 计算机仿真在机械应用,浅谈计算机仿真在机械的应用.doc
  4. “睡服”面试官系列第二篇之promise(建议收藏学习)
  5. wsld2java axis_Weblogic+axis2安装
  6. 9 MM配置-主数据-维护物料管理的公司代码
  7. 经典问题8连:小球和盒子
  8. Datawhale编程学习之栈和队列(2)
  9. 设置 路由模式 桥接模式
  10. Tomcat + Spring MVC + HttpClient:怎样使用PUT和PATCH方法传递数据
  11. java后台通用权限管理系统(springboot)
  12. 豆瓣电影推荐系统(Ⅰ)ItemCF算法原理
  13. 微信公众号点击图片跳转关注
  14. rust阿尔法辅助_和平精英阿尔法辅助器
  15. 苹果手机解绑微信支付教程
  16. python终端界面分屏输出_linux命令 - screen/终端分屏命令
  17. linux proftpd 关闭匿名用户,Linux ProFTPd安装与卸载详细介绍_Linux_脚本之家
  18. java h265_2019-04-19 使用FFMPEG 解码HEVC(H265)
  19. sqlite多行插入_在SQLite中插入多行
  20. 第12周项目2—摩托车继承自行车和机动车

热门文章

  1. CCF201509-2 日期计算
  2. CCF201612-2 工资计算
  3. mysql between 等于_MySQL中BETWEEN子句的用法详解
  4. CDH6 kafka如何彻底删除topic及数据
  5. 华为服务器型号命名,服务器的命名规则
  6. 嘉年华ON LINE首次在墨天轮和视频号并机直播,数据库内核技术抢先get
  7. 1024 程序员节:给 DBA 们的福音
  8. 618技术特辑(三)直播带货王,“OMG买它”的背后,为什么是一连串技术挑战?
  9. “DNAT+云链接+CDN”加速方案,助力出海企业落地生长
  10. 【华为云技术分享】【我的物联网成长记20】物联网智慧路灯应用代码解析(下)