1.1 大数据简介-hadoop-最全最完整的保姆级的java大数据学习资料
文章目录
- 1 hadoop-最全最完整的保姆级的java大数据学习资料
- 1.1 大数据简介
- 1.1.1 大数据的定义
- 1.1.2 大数据的特点
- 1.1.3 大数据的应用场景
- 1.1.4 大数据的发展趋势及职业路线
- 1.4.4.1 大数据发展趋势
- 1.4.4.2 大数据职业发展路线
1 hadoop-最全最完整的保姆级的java大数据学习资料
大数据技术解决的是什么问题?
大数据技术解决的主要是海量数据的存储和计算。
Hadoop的广义和狭义之分
狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统–> 存储; MapReduce:分布式离线计算框架–>计算;Yarn:资源调度框架
广义的Hadoop:广义Hadoop是不仅仅包含Hadoop框架,除了Hadoop框架之外还有一些辅助框 架。Flume:日志数据采集,Sqoop:关系型数据库数据的采集;
Hive:深度依赖Hadoop框架完成计算(sql),Hbase:大数据领域的数据库(mysql)
Sqoop:数据的导出
广义Hadoop指的是一个生态圈。
主要学习内容
第一部分:大数据简介(定义,特点,应用场景,发展趋势,职业发展路线)
第二部分:Hadoop简介(历史,发展路线-版本变更,发行版(CDH))
第三部分:Hadoop的重要组成(hdfs,mapreduce,yarn)
第四部分:Apache Hadoop 完全分布式集群搭建
第五部分:HDFS 分布式文件系统(架构,原理,常用api, 元数据管理,权限,日志采集的综合案例)
第六部分:MapReduce分布式计算框架 (原理,常用的编程规范等,大量案例练习-分区,排序-快 排-归并排序,压缩,自定义组件,综合案例)
第七部分:Yarn 资源调度框架(架构,原理,三种资源调度策略)
第八部分:Apche Hadoop核心源码剖析(nn,dn启动流程源码分析,nn高并发的支撑原理, hadoop3.0新特性)
第九部分: 调优及二次开发示例(hdfs,mr,yarn调优,nn常见GC问题,完成二次开发编译源码)
1.1 大数据简介
1.1.1 大数据的定义
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
1.1.2 大数据的特点
大数据的特点可以用 IBM 曾经提出的 “5V” 来描述,如下:
大量
采集、存储和计算的数据量都非常大。
计算机存储单位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB来表示, 它们之间的关系是
1GB = 1024 MB
1TB = 1024 GB
1PB = 1024 TB
1EB = 1024 PB
1ZB = 1024 EB
1YB = 1024 ZB
1BB = 1024 YB
1NB = 1024 BB
1DB = 1024 NB以PB为例,PB级数据量有多大?是怎样的一个概念?
假如手机播放MP3的速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB存量的歌曲可以连续播放2000年。
1PB 也相当于50%的全美学术研究图书馆藏书咨询内容。
(1)1986年,全球只有0.02EB也就是约21000TB的数据量
(2)2007年,全球就是280EB也就是约300000000TB的数据量,翻了14000倍
(3)近些年,由于移动互联网及物联网的出现,各种终端设备的接入,各种业务形式的普 及,平均每40个月,全球的数据量就会翻倍!2012年,每天会产生2.5EB的数据量
(4)基于IDC的报告预测,从2013年到2020年,全球数据量会从4.4ZB猛增到44ZB!而到了 2025年,全球会有163ZB的数据量!全球的数据量已经大到爆了!而传统的关系型数据库根本处理不了如此海量的数据!
高速
在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。
多样
数据形式和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音 频、视频、图片、地理位置信息等等,多类型的数据对数据的处 理能力提出了更高的要求。
真实
确保数据的真实性,才能保证数据分析的正确性
低价值
数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。互联网发展催生了大量数据,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题,也是一个有难度的课题。
1.1.3 大数据的应用场景
随着大数据的发展,大数据技术已经广泛应用在众多行业,比如仓储物流、电商零售、汽车、电信、生物医学、人工智能、智慧城市等等领域,包括在疫情防控战中,大数据技术也发挥了重要的作用。
- 仓储物流
大数据技术驱动了仓储物流领域的智能化发展,以苏宁为例,苏宁物流可在全国的各级仓库间实现 智能分仓、就近备货和预测式调拨,实现”客户需要的商品就在离客户最近的配送中心“。
电商零售
- 零售业 ” 啤酒+纸尿裤 “ 案例
个性推荐
” 双11购物节 “ 实时销售额大屏
汽车
利用了大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活
- 电信
移动联通根据用户年龄、职业、消费情况,分析统计哪种套餐适合哪类人群,对市场人群精准定制。
生物医学
大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。比如影像大数据支撑下的早期肺癌支撑平台,基于大量病例数据样本,制定早期肺癌高危人群预警指标。
人工智能
智慧城市
大数据有效支撑智慧城市发展,成为城市的”数据大脑“。比如,在智慧城市建设上,杭州始终走在全国前列。如覆盖面广的移动支付、新颖的在线医疗模式、创新的物流运输模式,都受到较大关注。2016年,杭州被《中国新型智慧城市》白皮书评为“中国最智慧的城市”。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。
1.1.4 大数据的发展趋势及职业路线
1.4.4.1 大数据发展趋势
2015年党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇
2017年十九大报告明确 “推动互联网、大数据、人工智能和实体经济深度融合”
2020年全国政协十三届三次会议新闻发布会上,更进一步强调:大数据、人工智能、5G是引领 未来发展的战略性技术
显然,发展大数据是我国的战略性决策,前景自然不言而喻
2017年北京大学、中国人民大学、北京邮电大学等25所高校成功申请开设大数据课程
大数据属于高新技术,大牛少,升职竞争小
2020年5月6日,人力资源和社会保障部发布《新职业—大数据工程技术人员就业景气现状分析报告》,报告显示:预计2020年中国大数据行业人才需求规模将达210万,2025年前大数据人才需求仍将保持30%~40%的增速,需求总量在2000万人左右
在北京大数据开发工程师的平均薪水已经超越 1.5w 直逼2w,而且目前还保持强劲的发展势头
1.4.4.2 大数据职业发展路线
目前大数据高、中、低三个档次的人才都很缺。现在我们谈大数据,就像当年谈电商一样,未来前景已经很明确,接下来就是优胜劣汰,竞争上岗。不想当架构师的程序员不是好架构师!但是,大数据发展到现阶段,涉及大数据相关的职业岗位也越来越精细。
从职业发展来看,由大数据开发、挖掘、算法、到架构。从级别来看,从工程师、高级工程师,再到架构师,甚至到科学家。而且,契合不同的行业领域,又有专属于这些行业的岗位衍生,如涉及金融领域的数据分析师等。大数据的相关工作岗位有很多,有数据分析师、数据挖掘工程师、大数据开发工程师、大数据产品经理、可视化工程师、爬虫工程师、大数据运营经理、大数据架构师、数据科学家等等。
从事岗位:ETL工程师,数据仓库工程师,实时流处理工程师,用户画像工程师,数据挖掘,算法工程师,推荐系统工程。
1.1 大数据简介-hadoop-最全最完整的保姆级的java大数据学习资料相关推荐
- 【Hadoop】HA高可用搭建保姆级教程(大二学长的万字笔记)
知识目录 一.写在前面
- 大数据之-Hadoop源码编译_源码编译的意义---大数据之hadoop工作笔记0044
然后我们再来看一下hadoop的源码编译, 先看看,可以去官网去下载,hadoop-2.7.2.tar.gz的源码去 下载了以后我们需要去编译,源码,为什么? 比如:上面这个源码是32位的,那么如果我 ...
- 国家基础地理信息中心行政边界等矢量数据免费下载保姆级教程--关于地理数据收集与处理的基本工具推荐(7)
关于地理数据收集与处理的基本工具推荐系列,有导航,不迷路: 关于地理数据收集与处理的基本工具推荐(1) -高分辨率卫星影像数据免费下载方式 关于地理数据收集与处理的基本工具推荐(2)-10m精度的全球 ...
- Ubuntu 配置大数据平台hadoop hive数据仓库之完整踩坑
导读:作为大数据界的萌新,这篇文章的写作过程,经历了各种阻挠,也踩了无数坑,俗话说面向CSDN.度娘编程,然后多看官方文档,在遇到各种神奇的坑的时候,搜着搜着就到了国外,刹那间一大堆英文向你飞来,就知 ...
- 大数据之-Hadoop之HDFS_hadoop集群中的安全模式_原理---大数据之hadoop工作笔记0074
我们说namenode启动的时候,会把fsimage,载入内存,然后执行edits中的各项操作,这个操作做完以后,内存中就有了, 文件系统元数据的镜像了,这个时候就去再创建一个新的Fsimage文件和 ...
- 大数据之-Hadoop之HDFS的API操作_文件上传---大数据之hadoop工作笔记0056
然后我们HDFS的java的api操作. 比如我们有个需求从mysql中把数据上传到完全分布式的集群中的,hdfs中 比如这里首先我们演示,把e盘下的banzhang.txt文件上传到完全分布式集群h ...
- 大数据之-Hadoop伪分布式_启动YARN并运行MR程序---大数据之hadoop工作笔记0026
之前我们运行hadoop提供的案例是用hdfs运行的. 现在我们来配置一下yarn,我们用yarn,这个资源管理器来运行hadoop的mr程序. 首先我们要知道yarn包含两个主要的部分,当然还有其他 ...
- 干货!全网最全一套目标检测、卷积神经网络和OpenCV学习资料(教程/PPT/代码)...
计算机视觉(Computer Vision, CV)作为人工智能(AI)的核心技术之一,在过去的三十年里发展迅猛,应用范围遍及工业.农业.军事.国防等多个领域. 计算机视觉主要完成哪些任务? 计算机视 ...
- 《老友记》全十季中英字幕高清视频+中英剧本学习资料
杜甫在<赠卫八处士>里写到:"少壮能几时?鬓发各已苍.访旧半为鬼,惊呼热中肠."<老友记>与我们分别已经6年,这6年的人生蹉跎,或许消去了成长的烦恼的我们, ...
最新文章
- 智能制造-逆向工程-三维测量-标定
- Linux: debian/ubuntu下安装和使用Java 11
- 动画Storyboard基础
- 【alibaba-cloud】nacos详解
- IOS开发——01_第一个OC程序
- 这 12 款 IDEA 插件你用过几款?
- python之简单的get和post请求
- 一篇搞定异常: Exception
- 【图文详解】如何彻底删除JDK(以win10、jdk1.8为例)
- [数学]点、线、面分割问题
- linux 系统信号忽略和system函数返回值问题(system的实现)
- git小乌龟日常提交
- 英语句子主干成分分析
- matlab怎么把音频变成信号_利用MATLAB软件对音频信号进行频谱分析及处理.doc
- ubuntu下安装网易云音乐
- 龙与地下城中的人物属性
- UnityShader学习教程之<矩阵的左乘还是右乘所导致的效果问题>
- EC20 HTTP 图片传输
- HTML+CSS之背景图片的设置
- 自回避随机行走问题 c语言,醉汉随机行走/随机漫步问题(Random Walk Randomized Algorithm Python)...