大数据技术都包括哪些,如何学习大数据技术。首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系

Java:只要了解一些基础即可,做大数据不需要很深的Java技术,即使不懂Java也可以学习大数据。

Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

好说完基础了,再说说还需要学习哪些大数据技术,可以按我写的顺序学下去。

Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。

Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。

Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。

Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

转载于:https://blog.51cto.com/13854477/2382222

大数据学习,涉及的知识点相关推荐

  1. 最全知识点总结!| 大数据学习路线指南

    全世界只有3.14 % 的人关注了 数据与算法之美 大数据是对海量数据进行存储.计算.统计.分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成 ...

  2. 2023版大数据学习路线图(适合自学)

    随着信息产业的迅猛发展,大数据应用逐渐落地,行业人才需求量逐年扩大.大数据成为目前最具前景的高薪行业之一,大数据分析工程师.大数据开发工程师等大数据人才也成为市场紧缺型人才,薪资一涨再涨. 很多人想要 ...

  3. 2021最全大数据学习路线(建议收藏)

    个人简介:非科班双一流硕士,CAE仿真方向转行大数据,现杭州某大厂大数据工程师! 我可以给你提供最全的[大数据学习路线]:帮助你搭建大数据知识体系,从入门到精通:亲自指导你大数据工程师面试的简历该如何 ...

  4. 大数据学习需要哪些课程?

    推荐一个大数据学习群 119599574晚上20:10都有一节[免费的]大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,1.学科知识:从数据分 ...

  5. 好程序员大数据教程分享超详细大数据学习路线

    随着信息产业的迅猛发展,大数据应用逐渐落地,行业人才需求量逐年扩大.大数据成为目前最具前景的高薪行业之一,大数据分析工程师.大数据开发工程师等大数据人才也成为市场紧缺型人才,薪资一涨再涨. 很多人想要 ...

  6. 大数据课程00——[基础篇]大数据学习入门

    文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州 ▲ 前置知识 一.编程语言 至少应该掌握一门编程语言,计算机专业的同学大多学的第一门编程语言是 C语言, ...

  7. 峰哥读者的大数据学习路线,附学习资料

    个人简介:非科班双一流硕士,CAE仿真方向转行大数据,现杭州某大厂大数据工程师! 前言 本文针对非科班生转行大数据所遇到的问题,提出一些切实的建议,以免小伙伴在学习过程中走弯路. 我依据自己转行所走过 ...

  8. 大数据学习要知道的十大发展趋势,以及学习大数据的几点建议

    2016年,近40%的公司正在实施和扩展大数据技术应用,另有30%的公司计划在未来12个月内采用大数据技术,62.5%的公司现在至少有一个大数据项目投入生产,只有5.4%的公司没有大数据应用计划,或者 ...

  9. 大数据学习路线2019版(附全套视频教程及网盘下载)

    什么是大数据? 大数据(BIG DATA)是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的 ...

最新文章

  1. 07.LoT.UI 前后台通用框架分解系列之——强大的文本编辑器
  2. bootstrap java_查看tomcat启动文件都干点啥---Bootstrap.java
  3. (寒假开黑gym)2017-2018 ACM-ICPC German Collegiate Programming Contest (GCPC 2017)
  4. Android 通过局域网udp广播自动建立socket连接
  5. VC++读写INI文件示例
  6. jvm性能调优实战 - 39一次大促导致的内存泄漏和Full GC优化
  7. Minimum Array
  8. python的序列类型及其特点_Fluent Python 笔记——序列类型及其丰富的操作
  9. 成为被 BAT 疯抢的数据分析师,要如何精进技术?
  10. Linux-进程管理
  11. MIG IP学习笔记
  12. Swift来了,是不是能够入手IOS开发了?
  13. 阻止路由跳转得方式_vue中路由跳转的三种方式 简洁易懂
  14. .bat脚本基本命令合集
  15. 从嗤之以鼻到“奇迹” 前淘宝工程师详解12306技术
  16. FX5U程序框架模板(10轴) 程序采用梯形图+ST语言写的 RS485通信
  17. 从单核CPU系统角度看并发问题
  18. 我爱天文 - 月亮从哪边升出来?
  19. 证监会叫停VR等行业跨界定增,福兮祸兮?
  20. 三维动画项目实训① ------(3.17-3.24)

热门文章

  1. keepalived+LVS的实现
  2. grails指定环境
  3. 转载 为什么不要 lock(this) ? lock object 并是readonly
  4. JAVA语言基础组成(2)
  5. NoSQL实现(3)——Cassandra
  6. Mysql关闭和修改密码
  7. 我常去的编程技术网站[最近更新:2010.09.29]
  8. linux下oracle数据库的启动和关闭
  9. 分布式系统理论之两阶段提交协议
  10. 使用Debug Diagnostic Tool排除内存泄漏故障