不知道你是计算机专业应届生还是已经从业者。总之,有java基础的学生学习大数据会轻松很多,零基础的小白都需要从java和linux学起。

如果你是一个学习能力特别强,而且自律性也很强的人的话可以通过自学。

对于能够学的会的人来讲(学不会就不用自学了)自学的最大缺点就是无法找到真正的大数据实训项目。

网络上共享的一些凭空想象的项目根本无法达到企业的要求。所以这个是需要你自己考虑的。当然,如果你是边上班边学习,企业后续可以给你大数据的岗位就没有什么问题了。

下面我讲一下大数据目前比较热门的就业方向:

1、大数据研发

2、大数据分析与挖掘

3、深度学习

4、人工智能

分享之前我还是要推荐下我自己创建的大数据学习资料分享群 199427210,这是全国最大的大数据学习交流的地方,2000人聚集,不管你是小白还是大牛,小编我都挺欢迎,今天的已经资讯上传到群文件,不定期分享干货,包括我自己整理的一份最新的适合2019年学习的大数据教程,欢迎初学和进阶中的小伙伴。

Java:

只需要学习Java的标准版JavaSE就可以了。

Linux:

主要掌握Linux操作系统的理论基础和服务器配置实践知识,同时通过大量实验,着重培养动手能力。使学生了解Linux操作系统在行业中的重要地位和广泛的使用范围。在学习Linux的基础上,加深对服务器操作系统的认识和实践配置能力。加深对计算机网络基础知识的理解,并在实践中加以应用。

掌握Linux操作系统的安装、命令行操作、用户管理、磁盘管理、文件系统管理、软件包管理、进程管理、系统监测和系统故障排除。掌握Linux操作系统的网络配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服务的配置与管理。为更深一步学习其它网络操作系统和软件系统开发奠定坚实的基础。与此同时,如果大家有时间把javaweb及框架学习一番,会让你的大数据学习更自由一些。

好说完基础了,再说说还需要学习哪些大数据技术,可以按我写的顺序学下去。

Hadoop:

Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper:

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

他的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

ZooKeeper代码版本中,提供了分布式独享锁、选举、队列的接口,代码在zookeeper-3.4.3src ecipes。其中分布锁和队列有Java和C两个版本,选举只有Java版本。

Mysql:

MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件。

MySQL是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。

MySQL所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择 MySQL 作为网站数据库。

Sqoop:

这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

Hive:

这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie:

既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。

Hbase:

这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka:

这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。

Spark:

它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

往后的文章我将会对以上知识点进行梳理、细解。

转载于:https://blog.51cto.com/13854477/2344827

如何进行大数据的入门级学习?相关推荐

  1. 数据科学 怎样进行大数据的入门级学习?

    转:数据科学 怎样进行大数据的入门级学习? 数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据. 但从狭义上来看,我认为数据科学 ...

  2. 怎样进行大数据的入门级学习

    1R programming 如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本: R in action:我的R语言大数据101.其实对于一个没有任何编程基础的人来说,一开始 ...

  3. 怎样进行大数据的入门级学习?

    大数据在刚出来的时候,人们表现的非常乐观,以至于对它持有非常高的期望,和普遍的追捧. 不过只要有数据在,大数据就不会过时.随着上游的数据规模持续增长,大数据在未来一定会扮演重要角色.因此,市场需求将会 ...

  4. 基于大数据与深度学习的自然语言对话

    基于大数据与深度学习的自然语言对话 发表于2015-12-04 09:44| 7989次阅读| 来源<程序员>电子刊| 5 条评论| 作者李航.吕正东.尚利峰 大数据深度学习自然语言处理自 ...

  5. 大数据哈希学习: 现状与趋势

    大数据哈希学习: 现状与趋势 李武军①②*, 周志华①②* ① 南京大学计算机软件新技术国家重点实验室, 南京210023; ② 软件新技术与产业化协同创新中心, 南京210023 * 联系人, E- ...

  6. 大数据开发初学者学习路线_初学者的Web开发路线图

    大数据开发初学者学习路线 This beginner's roadmap lays out all the basics for web development. We're going to go ...

  7. 谷俊丽:基于大数据的深度学习

    嘉宾介绍:谷俊丽,博士学历,毕业于清华大学-美国University of Illinois Urbana-champaign大学,在清华期间作为核心人员研发过超长指令字数字信号处理器,在美期间曾参与 ...

  8. 【转】谷俊丽:基于大数据的深度学习

    对于我这种小白,还比较通俗易懂,顺便也介绍了深度学习一些概况,留着有用! 嘉宾介绍:谷俊丽,博士学历,毕业于清华大学-美国University of Illinois Urbana-champaign ...

  9. 大数据之Hadoop学习——动手实战学习MapReduce编程实例

    文章目录 一.MapReduce理论基础 二.Hadoop.Spark学习路线及资源收纳 三.MapReduce编程实例 1.自定义对象序列化 需求分析 报错:Exception in thread ...

  10. 大数据工程师需要学习哪些技术?

    "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取.管理和处理. 1. 数据体量巨大.从TB级别,跃升到PB级别. 2. 数据 ...

最新文章

  1. javascript实战pdf_javascript该怎么学呢?学习Js之路
  2. 【OkHttp】OkHttp 源码分析 ( 网络框架封装 | OkHttp 4 迁移 | OkHttp 建造者模式 )
  3. 云告警平台 OneAlert :如何帮助运维工程师做好汇报?
  4. C/S+P2P网络模型(一)--聊天
  5. C#——《C#语言程序设计》实验报告——泛型与集合——“画树”程序
  6. 如何复制CSDN上他人的博客文章到自己博客下
  7. 单例模式在JDK应用的源码分析
  8. 人工智能芯片的前世与今生
  9. hibernate查询部分字段加struts2显示
  10. 数字图像处理编程入门
  11. 信息安全管理的效益分析
  12. 危险化学品题库及答案
  13. 韩国商业网站界面设计分析------推荐2005-5-24 出处:vipcn.com
  14. 网络安全技术及应用第3版 主编贾铁军等——教材习题 期末重点 复习题 知识提炼(第1章 网络安全基础)
  15. Reverse-it
  16. 微信小程序,一个有局限的类似 React Native 轮子!
  17. 【老卫搞机】135期:华为开发者联盟社区2022年牛人之星奖品开箱!
  18. 【通信仿真】基于matlab空时自适应处理降维仿真【含Matlab源码 1957期】
  19. ubuntu kernel编译
  20. 2021年上半年信息系统项目管理师上午试题解析(三)

热门文章

  1. deepin mysql管理工具_[LINUX]DeepIn下基础开发环境搭建
  2. 重载前自增运算符和后自增运算符
  3. One method of fixing this is to repeatedly uninstall numpy until none is found, then reinstall this
  4. 机器学习概念篇:监督学习、过拟合,正则化,泛化能力等概念以及防止过拟合方法总结
  5. linux全局查找-find,locate,whereis,which,type区别
  6. cookielib和urllib2模块相结合模拟网站登录
  7. 【Gym - 100837 F】Controlled Tournament【竞赛树 状态压缩】
  8. 利用 python 批量修改文件名
  9. 504.七进制数(力扣leetcode) 博主可答疑该问题
  10. mysql explain G_MySQL 性能优化神器 Explain 使用分析