大数据的起步：初学者

作为一个大数据的初学者，要知道学习一些什么，以及如何的去学习，我也是一个初学者，这是我了解到的学习路线，也是我要走的学习路线。

原文路线：http://dataunion.org/31604.html

1、初始Hadoop

学会搭建Hadoop，跑一跑mapreduce，理解一下原理

2、更高效的WordCount

2.1 SQL

2.2 SQL版的wordcount

2.3 Hive SQL ON HADOOP

2.4 安装配置hive

2.5 使用hive

2.6 hive是怎么工作的

2.7 学会hive的基本命令

具备如下知识点和技能

0和Hadoop2.0的区别；

MapReduce的原理（还是那个经典的题目，一个10G大小的文件，给定1G大小的内存，如何使用Java程序统计出现次数最多的10个单词及次数）；

HDFS读写数据的流程；向HDFS中PUT数据；从HDFS中下载数据；

自己会写简单的MapReduce程序，运行出现问题，知道在哪里查看日志；

会写简单的SELECT、WHERE、GROUP BY等SQL语句；

Hive SQL转换成MapReduce的大致流程；

Hive中常见的语句：创建表、删除表、往表中加载数据、分区、将表中数据下载到本地；

从上面的学习，你已经了解到，HDFS是Hadoop提供的分布式存储框架，它可以用来存储海量数据，MapReduce是Hadoop提供的分布式计算框架，它可以用来统计和分析HDFS上的海量数据，而Hive则是SQL On Hadoop，Hive提供了SQL接口，开发人员只需要编写简单易上手的SQL语句，Hive负责把SQL翻译成MapReduce，提交运行。

此时，你的”大数据平台”是这样的：

那么问题来了，海量数据如何到HDFS上呢？

3、把别处的数据搞到Hadoop上

3.1 HDFS put命令

3.2 HDFS API

3.3 sqoop

3.4 Flume

你的”大数据平台”应该是这样的：

4、把hadoop上的数据搞到别处

4.1 HDFS GET命令

熟练掌握

4.2 HDSF API

4.3 sqoop

使用Sqoop完成将HDFS上的文件同步到MySQL；
使用Sqoop完成将Hive表中的数据同步到MySQL；

你的”大数据平台”应该是这样的：

5、SQL更快一点

5.1 关于Spark和SparkSQL

5.2 如何部署和运行SparkSQL

你的”大数据平台”应该是这样的：

6、一夫多妻制

6.1 关于Kafka

6.2 如何部署和使用Kafka

你的”大数据平台”应该是这样的：

7、越来越多的分析任务

7.1 Apache Oozie

7.2 其他开源的任务调度系统

你的”大数据平台”应该是这样的：

8、数据的实时性要求

8.1 Storm

8.2 Spark Streaming

你的”大数据平台”应该是这样的：

9、数据要对外

10、高大上的机器学习

在我们的业务中，遇到的能用机器学习解决的问题大概这么三类：

分类问题：包括二分类和多分类，二分类就是解决了预测的问题，就像预测一封邮件是否垃圾邮件；多分类解决的是文本的分类；

聚类问题：从用户搜索过的关键词，对用户进行大概的归类。

推荐问题：根据用户的历史浏览和点击行为进行相关推荐。

大多数行业，使用机器学习解决的，也就是这几类问题。

入门学习线路：

数学基础；

机器学习实战（Machine Learning in Action），懂Python最好；

SparkMlLib提供了一些封装好的算法，以及特征处理、特征选择的方法。

机器学习确实牛逼高大上，也是我学习的目标。

那么，可以把机器学习部分也加进你的“大数据平台”了。

转载于:https://www.cnblogs.com/tolazychen/p/8336037.html

大数据的起步：初学者相关推荐

大数据学习之初学者必知的十大机器学习算法
本文转载自科多大数据,大数据学习都要接触到算法. 本文先为初学者介绍了必知的十大机器学习(ML)算法,并且我们通过一些图解和实例生动地解释这些基本机器学习的概念.我们希望本文能为理解机器学习基本算法提 ...
大数据学习(机器学习)初学者常犯的9个错误
原文:9 Mistakes to Avoid When Starting Your Career in Data Science 如果你想从事大数据行业(包含机器学习,下同),那么你一定要避免以下9个 ...
大数据分析师·人才培养·高薪起航
一.大数据分析师时代背景随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长.动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现 ...
政务数据放开在即政策红利下大数据投资亮点凸显
近期,<促进大数据发展三年工作方案(2016-2018)>.<促进大数据发展2016年工作要点>.<政务信息资源共享管理暂行办法>和<政务信息资源目录编制指南 ...
企业大数据运用实战案例分享
一.企业大数据如何起步:从小数据到大数据目前国内外关于大数据的谈论很多,大多是谈运营级别的,或者说从服务端.服务方提得较多一些.笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说,大数据跟他 ...
【2016年第1期】专题导读：农业大数据
2015年是国家大数据战略的启动年.中国是农业大国,农业部于12月31日率先发布第一个行业大数据发展规划<关于推进农业农村大数据发展的实施意见>,全面部署农业农村大数据发展工作. 相比互联 ...
Hadoop学习总结（1）——大数据以及Hadoop相关概念介绍
一.大数据的基本概念 1.1.什么是大数据大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...
大数据时代了解一些问题
大数据时代了解一些问题从2014年开始,大数据备受整个社会的关注!不管是从政府层面,还是到企业层面,对大数据的关注以及研究都是非常火热的!不过,很多人尽管听说了大数据这个东西,但是对这个领域仍然很陌 ...
自拍会不会被大数据_不会搭建大数据平台，我被老板优化了...
[51CTO.com原创稿件]随着业务的飞速发展,信息化作为业务的支撑,各个企业都建立了自己的信息化系统. 图片来自 Pexels 在业务增涨过程中,每个企业不知不觉积累积累了一些数据.无论数据是多是 ...

大数据的起步：初学者

大数据的起步：初学者相关推荐

最新文章

热门文章