作为一个大数据的初学者,要知道学习一些什么,以及如何的去学习,我也是一个初学者,这是我了解到的学习路线,也是我要走的学习路线。

原文路线:http://dataunion.org/31604.html

1、初始Hadoop

学会搭建Hadoop,跑一跑mapreduce,理解一下原理

2、更高效的WordCount

2.1 SQL

2.2 SQL版的wordcount

2.3 Hive SQL ON HADOOP

2.4 安装配置hive

2.5 使用hive

2.6 hive是怎么工作的

2.7 学会hive的基本命令

具备如下知识点和技能

0和Hadoop2.0的区别;

MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多的10个单词及次数);

HDFS读写数据的流程;向HDFS中PUT数据;从HDFS中下载数据;

自己会写简单的MapReduce程序,运行出现问题,知道在哪里查看日志;

会写简单的SELECT、WHERE、GROUP BY等SQL语句;

Hive SQL转换成MapReduce的大致流程;

Hive中常见的语句:创建表、删除表、往表中加载数据、分区、将表中数据下载到本地;

从上面的学习,你已经了解到,HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据,MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据,而Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行。

此时,你的”大数据平台”是这样的:

那么问题来了,海量数据如何到HDFS上呢?

3、把别处的数据搞到Hadoop上

3.1 HDFS put命令

3.2 HDFS API

3.3 sqoop

3.4 Flume

你的”大数据平台”应该是这样的:

4、把hadoop上的数据搞到别处

4.1 HDFS GET命令

熟练掌握

4.2 HDSF API

4.3 sqoop

使用Sqoop完成将HDFS上的文件同步到MySQL;
使用Sqoop完成将Hive表中的数据同步到MySQL;

你的”大数据平台”应该是这样的:

5、SQL更快一点

5.1 关于Spark和SparkSQL

5.2 如何部署和运行SparkSQL

你的”大数据平台”应该是这样的:

6、一夫多妻制

6.1 关于Kafka

6.2 如何部署和使用Kafka

你的”大数据平台”应该是这样的:

7、越来越多的分析任务

7.1 Apache Oozie

7.2 其他开源的任务调度系统

你的”大数据平台”应该是这样的:

8、数据的实时性要求

8.1 Storm

8.2 Spark Streaming

你的”大数据平台”应该是这样的:

9、数据要对外

10、高大上的机器学习

在我们的业务中,遇到的能用机器学习解决的问题大概这么三类:

分类问题:包括二分类和多分类,二分类就是解决了预测的问题,就像预测一封邮件是否垃圾邮件;多分类解决的是文本的分类;

聚类问题:从用户搜索过的关键词,对用户进行大概的归类。

推荐问题:根据用户的历史浏览和点击行为进行相关推荐。

大多数行业,使用机器学习解决的,也就是这几类问题。

入门学习线路:

数学基础;

机器学习实战(Machine Learning in Action),懂Python最好;

SparkMlLib提供了一些封装好的算法,以及特征处理、特征选择的方法。

机器学习确实牛逼高大上,也是我学习的目标。

那么,可以把机器学习部分也加进你的“大数据平台”了。

转载于:https://www.cnblogs.com/tolazychen/p/8336037.html

大数据的起步:初学者相关推荐

  1. 大数据学习之初学者必知的十大机器学习算法

    本文转载自科多大数据,大数据学习都要接触到算法. 本文先为初学者介绍了必知的十大机器学习(ML)算法,并且我们通过一些图解和实例生动地解释这些基本机器学习的概念.我们希望本文能为理解机器学习基本算法提 ...

  2. 大数据学习(机器学习)初学者常犯的9个错误

    原文:9 Mistakes to Avoid When Starting Your Career in Data Science 如果你想从事大数据行业(包含机器学习,下同),那么你一定要避免以下9个 ...

  3. 大数据分析师·人才培养·高薪起航

    一.大数据分析师时代背景 随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长.动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现 ...

  4. 政务数据放开在即 政策红利下大数据投资亮点凸显

    近期,<促进大数据发展三年工作方案(2016-2018)>.<促进大数据发展2016年工作要点>.<政务信息资源共享管理暂行办法>和<政务信息资源目录编制指南 ...

  5. 企业大数据运用实战案例分享

    一.企业大数据如何起步:从小数据到大数据 目前国内外关于大数据的谈论很多,大多是谈运营级别的,或者说从服务端.服务方提得较多一些.笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说,大数据跟他 ...

  6. 【2016年第1期】专题导读:农业大数据

    2015年是国家大数据战略的启动年.中国是农业大国,农业部于12月31日率先发布第一个行业大数据发展规划<关于推进农业农村大数据发展的实施意见>,全面部署农业农村大数据发展工作. 相比互联 ...

  7. Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍

    一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...

  8. 大数据时代了解一些问题

    大数据时代了解一些问题 从2014年开始,大数据备受整个社会的关注!不管是从政府层面,还是到企业层面,对大数据的关注以及研究都是非常火热的!不过,很多人尽管听说了大数据这个东西,但是对这个领域仍然很陌 ...

  9. 自拍会不会被大数据_不会搭建大数据平台,我被老板优化了...

    [51CTO.com原创稿件]随着业务的飞速发展,信息化作为业务的支撑,各个企业都建立了自己的信息化系统. 图片来自 Pexels 在业务增涨过程中,每个企业不知不觉积累积累了一些数据.无论数据是多是 ...

最新文章

  1. 暑期集训1:C++STL 练习题C:HDU-1263
  2. apache mysql 连接数_浏览器端同时请求100个url后,如何提升有效的msyql连接数
  3. Codeforces Round #546 (Div. 2) B. Nastya Is Playing Computer Games
  4. git分散式版本管理系统,从安装到基本使用
  5. Java Web使用数据库连接池
  6. mysql导出d盘_mysql 导出导入数据库
  7. STL:使用string、vector、complex和limits
  8. linux安装自带mysql吗_Linux下安装mysql
  9. 利用xlwt写excel并进行单元格的合并
  10. 特征图注意力_ICLR2017 | AT_注意力引导的知识蒸馏
  11. 一分钟详解机器人手眼标定MATLAB及C++实现
  12. 7月4-5日TokenSky东京站100+明星嘉宾齐聚东京!
  13. 计算机图形学中几何变换的定义,计算机图形学 实验7 三维几何变换(MFC中)
  14. 科普 | Cat.1bis 你懂了么
  15. oracle归档日志循环,oracle归档日志增长过快处理方法,oracle归档日志
  16. Xposed框架动态调试第三方APP—实战演示
  17. 微信小程序手把手教你实现类似Android中ViewPager控件效果
  18. 加壳软件测试,VMProtect2.04加壳程序从入门到精通
  19. 个人所得税税率怎么算
  20. 数据科学导论——数据预处理进阶

热门文章

  1. mysql导出数据意义_导出数据库的意义
  2. html(2)标签(1)
  3. 每日温度—leetcode739
  4. 不同路径—leetcode62
  5. 几种嵌入式RTOS的分析与比较
  6. POJ 1064 -- Cable master(二分)
  7. C++二维数组按行遍历和按列遍历的区别
  8. 算法总结之编码(C++)
  9. 对比vector、deque、list的优缺点
  10. tar/gzip/zip文件打包、压缩命令