大数据的起步:初学者
作为一个大数据的初学者,要知道学习一些什么,以及如何的去学习,我也是一个初学者,这是我了解到的学习路线,也是我要走的学习路线。
原文路线:http://dataunion.org/31604.html
1、初始Hadoop
学会搭建Hadoop,跑一跑mapreduce,理解一下原理
2、更高效的WordCount
2.1 SQL
2.2 SQL版的wordcount
2.3 Hive SQL ON HADOOP
2.4 安装配置hive
2.5 使用hive
2.6 hive是怎么工作的
2.7 学会hive的基本命令
具备如下知识点和技能
0和Hadoop2.0的区别;
MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多的10个单词及次数);
HDFS读写数据的流程;向HDFS中PUT数据;从HDFS中下载数据;
自己会写简单的MapReduce程序,运行出现问题,知道在哪里查看日志;
会写简单的SELECT、WHERE、GROUP BY等SQL语句;
Hive SQL转换成MapReduce的大致流程;
Hive中常见的语句:创建表、删除表、往表中加载数据、分区、将表中数据下载到本地;
从上面的学习,你已经了解到,HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据,MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据,而Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行。
此时,你的”大数据平台”是这样的:
那么问题来了,海量数据如何到HDFS上呢?
3、把别处的数据搞到Hadoop上
3.1 HDFS put命令
3.2 HDFS API
3.3 sqoop
3.4 Flume
你的”大数据平台”应该是这样的:
4、把hadoop上的数据搞到别处
4.1 HDFS GET命令
熟练掌握
4.2 HDSF API
4.3 sqoop
使用Sqoop完成将HDFS上的文件同步到MySQL;
使用Sqoop完成将Hive表中的数据同步到MySQL;
你的”大数据平台”应该是这样的:
5、SQL更快一点
5.1 关于Spark和SparkSQL
5.2 如何部署和运行SparkSQL
你的”大数据平台”应该是这样的:
6、一夫多妻制
6.1 关于Kafka
6.2 如何部署和使用Kafka
你的”大数据平台”应该是这样的:
7、越来越多的分析任务
7.1 Apache Oozie
7.2 其他开源的任务调度系统
你的”大数据平台”应该是这样的:
8、数据的实时性要求
8.1 Storm
8.2 Spark Streaming
你的”大数据平台”应该是这样的:
9、数据要对外
10、高大上的机器学习
在我们的业务中,遇到的能用机器学习解决的问题大概这么三类:
分类问题:包括二分类和多分类,二分类就是解决了预测的问题,就像预测一封邮件是否垃圾邮件;多分类解决的是文本的分类;
聚类问题:从用户搜索过的关键词,对用户进行大概的归类。
推荐问题:根据用户的历史浏览和点击行为进行相关推荐。
大多数行业,使用机器学习解决的,也就是这几类问题。
入门学习线路:
数学基础;
机器学习实战(Machine Learning in Action),懂Python最好;
SparkMlLib提供了一些封装好的算法,以及特征处理、特征选择的方法。
机器学习确实牛逼高大上,也是我学习的目标。
那么,可以把机器学习部分也加进你的“大数据平台”了。
转载于:https://www.cnblogs.com/tolazychen/p/8336037.html
大数据的起步:初学者相关推荐
- 大数据学习之初学者必知的十大机器学习算法
本文转载自科多大数据,大数据学习都要接触到算法. 本文先为初学者介绍了必知的十大机器学习(ML)算法,并且我们通过一些图解和实例生动地解释这些基本机器学习的概念.我们希望本文能为理解机器学习基本算法提 ...
- 大数据学习(机器学习)初学者常犯的9个错误
原文:9 Mistakes to Avoid When Starting Your Career in Data Science 如果你想从事大数据行业(包含机器学习,下同),那么你一定要避免以下9个 ...
- 大数据分析师·人才培养·高薪起航
一.大数据分析师时代背景 随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长.动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现 ...
- 政务数据放开在即 政策红利下大数据投资亮点凸显
近期,<促进大数据发展三年工作方案(2016-2018)>.<促进大数据发展2016年工作要点>.<政务信息资源共享管理暂行办法>和<政务信息资源目录编制指南 ...
- 企业大数据运用实战案例分享
一.企业大数据如何起步:从小数据到大数据 目前国内外关于大数据的谈论很多,大多是谈运营级别的,或者说从服务端.服务方提得较多一些.笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说,大数据跟他 ...
- 【2016年第1期】专题导读:农业大数据
2015年是国家大数据战略的启动年.中国是农业大国,农业部于12月31日率先发布第一个行业大数据发展规划<关于推进农业农村大数据发展的实施意见>,全面部署农业农村大数据发展工作. 相比互联 ...
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...
- 大数据时代了解一些问题
大数据时代了解一些问题 从2014年开始,大数据备受整个社会的关注!不管是从政府层面,还是到企业层面,对大数据的关注以及研究都是非常火热的!不过,很多人尽管听说了大数据这个东西,但是对这个领域仍然很陌 ...
- 自拍会不会被大数据_不会搭建大数据平台,我被老板优化了...
[51CTO.com原创稿件]随着业务的飞速发展,信息化作为业务的支撑,各个企业都建立了自己的信息化系统. 图片来自 Pexels 在业务增涨过程中,每个企业不知不觉积累积累了一些数据.无论数据是多是 ...
最新文章
- 暑期集训1:C++STL 练习题C:HDU-1263
- apache mysql 连接数_浏览器端同时请求100个url后,如何提升有效的msyql连接数
- Codeforces Round #546 (Div. 2) B. Nastya Is Playing Computer Games
- git分散式版本管理系统,从安装到基本使用
- Java Web使用数据库连接池
- mysql导出d盘_mysql 导出导入数据库
- STL:使用string、vector、complex和limits
- linux安装自带mysql吗_Linux下安装mysql
- 利用xlwt写excel并进行单元格的合并
- 特征图注意力_ICLR2017 | AT_注意力引导的知识蒸馏
- 一分钟详解机器人手眼标定MATLAB及C++实现
- 7月4-5日TokenSky东京站100+明星嘉宾齐聚东京!
- 计算机图形学中几何变换的定义,计算机图形学 实验7 三维几何变换(MFC中)
- 科普 | Cat.1bis 你懂了么
- oracle归档日志循环,oracle归档日志增长过快处理方法,oracle归档日志
- Xposed框架动态调试第三方APP—实战演示
- 微信小程序手把手教你实现类似Android中ViewPager控件效果
- 加壳软件测试,VMProtect2.04加壳程序从入门到精通
- 个人所得税税率怎么算
- 数据科学导论——数据预处理进阶