作者:青牛
链接:https://www.zhihu.com/question/24761255/answer/274924149
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下,有同学说Hibernate或Mybites也能连接数据库啊,为什么不学习一下,我这里不是说学这些不好,而是说学这些可能会用你很多时间,到最后工作中也不常用,我还没看到谁做大数据处理用到这两个东西的,当然你的精力很充足的话,可以学学Hibernate或Mybites的原理,不要只学API,这样可以增加你对Java操作数据库的理解,因为这两个技术的核心就是Java的反射加上JDBC的各种使用。Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。好说完基础了,再说说还需要学习哪些大数据技术,可以按我写的顺序学下去。

Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。其实把Hadoop的这些组件学明白你就能做大数据的处理了,只不过你现在还可能对"大数据"到底有多大还没有个太清楚的概念,听我的别纠结这个。等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据,到时候你就不会觉得数据大真好,越大越有你头疼的。当然别怕处理这么大规模的数据,因为这是你的价值所在,让那些个搞Javaee的php的html5的和DBA的羡慕去吧。记住学到这里可以作为你学大数据的一个节点。

Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。

Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

很好的大数据名词解释,收藏相关推荐

  1. 数据仓库、数据集市、数据湖,这些大数据名词你知道多少?

    数据仓库,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报告和决策支持目的而创建. ...

  2. 【大数据】一堆大数据名词

    转载:https://www.iteblog.com/archives/2607.html 看了这个知识名词,我才知道,知道的越多,不知道的越多,这些技术估计一辈子都搞不完了..能搞完的一定是神才.我 ...

  3. mysql一样的查询在我本地很快但是线上很慢_MySQL大数据量分页查询方法及其优化...

    MySQL大数据量分页查询方法及其优化 ---方法1: 直接使用数据库提供的SQL语句 ---语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N ---适 ...

  4. 常见的几个大数据名词:OLAP、OLTP、BI到底代表着什么?

    OLAP: 联机分析处理OLAP是一种软件技术,它使分析人员能够迅速.一致.交互地从各个方面观察信息,以达到深入理解数据的目的.它具有FASMI(Fast Analysis of Shared Mul ...

  5. SEO常用的数据名词解释

    1.展现量 展现量即你的网站在被百度收录之后,用户通过百度搜索对应的关键词展现的数据,因为用户的屏幕有限,所有展现量只会统计在用户屏幕的网站数据,如果你的网站在这一页,但是没有显示在用户的屏幕上,这是 ...

  6. 进入hbase shell速度很慢_HBase——大数据平台之分布式NoSQL数据库教程

    1.1 HBase下载:CDH(网站不显示,可以直接下载) http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.9.0.tar.gz 1.2 ...

  7. 学一下HDFS,很不错(大数据技术原理及应用)

    http://study.163.com/course/courseMain.htm?courseId=1002887002 里面的HDFS这一部分.

  8. 一觉醒来感觉自己回到了九八年, 让大数据来解释

    北京二月吃雾霾.三月吃风沙.四月吃柳絮.五月吃杨树毛儿,而今天TMD吃的套餐. 昨天5.4日沙尘暴蓝色预警,其实也没什么拉,毕竟只是吃点风沙,北京5月4日电(孟竹) "天空啊下着沙--&qu ...

  9. 收藏!最新大数据产业地图 十大生态金矿百大公司起底【附下载】

    来源:智东西 人工智能的崛起,加速了大数据技术的应用落地.据中国大数据产业生态联盟调查显示,国内大数据企业年营业额4000万人民币以上的已经超过40%,这意味着,这些企业已经度过生存期,开始进入应用落 ...

最新文章

  1. html阅读开放试用阶段,泰克为不同行业提供100种应用功能免费试用
  2. oracle 实现基于函数的索引
  3. php gridview,GridView - [ Android中文手册 ] - 在线原生手册 - php中文网
  4. Linux服务器集群系统(一)--转
  5. php 等5秒钟继续,android – 如何每5秒钟继续请求一个页面而不是杀死电池?
  6. java计算时间差_JAVA并发编程三大Bug源头(可见性、原子性、有序性),彻底弄懂...
  7. 高精度:麦森数*(洛谷P1045)
  8. 开启log4net内部调试
  9. PyCharm5.0.2最新版破解注册激活码
  10. ios 监测网页按钮_苹果IOS备忘录便签软件敬业签恢复删除内容应该怎么操作?...
  11. Git 命令 clone、add、status、commit、push、init 使用介绍.
  12. Ubuntu下安装php7.1的gd,mysql,pdo_mysql扩展库
  13. Matlab语言标点说明
  14. freenas 蜗牛星际_从“白群晖”到“蜗牛星际”,到底哪种NAS方案适合我?
  15. 企业邮箱在outlook登录邮件如何撤回?
  16. cmd: cd /D %~dp0 的含义
  17. java贪吃蛇设计答辩PPT_基于Java的贪吃蛇游戏答辩.ppt
  18. 26丨 搜索引擎架构:如何瞬间完成海量数据检索?
  19. python复制excel图片_python批量导出excel区域图片
  20. [INSHack2019]Passthru

热门文章

  1. apt-get update碰到错误
  2. lua脚本在redis集群中执行报错--Lua script attempted to access a non local key in a cluster node...
  3. 2019 年百度之星·程序设计大赛 - 初赛一
  4. 安装phpstudy之后发现80端口被占用
  5. ubuntu squid 做http代理
  6. Android编译Libwebcore出错解决方法
  7. 修改选中_win7文件名称如何批量修改
  8. swf缓存文件在哪里_面试官:mybatis一级缓存二级缓存的区别都不知道,知道门在哪吧...
  9. java中的类与对象(浅谈)
  10. 1854: zbj的可乐(思维题)