大数据领域三个大的技术方向:

1、Hadoop大数据开发方向

2、数据挖掘、数据分析&机器学习方向

3、大数据运维&云计算方向

大数据学习什么

Python:Python 的排名从去年开始就借助人工智能持续上升,现在它已经成为了语言排行第一名。

语法简捷而清晰,对底层做了很好的封装,是一种很容易上手的高级语言。

大数据和数据科学领域,任何集群架构软件都支持Python,Python也有很丰富的数据科学库,所以Python不得不学。

Linux:更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。

Hadoop:Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。

Zookeeper:ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。由于ZooKeeper的开源特性,后来我们的开发者在分布式锁的基础上,摸索了出了其他的使用方法:配置维护、组服务、分布式消息队列分布式通知/协调等。

Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

Hive:对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。

Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka:Kafka的整体架构非常简单,是显式分布式架构,producer、broker(kafka)和consumer都可以有多个。Producer,consumer实现Kafka注册的接口,数据从producer发送到broker,broker承担一个中间缓存和分发的作用。broker分发注册到系统中的consumer。broker的作用类似于缓存,即活跃的数据和离线处理系统之间的缓存。客户端和服务器端的通信,是基于简单,高性能,且与编程语言无关的TCP协议。几个基本概念。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

机器学习(Machine Learning, ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习的算法基本比较固定了,学习起来相对容易。

深度学习(Deep Learning, DL):深度学习的概念源于人工神经网络的研究,最近几年发展迅猛。深度学习应用的实例有AlphaGo、人脸识别、图像检测等。是国内外稀缺人才,但是深度学习相对比较难,算法更新也比较快,需要跟随有经验的老师学习。

大数据领域三个大的技术方向资料相关推荐

  1. 阿里巴巴计算平台资深技术专家“一浪”对大数据领域近几年的技术趋势和变化的看法【强烈推荐数据岗细细品!】

    导读:计算和存储分离是近几年大数据架构领域颇受关注的一个技术风向.在对刚刚过去的 2019 天猫双 11 技术进行总结时,阿里巴巴 CTO 行癫也特别提到了阿里在计算存储分离上的进展.大数据最初兴起之 ...

  2. 大数据领域的12大工具,市面上主要的大数据分析工具都在这了!

    大数据工具让企业能够从数据仓库获得洞察力,从而在数据驱动的业务环境中提供重要的竞争优势. 为了满足旺盛需求,大数据工具在迅速遍地开花.在大数据这一概念和业务战略出现以来的十年间,市面上出现了成千上万执 ...

  3. 大数据(三)大数据计算引擎

    文章目录 说明 分享 大数据计算引擎 批处理 MapReduce tez 流批处理 Flink spark 总结 说明 本博客每周五更新一次. 介绍过大数据平台的搭建.应用和存储,本期分享下大数据计算 ...

  4. 深耕大数据领域 联想斩获大数据产业大奖

    近日,主题为"产业互联网时代的云计算和大数据"的2016中国软件大会在北京新世纪日航酒店盛大召开,联想集团副总裁.首席研究员田日辉荣获"2016中国大数据产业十大领军人物 ...

  5. 【大数据】为什么要学习大数据

    近年来大数据越来越火爆,非常多的人转行做大数据或者开始学习大数据.现在我们看来大数据尤为重要,马云也说过现在是DT时代,也就是数据时代."未来最大的能源不是石油,而是数据".目前人 ...

  6. 2020大数据领域十大必读书籍

    相信身边有很多应届毕业生以及想转行大数据的,状态大多都是:万脸懵逼. 老司机教你:看书.写代码.多交流. 2020你看了几本书呢?小编为大家精心挑选了大数据领域里十本有价值的书,先干掉这几本书,再和老 ...

  7. 2019大数据领域十大必读书籍

    相信身边有很多应届毕业生以及想转行大数据的,状态大多都是:万脸懵逼. 老司机教你:看书.写代码.多交流. 2019你看了几本书呢?小编为大家精心挑选了大数据领域里十本有价值的书,先干掉这几本书,再和老 ...

  8. 大数据领域十大必读书籍

    2017大数据领域十大必读书籍 chenjj 2017-07-12 大数据, 热门新闻 2,759 views 0 历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了 ...

  9. 2017大数据领域十大必读书籍

    历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了很多新生力量,而各行各业谁也无法离开数据存活.尤其近几年来,全球范围内掀起了一股"大数据"热,各 ...

最新文章

  1. 三种方式搭建yum源
  2. 使用UISearchDisplayController
  3. 使用 IntraWeb (31) - IntraWeb 的 Xml 操作使用的是 NativeXml
  4. WebFlux基础之响应式编程
  5. java.exe 安装程序_java实现可安装的exe程序实例详解
  6. QT的QMediaControl类的使用
  7. 【PAT甲级 十进制转十三进制】1027 Colors in Mars (20 分) Java版 5/5通过
  8. 动画演示男性结扎手术 | 今日趣图
  9. AUTOSAR从入门到精通100讲(125)-详解车载网络 OTA系统的开发
  10. 淘宝灵活的圆角框--通过一个圆形图片形成圆角原理
  11. 作为程序员,北漂的我有很多话想说。
  12. ubuntu 安装nvm
  13. 2021数学建模B题 空气质量二次模型
  14. wx僵尸粉检测,真实好友1.0(无障碍检测好友状态)
  15. 阿里巴巴协助征战SARS(简单)
  16. word2016画函数曲线图
  17. 标题优化的技巧是什么
  18. Linux 下 QT 安卓开发环境搭建
  19. KPM算法思想及实现
  20. telephony-apps

热门文章

  1. 手机上安装FTP客户端软件(AndFTP),实现通过手机访问计算机FTP服务器
  2. 最新网络安全工程师从入门到精通学习_网络安全入门
  3. 递归案例 ---- 母牛生小牛
  4. ID卡复制教程(使用T5577卡复制4100卡)
  5. 智能对话架构师速成秘诀在这里
  6. 企业上云,就上...
  7. PIC单片机开发环境搭建_MPLAB X IDE安装步骤
  8. ICD3 Target Device ID (00000000)
  9. NAND Flash、NOR Flash、ROM、RAM、DRAM、SRAM和FLASH的区别解析
  10. 学习JAVA需要掌握的英文单词