国内大数据开发中比较受欢迎的几款工具

1、zookeeper

一个分布式的应用程序协调服务，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的工具，让Hadoop集群里面的节点可以彼此协调。ZooKeeper现在已经成为了 Apache的顶级项目，为分布式系统提供了高效可靠且易于使用的协同服务。

2、HDFS

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

3、Kafka

一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模网站中的所有动作流数据，目前已成为大数据系统在异步和分布式消息之间的最佳选择。

4、Spark

一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点，但不同的是Job的中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用，也可以独立使用。

5、Hadoop

一个开源框架，适合运行在通用硬件，支持用简单程序模型分布式处理跨集群大数据集，支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号，它不断壮大起来，已成为一个完整的生态系统，拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序。

6、Storm

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单，显著地降低了实时处理的难度，也是当下最人气的流计算框架之一。与其他计算框架相比，Storm最大的优点是毫秒级低延时。

7、Hive

是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

8、Redis

是一个高性能的key-value存储系统，和Memcached类似，它支持存储的value类型相对更多，包括string（字符串）、list（链表）、set（集合）和zset（有序集合）。Redis的出现，很大程度补偿了memcached这类key/value存储的不足，在部分场合可以对关系数据库起到很好的补充作用。

9、HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

10、HBase

是Hadoop的数据库，一个分布式、可扩展、大数据的存储。是为有数十亿行和数百万列的超大表设计的，是一种分布式数据库，可以对大数据进行随机性的实时读取/写入访问。提供类似谷歌Bigtable的存储能力，基于Hadoop和Hadoop分布式文件系统（HDFS）而建。

11、Elasticsearch

是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索、稳定、可靠、快速、安装使用方便。

。。。。。。

以上的这些工具就是目前国内大数据开发环境中常用的一些工具。当然除此之后还有很多，包括Samza、Flink、Stinger、 Drill等等。掌握的技术当然是越多越好，尤其是互联网行业，只有不断的去学习，了解新的技术才不会被淘汰。

个人见解，欢迎大家踊跃发言并且推荐目前大数据常用的工具还有哪些

国内大数据开发中比较受欢迎的几款工具相关推荐

大数据开发中HBase高级特性和rowkey设计分析
大数据培训学习过程中,经常会使用到HBase高级特性,在阐述HBase高级特性和热点问题处理前,首先回顾一下HBase的特点:分布式.列存储.支持实时读写.存储的数据类型都是字节数组byte[ ...
浅谈 eBay 大数据开发中的一些最佳实践
1 前言 eBay 智能营销部门致力于打造数据驱动的业务智能中台,以支持业务部门快速开展营销活动.目前在我们正在构建一个基于eBay站外营销的业务全渠道漏斗分析指标,涉及近十个营销渠道.数十张数据 ...
【Linux】大数据开发中常用的shell命令
内容目录一.date 二.find 三.awk 四.cut 五.if 六.sort 一.date 具体的用法如下: 显示当前日期和时间 date +%Y-%m-%d\ %H:%M:%S 将日期转换为 ...
大数据时代企业如何保障数据安全？这款工具值得一看
随着互联网时代的高速发展,越来越多的企业提高了对数据安全的重视. 为了更好地保障产品安全,YonghongBI V9.3中新增SSAS数据源对集成Windows身份验证支持. 希望您了解: 集成Win ...
大数据开发都需要掌握哪些编程语言
当前正处在大数据时代背景下,大数据技术目前也正处在落地应用的初期,未来大数据的发展空间还是比较大的,所以学习大数据相关技术是个不错的选择. 大数据编程语言的选择要根据具体的工作岗位来进行,目前大数据领 ...
大数据开发需要数学好吗？
大数据开发是和数据相关的工作,很多人有疑问,想从事大数据相关工作,是不是对数学有很高的要求,那么,做大数据真的需要数学很好吗? 大数据可以分为很多岗位,不同的岗位对数学的要求不同,只有少部分的大数据岗 ...
大数据开发之机器学习总结（一）
大数据开发之机器学习总结 1. 背景在大数据开发中,数据分析目的一般分为2大类,一个是基于已有数据,提炼出想要的数据汇总信息.一个是基于已有数据使用算法训练出模型,基于模型预测和分析未来的新数据. ...
一位大数据开发工程师的两年工作经验总结
新的工作,新的人和事.懒惰让我变得更焦虑,焦虑促使我进步,程序员的焦虑大家应该都有共同的感觉,时代的步伐太快了,在这个环境下的软件开发一定会淘汰掉那些不懂得学习,懒惰的人. 希望跟大家共勉. 今天的主 ...
【面经】中邮消费金融大数据开发二面面经
[面经]中邮消费金融大数据开发二面面经自我介绍项目的架构讲一下 Spark 调优用过哪些参数设置和 SQL 代码改写. Spark 基于内存的,什么时候会写磁盘 mapreduce 任务后期再计 ...

国内大数据开发中比较受欢迎的几款工具

国内大数据开发中比较受欢迎的几款工具相关推荐

最新文章

热门文章