1、zookeeper

一个分布式的应用程序协调服务,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的工具,让Hadoop集群里面的节点可以彼此协调。ZooKeeper现在已经成为了 Apache的顶级项目,为分布式系统提供了高效可靠且易于使用的协同服务。

2、HDFS

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

3、Kafka

一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据,目前已成为大数据系统在异步和分布式消息之间的最佳选择。

4、Spark

一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点,但不同的是Job的中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用,也可以独立使用。

5、Hadoop

一个开源框架,适合运行在通用硬件,支持用简单程序模型分布式处理跨集群大数据集,支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号,它不断壮大起来,已成为一个完整的生态系统,拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。

6、Storm

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单,显著地降低了实时处理的难度,也是当下最人气的流计算框架之一。与其他计算框架相比,Storm最大的优点是毫秒级低延时。

7、Hive

是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

8、Redis

是一个高性能的key-value存储系统,和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。

9、HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

10、HBase

是Hadoop的数据库,一个分布式、可扩展、大数据的存储。是为有数十亿行和数百万列的超大表设计的,是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。提供类似谷歌Bigtable的存储能力,基于Hadoop和Hadoop分布式文件系统(HDFS)而建。

11、Elasticsearch

是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索、稳定、可靠、快速、安装使用方便。

。。。。。。

以上的这些工具就是目前国内大数据开发环境中常用的一些工具。当然除此之后还有很多,包括Samza、Flink、Stinger、 Drill等等。掌握的技术当然是越多越好,尤其是互联网行业,只有不断的去学习,了解新的技术才不会被淘汰。

个人见解,欢迎大家踊跃发言并且推荐目前大数据常用的工具还有哪些

国内大数据开发中比较受欢迎的几款工具相关推荐

  1. 大数据开发中HBase高级特性和rowkey设计分析

    ​​大数据培训​​学习过程中,经常会使用到HBase高级特性,在阐述HBase高级特性和热点问题处理前,首先回顾一下HBase的特点:分布式.列存储.支持实时读写.存储的数据类型都是字节数组byte[ ...

  2. 浅谈 eBay 大数据开发中的一些最佳实践

    1 前  言 eBay 智能营销部门致力于打造数据驱动的业务智能中台,以支持业务部门快速开展营销活动.目前在我们正在构建一个基于eBay站外营销的业务全渠道漏斗分析指标,涉及近十个营销渠道.数十张数据 ...

  3. 【Linux】大数据开发中常用的shell命令

    内容目录 一.date 二.find 三.awk 四.cut 五.if 六.sort 一.date 具体的用法如下: 显示当前日期和时间 date +%Y-%m-%d\ %H:%M:%S 将日期转换为 ...

  4. 大数据时代企业如何保障数据安全?这款工具值得一看

    随着互联网时代的高速发展,越来越多的企业提高了对数据安全的重视. 为了更好地保障产品安全,YonghongBI V9.3中新增SSAS数据源对集成Windows身份验证支持. 希望您了解: 集成Win ...

  5. 大数据开发都需要掌握哪些编程语言

    当前正处在大数据时代背景下,大数据技术目前也正处在落地应用的初期,未来大数据的发展空间还是比较大的,所以学习大数据相关技术是个不错的选择. 大数据编程语言的选择要根据具体的工作岗位来进行,目前大数据领 ...

  6. 大数据开发需要数学好吗?

    大数据开发是和数据相关的工作,很多人有疑问,想从事大数据相关工作,是不是对数学有很高的要求,那么,做大数据真的需要数学很好吗? 大数据可以分为很多岗位,不同的岗位对数学的要求不同,只有少部分的大数据岗 ...

  7. 大数据开发之机器学习总结(一)

    大数据开发之机器学习总结 1. 背景 在大数据开发中,数据分析目的一般分为2大类,一个是基于已有数据,提炼出想要的数据汇总信息.一个是基于已有数据使用算法训练出模型,基于模型预测和分析未来的新数据. ...

  8. 一位大数据开发工程师的两年工作经验总结

    新的工作,新的人和事.懒惰让我变得更焦虑,焦虑促使我进步,程序员的焦虑大家应该都有共同的感觉,时代的步伐太快了,在这个环境下的软件开发一定会淘汰掉那些不懂得学习,懒惰的人. 希望跟大家共勉. 今天的主 ...

  9. 【面经】中邮消费金融大数据开发二面面经

    [面经]中邮消费金融大数据开发二面面经 自我介绍 项目的架构讲一下 Spark 调优用过哪些 参数设置和 SQL 代码改写. Spark 基于内存的,什么时候会写磁盘 mapreduce 任务后期再计 ...

最新文章

  1. MySQL 如何创建索引?怎么优化?
  2. 兔子--eclipse设置编码格式
  3. linux 命令02
  4. 天气预报接口和城市代码
  5. 使用工具将SQLServer转MYSQL的方法(连数据)
  6. 全栈深度学习第5期: 神经网络调试技巧
  7. 显示和隐藏菜单栏(两种方式div、table)
  8. MWeb Pro for Mac(Markdown博客生成软件)
  9. Svn插件提交比较慢的解决方法
  10. Python爬取实战-爬取菜鸟教程python100例
  11. rgba和hex之间转换
  12. 政策的组合拳使得九月无法平凡
  13. 按照网络规模来分,服务器分为哪几类?
  14. neso n810 i7 android 4.4,搭载64位英特尔芯 NESO N810 i7平板电脑发布
  15. 数字经济时代,企业上云将成为数字化转型突破口
  16. lect02_codes02_pandas
  17. 七夕礼物送什么给男朋友好?七夕礼物清单
  18. 提升技术团队战斗力的几件事
  19. PHP网易云音乐热评API接口代码
  20. 同体积的正方体和立方体谁面积大?

热门文章

  1. 一篇对伪共享、缓存行填充和CPU缓存讲的很透彻的文章
  2. [Google Guava] 2.4-集合扩展工具类
  3. JavaSist之ClassPool
  4. Spring中你不知道的注入方式
  5. Java程序员从笨鸟到菜鸟之(一百)sql注入攻击详解(一)sql注入原理详解
  6. Windows下Eclipse+PyDev安装Python开发环境
  7. computer vision(计算机视觉)方面的期刊会议,学术必备
  8. PAT_A1106#Lowest Price in Supply Chain
  9. 神经网络中的激活函数的作用和选择
  10. C语言解释器的实现--存储结构(一)