一、hadoop相关工具

1.Hadoop

Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。

支持的操作系统:Windows、Linux和OSX。

2.Ambari

作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。有些开发人员想把Ambari的功能整合到自己的应用程序当中,Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。

支持的操作系统:Windows、Linux和OSX。

3.Avro

这个Apache项目提供了数据序列化系统,拥有丰富的数据结构和紧凑格式。模式用JSON来定义,它很容易与动态语言整合起来。

4.Cascading

Cascading是一款基于Hadoop的应用程序开发平台。提供商业支持和培训服务。

5.Chukwa

Chukwa基于Hadoop,可以收集来自大型分布式系统的数据,用于监控。它还含有用于分析和显示数据的工具。

支持的操作系统:Linux和OSX。

6.Flume

Flume可以从其他应用程序收集日志数据,然后将这些数据送入到Hadoop。官方网站声称:“它功能强大、具有容错性,还拥有可以调整优化的可靠性机制和许多故障切换及恢复机制。”

支持的操作系统:Linux和OSX。

7.HBase

HBase是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。它有点类似谷歌的Bigtable,不过基于Hadoop和Hadoop分布式文件系统(HDFS)而建。

8.Hadoop分布式文件系统(HDFS)

HDFS是面向Hadoop的文件系统,不过它也可以用作一种独立的分布式文件系统。它基于Java,具有容错性、高度扩展性和高度配置性。

支持的操作系统:Windows、Linux和OSX。

9.Hive

ApacheHive是面向Hadoop生态系统的数据仓库。它让用户可以使用HiveQL查询和管理大数据,这是一种类似SQL的语言。

10.Hivemall

Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。

11.Mahout

据官方网站声称,Mahout项目的目的是“为迅速构建可扩展、高性能的机器学习应用程序打造一个环境。”它包括用于在HadoopMapReduce上进行数据挖掘的众多算法,还包括一些面向Scala和Spark环境的新颖算法。

12.MapReduce

作为Hadoop一个不可或缺的部分,MapReduce这种编程模型为处理大型分布式数据集提供了一种方法。它最初是由谷歌开发的,但现在也被本文介绍的另外几个大数据工具所使用,包括CouchDB、MongoDB和Riak。

13.Oozie

这种工作流程调度工具是为了管理Hadoop任务而专门设计的。它能够按照时间或按照数据可用情况触发任务,并与MapReduce、Pig、Hive、Sqoop及其他许多相关工具整合起来。

支持的操作系统:Linux和OSX。

14.Pig

ApachePig是一种面向分布式大数据分析的平台。它依赖一种名为PigLatin的编程语言,拥有简化的并行编程、优化和可扩展性等优点。

15.Sqoop

企业经常需要在关系数据库与Hadoop之间传输数据,而Sqoop就是能完成这项任务的一款工具。它可以将数据导入到Hive或HBase,并从Hadoop导出到关系数据库管理系统(RDBMS)。

16.Spark

作为MapReduce之外的一种选择,Spark是一种数据处理引擎。它声称,用在内存中时,其速度比MapReduce最多快100倍;用在磁盘上时,其速度比MapReduce最多快10倍。它可以与Hadoop和ApacheMesos一起使用,也可以独立使用。

支持的操作系统:Windows、Linux和OSX。

17.Tez

Tez建立在ApacheHadoopYARN的基础上,这是“一种应用程序框架,允许为任务构建一种复杂的有向无环图,以便处理数据。”它让Hive和Pig可以简化复杂的任务,而这些任务原本需要多个步骤才能完成。

支持的操作系统:Windows、Linux和OSX。

18.Zookeeper

这种大数据管理工具自称是“一项集中式服务,可用于维护配置信息、命名、提供分布式同步以及提供群组服务。”它让Hadoop集群里面的节点可以彼此协调。

支持的操作系统:Linux、Windows(只适合开发环境)和OSX(只适合开发环境)。

二、大数据分析平台和工具

19.Disco

Disco最初由诺基亚开发,这是一种分布式计算框架,与Hadoop一样,它也基于MapReduce。它包括一种分布式文件系统以及支持数十亿个键和值的数据库。

支持的操作系统:Linux和OSX。

20.HPCC

作为Hadoop之外的一种选择,HPCC这种大数据平台承诺速度非常快,扩展性超强。除了免费社区版外,HPCCSystems还提供收费的企业版、收费模块、培训、咨询及其他服务。

支持的操作系统:Linux。

21.Lumify

Lumify归Altamira科技公司(以国家安全技术而闻名)所有,这是一种开源大数据整合、分析和可视化平台。你只要在Try.Lumify.io试一下演示版,就能看看它的实际效果。

支持的操作系统:Linux。

22.Pandas

Pandas项目包括基于Python编程语言的数据结构和数据分析工具。它让企业组织可以将Python用作R之外的一种选择,用于大数据分析项目。

支持的操作系统:Windows、Linux和OSX。

23.Storm

Storm现在是一个Apache项目,它提供了实时处理大数据的功能(不像Hadoop只提供批任务处理)。其用户包括推特、美国天气频道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard及其他许多公司。

支持的操作系统:Linux。

三、数据库/数据仓库

24.Blazegraph

Blazegraph之前名为“Bigdata”,这是一种高度扩展、高性能的数据库。它既有使用开源许可证的版本,也有使用商业许可证的版本。

25.Cassandra

这种NoSQL数据库最初由Facebook开发,现已被1500多家企业组织使用,包括苹果、欧洲原子核研究组织(CERN)、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他机构。它能支持超大规模集群;比如说,苹果部署的Cassandra系统就包括75000多个节点,拥有的数据量超过10PB。

26.CouchDB

CouchDB号称是“一款完全拥抱互联网的数据库”,它将数据存储在JSON文档中,这种文档可以通过Web浏览器来查询,并且用JavaScript来处理。它易于使用,在分布式上网络上具有高可用性和高扩展性。

支持的操作系统:Windows、Linux、OSX和安卓。

27.FlockDB

由推特开发的FlockDB是一种非常快、扩展性非常好的图形数据库,擅长存储社交网络数据。虽然它仍可用于下载,但是这个项目的开源版已有一段时间没有更新了。

28.Hibari

这个基于Erlang的项目自称是“一种分布式有序键值存储系统,保证拥有很强的一致性”。它最初是由GeminiMobileTechnologies开发的,现在已被欧洲和亚洲的几家电信运营商所使用。

29.Hypertable

Hypertable是一种与Hadoop兼容的大数据数据库,承诺性能超高,其用户包括电子港湾、百度、高朋、Yelp及另外许多互联网公司。提供商业支持服务。

支持的操作系统:Linux和OSX。

30.Impala

Cloudera声称,基于SQL的Impala数据库是“面向ApacheHadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载,又是Cloudera的商业大数据产品的一部分。

支持的操作系统:Linux和OSX。

31.InfoBright社区版

InfoBright为数据分析而设计,这是一种面向列的数据库,具有很高的压缩比。InfoBright.com提供基于同一代码的收费产品,提供支持服务。

支持的操作系统:Windows和Linux。

32.MongoDB

mongoDB的下载量已超过1000万人次,这是一种极其受欢迎的NoSQL数据库。MongoDB.com上提供了企业版、支持、培训及相关产品和服务。

支持的操作系统:Windows、Linux、OSX和Solaris。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,有兴趣的朋友,可以查阅多智时代,在此为你推荐几篇优质好文:

  1. 2018年最流行的5大开源项目,哪些你认为是最重要的?
  2. 推荐十款现今最受欢迎的数据可视化工具,供你参考
  3. 对于大数据开发的学习,最经典的学习路线是什么?

目前大数据工具主要哪些?相关推荐

  1. 分享Hadoop处理大数据工具及优势

    现如今,随着云计算技术.物联网技术的兴起,企业需要应对的数据规模越来越大.数据格式越来越复杂.数据收集速度越来越快,也使得它和传统意义的业务数据相比,有了明显的特点.比如ApacheHadoop已成为 ...

  2. 大数据(1)---全球100款大数据工具汇总(前50款)

    全球100款大数据工具汇总(前50款) 大数据 01  Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract.传输Transform.载入Load)开 ...

  3. Bossie Awards 开源大数据工具最佳列表

    在最佳开源大数据工具奖中,Google的TensorFlow和Beam无可置疑的入选,同时也有Spark,Elasticsearch,Impala,Kylin,Kafka,Zeppelin等市场热点, ...

  4. 大数据工具主要分为哪几类,每类中具体有哪些工具?

    如今,为了满足企业的主要需求,大数据工具正在迅速得到应用.在大数据技术作为概念和业务战略出现的十年中,涌现了执行各种任务和流程的数千种工具.而推出这些工具的提供商都承诺可以为企业节省时间和成本,并发现 ...

  5. 开发人员该选择什么大数据工具提高工作效率?

    开发人员该选择什么大数据工具提高工作效率? 海量数据使得数据分析工作变得繁重困难,开发人员选择合适的大数据工具来开发大数据系统成为新的挑战.因此开发人员要根据不同的数据处理方式对大数据工具进行分类. ...

  6. TOP 5大数据工具,掌握1个你就是专家

    欲善其事必利其器,想要把大数据工作做好,那就少不了几个得心应手的大数据工具.今天,圣普伦将和大家分享5个高薪专业大数据专家必备的5个大数据工具,只要掌握其中一种,你就成了专家. 1. Apache C ...

  7. 大数据工具千千万,到底谁才是最强王者?

    外面有成千上万的大数据工具.它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力.虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易. 哪一种工具适合你的技能组合?哪一种工 ...

  8. Java程序员在用的大数据工具

    问题:他们最近一年最喜欢用什么工具或者是框架? 受访者可以选择列表中的选项或者列出自己的,本文主要关心的是大数据工具.上一篇Java调查包括下列内容: 开发语言 Web框架 应用服务器 数据库工具 S ...

  9. 给 Java 开发者的 10 个大数据工具和框架

    给 Java 开发者的 10 个大数据工具和框架 当今IT开发人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂.根据外媒的一项调查报 ...

  10. 最适合Java开发者的大数据工具和框架

    http://www.xsh-gz.com/javatrain/20170104/2222.html 转自 最适合Java开发者的大数据工具和框架 发布时间: 2017-01-04 17:12:58 ...

最新文章

  1. mysql卸载后root还在_TMD终于把MySQL卸载掉了
  2. php动态网站开发报告,PHP动态网站开发pdf
  3. 使用8位字节的编码格式将字节流安全的转换成String
  4. arm集群服务器_百度云智峰会发布ARM私有云新品,加速企业在移动端上的数字化转型...
  5. 历届试题 合根植物(查并集,模板+优化)
  6. MapReduce:处理数据密集型文本处理–局部聚合第二部分
  7. 4 int.parse方法调用问题和同行评审
  8. oracle无效的关联运算符,菜鸟请教:关联操作符=>用法
  9. 调用某个按钮事件_Event 对象之事件句柄 (Event Handlers)
  10. k8s + 微服务,王炸!
  11. 想法越多越贫穷,赚钱的人,都是少想多干
  12. 美团败诉,赔偿饿了么 100 万元;华为 Mate X2 首发秒没;库克获 8 亿年终奖 | 极客头条...
  13. linux 目录提权,【安全科普】Linux提权——利用可执行文件SUID
  14. GDAL2.x与1.x的主要变化比较(以C++为例说明)
  15. js如何监听元素事件是否被移除_javascript:什么是js事件?(上)
  16. 第一篇:初识信息系统监理工程师
  17. 湖南科技大学web课程设计之网页聊天室的实现
  18. 笔记:torch的基本运算
  19. POI 导出Excel
  20. 高效开发:java对象转化成String类型的四种方法

热门文章

  1. 史上最强的下载器,没有之一
  2. [译] 网站设计综合指南
  3. python爬取酷狗音乐付费音乐包_一篇文章教会你使用Python网络爬虫下载酷狗音乐...
  4. Alex 的 Hadoop 菜鸟教程: 第3课 Hadoop 安装教程 - 非HA方式 (一台服务器)
  5. IDEA好看的主题安装
  6. oracle pl sql面试题,SQL面试:PL/SQL面试问题和答案大全
  7. debug使用方法(概念篇)
  8. python官方文档中文版下载,python官方手册中文pdf
  9. mysql dbutil_DBUtil详解
  10. java学习(eclipse环境的使用)