http://my.csdn.net/my/mycsdn

大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术。

1.Hadoop——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。

2.Spark——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

3.NiFi——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用、强大、可靠、高可配置。两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。

4.Apache Hive 2.1——Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。随着最新版本的发布,性能和功能都得到了全面提升,Hive已成为SQL在大数据上的最佳解决方案。

5.Kafka——Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统在异步和分布式消息之间的最佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala,它都提供了强大的粘合作用。

6.Phoenix—是HBase的SQL驱动。目前大量的公司采用它,并扩大其规模。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。

7.Zeppelin——Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

8.Sparkling Water——H2O填补了Spark’s Machine Learning的缺口,它可以满足你所有的机器学习。

9.Apache Beam——在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学习太多框架。

10.Stanford CoreNLP——自然语言处理拥有巨大的增长空间,斯坦福正在努力增进他们的框架。

盘点最受欢迎的十个开源大数据技术相关推荐

  1. 时下最热开源大数据技术TOP10

    文章讲的是时下最热开源大数据技术TOP10,眼下大数据成为最热技术,并且呈现爆炸式增长.全世界的新项目雨后春笋般的出现.对于这些新的公司.项目来说,利好就是所有可用的技术是开放源代码的,直接采用. 海 ...

  2. 开源大数据技术社区召集令

    引子 Hadoop生态技术已经俨然成为大数据事实标准,为了给广大同学.朋友提供一些交流学习的环境,沉淀大数据技术相关的资料,特别发起此次关注活动. 社群 技术交流钉钉大群 阿里云 HBase+Spar ...

  3. 九种引人瞩目的开源大数据技术

    1.Apache Hadoop Apache hadoop是一个开源的分布式计算框架,最初由Doug为支持其开源Web搜索引擎Nutch所创立.通过集成MapReduce技术,Hadoop将大数据分布 ...

  4. 非主流大数据技术工具,主要有哪几个?

    大数据的生态系统如今已经非常庞大,涌现大量主流数据处理框架如Hadoop.Spark.Flink.Google的Tensorflow以及其他不计其数的Apache开源项目(最受欢迎的十个开源大数据技术 ...

  5. 2022开源大数据热力报告总结

    文章目录 如何定量分析"后Hadoop时代"开源项目和技术趋势 热力值研究模型 开源大数据热力的"摩尔定律" 热力趋势一:用户需求多样化推动技术多元化 热力趋势 ...

  6. 《Spark大数据分析:核心概念、技术及实践》大数据技术一览

    本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章 ...

  7. 【大数据】企业级大数据技术体系概述

    目录 产生背景 常见应用场景 企业级大数据技术框架 数据收集层 数据存储层 资源管理与服务协调层 计算引擎层 数据分析层 数据可视层 企业级大数据技术实现方案 Google 大数据技术栈 Hadoop ...

  8. 程序员需要关注的十个大数据技术

    大数据已然成为当今最热门的技术之一,正呈爆炸式增长.每天来自全球的新项目如雨后春笋般涌现.幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术. 大数据 h ...

  9. 《大数据》杂志——大数据技术发展的十个前沿方向(中)

    大数据技术发展的十个前沿方向(中) 吴甘沙 英特尔中国研究院 doi:10.11959/j.issn.2096-0271.2015034 Ten Fronties for Big Data Techn ...

最新文章

  1. linux+tomcat+oracle_第二步
  2. 一个历史遗留问题,引发的linux内存管理的‘血案’
  3. quartz获取开始结束时间_Springboot集成quartz
  4. Android P 开发者预览版
  5. Oracle 中取当前日期的上个月最后天和第一天
  6. M1 Mac 档案的临时暂存区工具: Yoink
  7. 混合线性规划matlab,matlab求解混合的非线性规划软件说明
  8. oracle命令切换用户,Oracle 常用命令
  9. 图片文字识别如何实现
  10. GPS vs DGPS (差分GPS)
  11. Java中Number类详解
  12. linux中ctrl+c、ctrl+z、ctrl+d、ctrl+l快捷键的使用
  13. 谭松韵被造谣ee文件与服务器,黄磊何炅心疼谭松韵被造谣!从和张子枫相处看出人品!...
  14. java如何对list进行深度复制
  15. 工行二维码支付时代来了
  16. 黑苹果 10G 网卡(intel Aquantia)解决方案及big sur 11.x 下驱动方式
  17. 水仙花数(所有自幂数)的实现详解-C语言
  18. 程序人生 - 只要看这一篇,车险全搞懂(值得收藏)
  19. 中医针灸学综合练习题库【6】
  20. 自动上色论文《Deep Exemplar-based Colorization》(1)

热门文章

  1. 锁定计算机好在下游戏吗,巧用win7锁定计算机 防止孩子沉迷游戏
  2. KVM中I/O设备直接分配和SR-IOV(十六)
  3. 1071 mysql_mysql 出现1071错误怎么办
  4. 记一次递归在我项目中所发挥的作用
  5. F - Tmutarakan Exams URAL - 1091 -莫比乌斯函数-容斥 or DP计数
  6. 稀疏表示字典的显示(MATLAB实现代码)
  7. SQL语句order by两个字段同时排序
  8. gulp复制整个文件夹或文件到指定目录(包括拷贝单个文件)
  9. Docker学习笔记之二,基于Dockerfile搭建JAVA Tomcat运行环境
  10. C语言中do...while(0)用法小结