导读 对于许多大企业来说,开源大数据分析已经成为日常业务中一个必不可少的组成部分。据New Vantage Partners公司对《财富》1000强公司的高层主管开展的调查显示,如今62.5%的企业在生产环境中至少运行一种大数据工具或应用软件。这比2013年给出同样回复的企业数量高出近一倍,只有5.4%的受访企业没有大数据计划。

说到大数据分析,开源软件是常态,而不是异数。许多企业使用的一些领先工具由Apache基金会管理,许多商业工具至少一部分基于这些开源解决方案。

我们在本文中介绍了市面上12款顶尖的开源数据分析解决方案,其中一些为大数据分析提供了全面的端到端平台,另一些要与其他技术结合起来。它们都适合大企业使用,都是市面上领先的数据分析工具。

1. Hadoop

谈到开源数据分析技术,就不可能不提到Hadoop。Apache基金会的这个项目已经几乎成为大数据的同义词,它让企业能够大规模分布式处理极其庞大的数据集。TDWI和SAS联合开展的一项调查发现,近60%的企业预计在2016年年底之前会在生产环境中拥有Hadoop集群。

然而值得一提的是,Hadoop本身无法实现数据分析。它通常是从大数据获取洞察力的整个更庞大解决方案的一部分。

2. Spark

Spark也是Apache旗下的一个项目,它承诺可以迅速处理大数据。实际上,它声称“在内存中运行程序的速度比Hadoop MapReduce快100倍,在磁盘上运行程度的速度快10倍。”由于这种出色性能,它常常用于分析流式数据或用于需要交互式分析功能的应用软件中。许多公司经常把它与Hadoop或Mesos一起使用,不过它也能独立运行。最近,它的人气得到了急剧提升,Syncsort在2016年开展的一项调查发现,受访的企业大数据工作人员中近70%对Spark有兴趣。

3. Talend

不像前面两个项目,Talend由一家营利公司管理,而不是由基金会管理。因而,提供收费支付服务。Talend既提供免费产品,又提供收费产品。它免费的开源解决方案名为Talend Open Studio,下载量已超过了200万人次。

市场研究公司Gartner最近将Talend评为数据集成领域的“领导者”。这家公司声称,相比与之竞争的解决方案,它帮助企业分析大数据的速度快五倍,而成本却只有五分之一。

4. Jaspersoft

与Talend一样,Jaspersoft也有多个版本,有的版本免费,有的版本收费。社区版是免费、开源的,而Reporting版、AWS版、专业版和企业版需要收费,不过随带支持服务。

Jaspersoft是一款开源商业智能工具,旨在让企业用户可以借助自助服务,满足自己的要求。该公司声称,它的技术支持130000多款应用软件,提供嵌入式商业智能功能。

5. Pentaho

Pentaho自诩为“全面的数据集成和商业智能平台。”该公司主要大力推销它的商业版软件,该软件基于开源社区版。许多公司将它与Hadoop和Spark之类的工具一起使用,以便能够报告和显示大数据。该软件声称拥有一大批的知名客户,包括英国电信(BT)、卡特皮勒、纳斯达克、美国国土安全部、美国国家海洋和大气局(NOAA)、《纽约时报》、EMC及其他许多企业组织。

6. RapidMiner

RapidMiner声称是“头号开源数据科学平台”,Gartner将它评为高级分析魔力象限报告中的领导者。它能够实现自助式预测分析,承诺有望提升速度飞快的性能。用户包括宝马、汉莎航空、达美乐比萨公司、索尼、福特、Salesforce、国际特赦组织和通用电气公司。整个RadiMiner平台包括三个独立的组件:RapidMiner Studio、RapidMiner Server和RapidMiner Radoop。这三个组件都采用开源许可证或商业许可证,商业版价格取决于用户数量。

7. Storm

Apache Storm被雅虎、推特、Spotify、Yelp、Flipboard和Groupon之类的公司所使用,它是一种实时大数据处理引擎。它的官方网站解释:“Storm让用户很容易可靠地处理无限制的数据流,它在实时处理方面的功能好比Hadoop在批处理方面的功能。”客户可以将它与任何数据库或任何编程语言一起使用。它具有可扩展、容错、易于部分使用的优点。然而用户要注意的是,Storm还没有进入到1.0版本这个阶段。

8. H2O

H2O被60000多个数据科学家和7000多家企业组织所使用,声称是“世界上领先的开源机器学习平台。”由于它的内存技术,它提供了极其出色的性能。它还与Hadoop和Spark之类的其他许多开源数据分析工具整合起来,支持所有主要的流行数据库,提供收费的支持服务。

除了标准版的H2O外,该公司还提供Sparkling Water,这个版本整合了Spark和Steam,后者是一种端到端人工智能应用引擎。

9. Lumify

Lumify由一家名为Altamira 科技的公司开发,自称是“开源大数据分析和可视化平台。”它让用户易于创建二维或三维图形,可显示实体之间的关系,或在地图上覆盖数据。对于有兴趣深入了解它的工作原理的那些人来说,官方网站提供了几个视频,显示了Lumify的实际运行,上面还有一个演示网站,让用户可以上传自己的数据,并试用软件。

10. Drill

Apache Dril让用户得以使用SQL查询用于非关系型数据存储系统。它支持一系列NoSQL和基于云的数据存储系统,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。它还让用户可以使用单一查询,即可搜索用不同技术存储起来的多个数据集。此外,它支持许多流行的商业智能工具。

11. MongoDB

作为最知名的NoSQL数据库之一,MongoDB是一种开源非关系型数据存储解决方案。客户包括大都会人寿(MetLife)、芝加哥市、Expedia、谷歌、气象频道、BuzzFeed和Facebook。除了免费开源版外,该公司还提供一款收费的企业版和云托管的版本MongoDB Atlas。知名市场研究机构弗雷斯特研究公司将MongoDB评为大数据NoSQL领域的“领导者”。

12. SpagoBI

SpagoBI是一款开源商业智能和大数据分析平台。该软件完全免费,但还提供收费的用户支持、维护、咨询和培训等服务。它包括了用于报告、多维分析(OLAP)、图表、位置情报、数据挖掘、ETL(抽取转换和加载)及更多其他方面的工具。它还与流行的内存处理引擎整合起来,能够实现实时处理。

本文转载自:http://www.linuxprobe.com/12-valuable-data-analysis.html

免费提供最新Linux技术教程书籍,为开源技术爱好者努力做得更多更好:http://www.linuxprobe.com/

这12款开源数据分析应用软件值得关注相关推荐

  1. 12款开源数据资产(元数据)管理平台选型分析(一)

    两年前,在文章最全大数据开源组件思维导图中,整理了大数据生态的开源技术组件思维导图,至今有4K的下载量. 尽管数据行业的新词热度,由大数据平台->数据治理->数据中台->数字化转型( ...

  2. 阿里巴巴73款开源产品列表,值得收藏

    一.框架 react-web:Readt Web 是为那些使用 React Native 兼容的 API 构建的 Web 应用而提供的一个框架.React Web 的目的及意义非常明确: 让 Reac ...

  3. 十六款值得关注的NoSQL与NewSQL数据库--转载

    原文地址:http://tech.it168.com/a2014/0929/1670/000001670840_all.shtml [IT168 评论]传统关系型数据库在诞生之时并未考虑到如今如火如荼 ...

  4. python3项目源代码下载_2019年最值得关注的34个Python开源项目——Let's go!

    踏着人工智能.区块链的东风,近年来一路"横冲直撞"的 Python 在实现了从小众语言到主流的完美转身后,一头扎进了 2019,依旧没有透出丝毫停下来的架势,反倒有些越烧越热的味道 ...

  5. [转载]十六款值得关注的NoSQL与NewSQL数据库

    传统关系型数据库在诞生之时并未考虑到如今如火如荼的移动.社交以及大数据负载类型,同时也并不适合处理极端规模处理任务.不过大家不必担心,十六家专业企业已经为我们带来他们各自的次世代NoSQL与NewSQ ...

  6. GitHub 上都有哪些值得关注学习的 iOS 开源项目?

    GitHub 上都有哪些值得关注学习的 iOS 开源项目?修改 如果仅按照 GitHub 月流行查看 Objective-C 项目的话有 ── Trending Objective-C reposit ...

  7. 2010最值得关注的10款小众互联网产品

    2010年还有几天就要结束了,和往年一样,在每年的这个时候都会由我从过去365天诞生的若干互联网产品中,精挑细选出10款也许最值得大家跟我一起去回味和关注的创新并且小众互联网产品.感谢这些值得尊敬和信 ...

  8. GitHub 上值得关注的 iOS 开源项目

    GitHub 上值得关注的 iOS 开源项目 原文链接:http://www.jianshu.com/p/e5dfe1a09611 GitHub 上值得关注的 iOS 开源项目 -- 由 红旗下的蛋  ...

  9. vs2017c#开源项目_2017年值得关注的开源项目

    vs2017c#开源项目 没有人拥有水晶球可以看到技术的未来. 即使是对于公开​​开发的项目,仅凭代码也无法告诉我们项目是否注定要成功,但在此过程中仍存在一些提示. 例如,假设将有助于塑造我们未来的项 ...

  10. 值得关注的5款“企业级低代码开发平台”推荐

    优质的"企业级低代码开发平台"该如何评估? 企业级低代码作为平台层的一员,其对应的核心价值是:提升应用软件开发效率 和 降低应用软件开发门槛. 由企业级低代码的核心价值还可衍生出两 ...

最新文章

  1. 神经网络基础知识梳理
  2. ISME:污水厂抗性组受细菌组成和基因交换驱动且出水中抗性表达活跃
  3. Altium designer中元器件重新编号,会残留之前的编号,浅色有括号——消除办法
  4. c++ setstate() 和 clear() 函数
  5. ABAP Pragma
  6. Linux CentOS安装zsh插件提示/usr/bin/env: python: No such file or directory。
  7. Redis:12---有序集合对象
  8. 限制MySQL Binlog的传输速率
  9. c++ stl 获取最小值_如何在C ++ STL中找到向量的最小/最小元素?
  10. 大话IT第13期:2011年云计算市场年中盘点
  11. 【直观理解】粒子滤波 原理及实现
  12. 新浪微博html5模板,个人主题建站首选微博秀模板,仿新浪微博官网
  13. 计量经济学第六版伍德里奇计算机答案,求伍德里奇计量经济学答案第六版
  14. 单总线led驱动芯片WS2811在linux下的驱动
  15. Win10 wifi、蓝牙打不开
  16. 如何合并两个excel表格数据
  17. Fedora13装nividia驱动
  18. 回声状态网络(ESN)实现手写数字识别(MNIST)
  19. Python科学计算-Numpy和Pandas学习笔记(一)-安装、Numpy属性和常用方法(chaochao`s Blog)
  20. 在ubuntu18.04 上使用键盘鼠标共享软件 Synergy

热门文章

  1. 如何对 ABAP 数据库表通过 ABAP 代码进行更新和删除操作试读版
  2. 【元胞自动机】基于matlab元胞自动机考虑驾驶行为的自动—求解手动驾驶混合交通流问题【含Matlab源码 2060期】
  3. multisim扩大工作区_最详细最好的Multisim仿真教程要点
  4. VS2012安装教程
  5. 高效办公必备神器-Keychron键盘,值得拥有
  6. 天涯明月刀登录的界面服务器显示,上述便是Win10系统下登录天涯明月刀提示异地登录不了的详细解决方法了...
  7. 爆肝一周,用Python在物联网设备上写了个智能语音助手-阿里云智能对话机器人
  8. MongoDB的安装启动
  9. qq群管机器人php,常用几款QQ群管机器人软件功能和体验对比
  10. Dev cpp的使用