hadoop大数据平台

Hadoop分布式文件系统,MapReduce编程框架以及用于在大型商用硬件集群上处理海量数据集的扩展工具系列,在十多年来,Hadoop一直是“大数据”的同义词。 但是,没有任何技术可以永远吸引人们的注意。

尽管Hadoop仍然是大数据平台的重要组成部分,但主要的Hadoop供应商(即Cloudera,Hortonworks和MapR)已经大大改变了他们的平台。 曾经作为外围项目的Apache Spark和Apache Kafka等已成为新的明星,并且焦点已转向其他方法来钻取数据并提取见解。

[InfoWorld的要点: 什么是Apache Spark? 大数据分析平台介绍了以下内容 • Spark教程:Apache Spark入门 • 什么是数据挖掘? 分析如何发现见解 。 | 通过《 InfoWorld日报》时事通讯了解最新的企业技术中的关键新闻和问题。 ]

让我们简要浏览一下三个领先的大数据平台,每种技术都将Hadoop技术加进来以使其与众不同,以及它们如何演变以拥抱容器,Kubernetes,机器学习和深度学习的新时代。

Cloudera企业数据中心

Cloudera是第一个通过Hadoop发行版进入市场的公司-不足为奇的是,它的核心团队由曾在Yahoo,Google和Facebook等地方利用Hadoop的工程师组成。 Hadoop共同创建者Doug Cutting担任首席架构师。

公司与Cloudera企业数据中心(EDH)的战略是“策划和扩展” Hadoop生态系统中的开源项目,以提供商业许可的平台,其中企业级支持和服务是价格的一部分。 该公司还提供称为Cloudera Data Hub(CDH)的开源,免费使用的Hadoop发行版。 此外,Cloudera还提供了EDH的60天试用版,作为入门的另一种方法。

在哪里下载Cloudera

Cloudera提供了多种下载和使用CDH的方式 。 VM和Docker映像可用于在本地运行EDH; Cloudera Manager可以用于在集群上部署CDH和EDH(包括试用版)。 Cloudera Director可以通过AWS快速入门部署到云环境中,其中包括Amazon。

Cloudera的独特功能

Cloudera一直以Apache Spark和与Spark相关的项目为中心,这是其发行的核心。 充分利用统一分析引擎的优势,Cloudera分别利用Spark Streaming,Spark MLlib和Spark SQL进行实时流数据,机器学习和SQL风格的数据查询。

Cloudera提供的一项重要增值是其Cloudera Navigator软件,这是一组专有的数据治理,管理和优化工具。 Cloudera Navigator跟踪组织中数据的来源以进行管理,合规性和审计,提供持续的数据工作量使用情况统计信息,并建议匹配的数据放置策略。

Cloudera EDH的本地机器学习方面仅限于Spark MLlib。 例如,对TensorFlow的本机支持不是广告的EDH功能。 但是,Cloudera Data Science Workbench产品为EDH提供了用户友好的数据科学前端,最终用户可以在EDH与TensorFlow等框架之间创建自己的集成。

Hortonworks数据平台

Hortonworks数据平台(HDP)是纯开源Hadoop发行版。 产品本身可以免费使用。 Hortonworks的企业客户为支持服务付费,并获得了主动的故障排除工具(其本身是专有的)来避免将来的问题。

何处下载Hortonworks

Hortonworks网站提供了多种格式的HDP下载 。 自动化安装程序可以在各种本地或云体系结构上部署HDP,而RPM可用于那些想要手动部署的人。 HDP的早期版本可作为Hortonworks Sandbox版本获得,它们是预配置的HDP环境,打包在虚拟机中,供开发人员测试使用。

Hortonworks的独特功能

现在已在GA中发布的HDP 3.0包括针对云环境和云原生数据存储格式(例如Amazon S3和Google Cloud Storage)的自动配置; 借助Apache Hive的交互式SQL查询功能,并支持基于GPU的处理。

最重要的新功能涉及容器。 Docker容器中的应用程序可以作为YARN作业与传统Hadoop工作负载并行运行。 在Docker容器中进行部署是确保作业可以使用特定版本的语言运行时运行的有用方法。 也可以通过YARN上的Kubernetes在Kubernetes上运行容器,其中YARN用作Kubernetes中的调度程序。

当前可作为技术预览使用的另一项新功能使您可以在整个HDP集群的容器中部署TensorFlow深度学习应用程序。 显然,这是将HDP变成端到端机器智能平台的一步。

MapR融合数据平台

MapR的旗舰产品在2016年更名为“ MapR融合数据平台”,就其许可而言位于Hortonworks和Cloudera之间。 MapR具有完全开源的社区发行版,可以免费使用,但也提供具有高可用性,数据快照,灾难恢复,技术支持和其他企业级功能的付费企业版。

在哪里下载MapR

MapR提供了一个安装程序包,以部署社区版或企业版 。 云部署可直接用于全球的AWS,Microsoft Azure,Google Cloud和其他云提供商。 MapR还提供了“沙盒”版本 ,其中包含适用于VMware或VirtualBox的虚拟机映像。

独特的MapR功能

MapR融合数据平台包括三个主要组件:MapR-FS文件系统(实质上是将多个数据存储范例透明地集成到包括Hadoop的HDFS在内的文件系统接口中); NoSQL样式的文档数据库; 以及与Apache Kafka兼容的事件流引擎。

这个与Kafka兼容的MapR Streams事件流引擎是MapR的另一个主要特色,它着重于在线,流,实时和边缘处理方案。 一个名为MapR Edge的MapR的小尺寸版本旨在在IoT场景中处理数据。

MapR已在其平台中腾出空间以适应容器和机器学习这两个最近的重要趋势。 可以使用Kubernetes调度Docker映像并在整个MapR集群上运行Docker映像,并且MapR提供了Kubernetes卷驱动程序,该驱动程序允许这些容器直接连接到MapR-FS资源。

翻译自: https://www.infoworld.com/article/3290344/3-big-data-platforms-look-beyond-hadoop.html

hadoop大数据平台

hadoop大数据平台_Hadoop之外的3个大数据平台相关推荐

  1. 学习笔记(01):大数据视频_Hadoop视频教程(上)-大数据课程

    立即学习:https://edu.csdn.net/course/play/19912/254968?utm_source=blogtoedu 1

  2. Hadoop之外的3个大数据平台

    Hadoop分布式文件系统,MapReduce编程框架以及用于在大型商用硬件集群上处理海量数据集的扩展工具系列,在十多年来,Hadoop一直是"大数据"的同义词. 但是,没有任何技 ...

  3. 阿里巴巴计算平台资深技术专家“一浪”对大数据领域近几年的技术趋势和变化的看法【强烈推荐数据岗细细品!】

    导读:计算和存储分离是近几年大数据架构领域颇受关注的一个技术风向.在对刚刚过去的 2019 天猫双 11 技术进行总结时,阿里巴巴 CTO 行癫也特别提到了阿里在计算存储分离上的进展.大数据最初兴起之 ...

  4. 大数据平台常用组件_这款大数据智能服务平台火了!全自动化配置30+款开源大数据组件...

    在互联网市场的头部效应下,企业所面临的竞争压力越来越大,如何有效解决获客成本高.用户黏性低.变现能力弱等问题,正是越来越多的企业开始构建大数据平台的初衷.但由于大数据解决方案所涉及的组件错综复杂.技术 ...

  5. 大数据平台搭建_一文读懂数据平台、大数据平台、数据中台

    作者 | June 来源 | 智领云科技(ID:LinkTimeCloud) 造概念,在 IT 行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩, ...

  6. 诸葛io的技术架构图_大数据平台的技术演化之路 诸葛io平台设计实例

    作者简介:本文来自诸葛io创始人孔淼的技术分享.诸葛io是业内领先的智能数据决策平台,也是国内早期的数据分析践行者.本文将从诸葛io平台设计实例,分享大数据平台的技术演化之路. 如今,数据分析能力正逐 ...

  7. 在线教育大数据营销平台实战(一):大数据平台构建实战

    作者介绍 Tigerhu 在线教育公司大数据营销产品线负责人. 本人目前在一家在线教育公司担任大数据营销产品负责人,由于一些机缘巧合,我同时负责了数据产品线和营销CRM产品线,因此给了我更多的机会去思 ...

  8. 从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

  9. 大数据平台的服务内容以及猛犸大数据平台近期的思考【摘录】

    猛犸大数据平台经过去年一年的快速发展,已成为公司内多个产品的大数据开发工具的首选,作为一个当初定位为开发门户的这样一个平台网站,以调度管理为核心,将公司内已有的大数据工具进行了整合,提供了可视化的操作 ...

  10. 大数据平台的技术演化之路 诸葛io平台设计实例

    如今,数据分析能力正逐渐成为企业发展的标配,企业通过数据分析的过程将数据中的信息提取出来,进行处理.识别.加工.呈现,最后成为指导企业业务发展的知识和智慧.而处理.识别.加工.呈现的过程从本质上来讲, ...

最新文章

  1. 再发布一个windows live writer 插件 图标信息框 wlw plugin icon info frame
  2. IQKeyboardManager使用方法
  3. Appium定位元素的几种方法总结
  4. jQuery 遍历后代
  5. Spring IOC之依赖
  6. php sqlite3 sql,在PHP中准备SQLite SQL语句
  7. Sql Server常用函数及技巧
  8. Ffmpeg快速应用开发
  9. 【毕设】JAVA+SQL办公自动化系统(源代码+论文+外文翻译)
  10. python随机生成两个一维数组_如何用python随机产生一个一维数组
  11. Android常用权限permission列表摘录
  12. IDEA使用SVN上传项目
  13. 外行人都能看得懂的机器学习,错过了血亏!
  14. 笔记本计算机内部部件,笔记本内部硬件构造有哪些
  15. PCB叠层排布原则以及AD中如何设计叠层
  16. RFID图书馆管理系统的优势有哪些
  17. Python + qrcode 实现文字转二维码
  18. 【线性代数】上三角矩阵/下三角矩阵
  19. 安卓一体机开发板,安卓主板广告机
  20. IDEA创建mybatis的xml文件

热门文章

  1. iPhone 11 820-01523 N104手机电路原理图+位号图
  2. 如何用猿大师播放器把海康威视硬盘录像机截取MP4视频在web页面上回放?支持本地和远程视频吗?
  3. 阻抗匹配(一):信号发生器
  4. bolt界面引擎学习笔记一
  5. maven 压缩html,YUI Compressor Maven插件压缩 js、css并输出war包
  6. DOS那一代的程序员现在都干嘛呢?
  7. C#-WPF实现抽屉效果抽屉式风格主题框架源码-使用MaterialDesignThemes实现WPF炫酷漂亮的效果-提供Demo下载
  8. C语言小项目----图书馆管理系统
  9. 视频流媒体推流平台EasyRTMP安卓版使用前置摄像头推流发现画面镜像怎么办?
  10. VS2013 ConsoleApplication1.exe”(Win32):无法查找或打开 PDB 文件。