Qubole评论:自助式大数据分析
Qubole被称为是用于分析,人工智能和机器学习的云原生数据平台,为客户参与,数字转换,数据驱动的产品,数字营销,现代化和安全智能提供解决方案。 它实现了快速的价值实现,多云支持,10倍的管理员生产力,1:200的运营商与用户比率以及更低的云成本。
根据我对平台的简要经验,Qubole实际要做的是集成许多开源工具和一些专有工具,以为数据分析师,数据工程师创建基于云的自助式大数据体验和数据科学家。
[ TensorFlow机器学习入门 。 • TensorFlow 2评估:更轻松的端到端机器学习 。 •查看最新版本的TensorFlow中的新增功能 。 | 通过InfoWorld机器学习和分析报告时事通讯 ,深入研究机器学习,人工智能和大数据分析。 ]
Qubole将带您从ETL开始,进行探索性数据分析和模型构建,再到按生产规模部署模型。 在此过程中,它可以自动执行许多云操作,例如资源调配和扩展,否则可能需要大量的管理员时间。 对于任何特定的公司或用例,这种自动化是否实际上将使管理员的生产率提高10倍,还是操作人员与用户的比例为1:200尚不清楚。
Qubole倾向于强调“活动数据”的概念。 基本上,大多数数据湖(实际上是文件存储,其中填充了来自许多源的数据,全部都集中在一个地方而不是一个数据库中),很少有数据被主动用于分析。 Qubole估计大多数数据湖的活动性为10%,非活动状态为90%,并预测它可以逆转该比率。
Qubole的竞争对手包括Databricks,AWS和Cloudera。 还有许多其他产品只能与Qubole的某些功能竞争。
Databricks在集群管理器和Spark的基础上构建笔记本,仪表板和作业; 当我在2016年对其进行评论时 ,我发现它对数据科学家来说是一个有用的平台。Databricks最近开放了其Delta Lake产品的开源,该产品提供ACID事务,可伸缩的元数据处理以及对数据湖的统一流和批处理数据处理,以使其更加可靠。并帮助他们进行Spark分析。
AWS有各种各样的数据产品,实际上Qubole支持与其中许多产品集成。 现在包括Hortonworks在内的Cloudera提供数据仓库和机器学习服务以及数据中心服务。 Qubole声称Databricks和Cloudera都缺乏财务治理,但是您可以自己在单云级别或通过使用多云管理产品来实施治理。
Qubole的工作原理
Qubole将其所有工具集成在基于云和基于浏览器的环境中。 我将在本文的下一部分中讨论环境的各个部分。 在本节中,我将重点介绍工具。
Qubole将成本控制作为其集群管理的一部分。 您可以指定集群使用实例类型的特定组合,包括现货实例(如果可用)以及用于自动缩放的最小和最大节点数。 您还可以指定任何群集在没有负载的情况下继续运行的时间长度,以避免出现“僵尸”实例。
火花
在他8月份的InfoWorld文章“ Qubole如何解决Apache Spark的挑战”中 ,Qubole的首席执行官Ashish Suchoo讨论了Spark的好处和陷阱,以及Qubole如何补救诸如配置,性能,成本和资源管理之类的难题。 对于数据科学家来说,Spark是Qubole的关键组件,可以轻松快速地进行数据转换和机器学习。
普雷斯托
Presto是一个开放源代码的分布式SQL查询引擎,用于对各种大小(从千兆字节到PB大小)的数据源运行交互式分析查询。 Presto查询的运行速度比Hive查询快得多。 同时,Presto可以查看和使用Hive元数据和数据架构。
蜂巢
Apache Hive是Hadoop生态系统中一个受欢迎的开源项目,它有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已经存储的数据上。 配置单元查询执行通过Apache Tez,Apache Spark或MapReduce运行。 Hive on Qubole可以进行工作负载感知的自动缩放和直接写入; 开源Hive缺乏这些面向云的优化。
Qubole的创建者也是Apache Hive的创建者。 他们在Facebook上创立了Hive,并于2008年开源。
量子
Quantum是Qubole自己的无服务器,自动缩放,交互式SQL查询引擎,支持Hive DDL和Presto SQL。 Quantum是一种即用即付的服务,对于散布在很长一段时间内的零星查询模式具有成本效益,并且具有严格的模式来防止意外支出。 昆腾使用Presto,并补充了Presto服务器群集。 量子查询仅限于45分钟的运行时间。
空气流动
Airflow是基于Python的平台,可通过编程方式创作,安排和监视工作流程。 工作流程是任务的有向无环图(DAG)。 您可以通过用Python代码编写管道来配置DAG。 Qubole提供Airflow作为其服务之一; 它通常用于ETL。
新的QuboleOperator可以像其他任何现有Airflow操作器一样使用。 在工作流中执行操作员期间,它将向Qubole Data Service提交命令,并等待命令完成。 Qubole支持文件和Hive表传感器,Airflow可以使用它们来以编程方式监视工作流。
要查看Airflow用户界面,您首先需要启动一个Airflow集群,然后打开集群页面以查看Airflow网站。
红宝石
RubiX是Qubole的轻量级数据缓存框架,可以由使用Hadoop文件系统接口的大数据系统使用。 RubiX旨在与Amazon S3和Azure Blob存储等云存储系统配合使用,并在本地磁盘上缓存远程文件。 Qubole已将RubiX开源 。 在Qubole中启用RubiX只需选中一个复选框即可。
Qubole是做什么的?
Qubole提供了一个用于分析和数据科学的端到端平台。 该功能分布在十几个模块中。
浏览模块可让您查看数据表,添加数据存储并设置数据交换。 在AWS上,您可以查看数据连接,S3存储桶和Qubole Hive数据存储。
通过“分析”和“工作台”模块,您可以对数据集运行临时查询。 Analyze是旧界面,而Workbench是新界面,当我尝试它时仍处于beta版本。 这两个界面都允许您将数据字段拖放到SQL查询中,并选择用于运行操作的引擎:Quantum,Hive,Presto,Spark,数据库,shell或Hadoop。
Smart Query是Hive和Presto的基于表单的SQL查询构建器。 模板允许您重复使用参数化的SQL查询。
笔记本电脑是基于Spark的Zeppelin或用于数据科学的(测试版)Jupyter笔记本电脑。 仪表板提供了一个界面,用于共享您的浏览记录,而不允许您访问笔记本。
通过Scheduler,您可以定期自动运行查询,工作流,数据导入和导出以及命令。 这可以补充您可以在“分析”和“工作台”模块中运行的即席查询。
群集模块允许您管理Hadoop / Hive,Spark,Presto,Airflow和深度学习(beta)服务器的群集。 使用情况可让您跟踪集群并查询使用情况。 通过控制面板,您可以自己配置平台,也可以在拥有系统管理权限的情况下配置其他平台。
Qubole端到端演练
我经历了导入数据库,创建Hive模式以及使用Hive和Presto分析结果的过程,并分别在Spark笔记本中进行了演练。 我还查看了用于相同过程的Airflow DAG,以及用于通过Spark对不相关的数据集进行机器学习的笔记本。
Qubole的深度学习
我们已经看到Qubole中的数据科学达到了经典机器学习的水平,但是深度学习又如何呢? 在Qubole中完成深度学习的一种方法是在笔记本中插入Python步骤,以导入诸如TensorFlow之类的深度学习框架,并将其用于Spark已经设计的数据集。 另一个假设您的Qubole安装在AWS上运行,则从笔记本或Airflow调出Amazon SageMaker 。
您在Qubole中所做的大多数事情都不需要在GPU上运行,但是深度学习通常确实需要GPU,以允许培训在合理的时间内完成。 Amazon SageMaker通过在单独的集群中运行深度学习步骤来解决此问题,您可以根据需要配置这些集群中的节点和GPU。 Qubole还提供了机器学习集群(测试版); 在AWS上,这些允许使用Nvidia GPU加速g型和p型工作器节点;在Google Cloud Platform和Microsoft Azure上,它们允许等效的加速工作器节点。
云中的大数据工具包
Qubole是用于分析和机器学习的云原生数据平台,可帮助您将数据集导入数据湖,使用Hive构建架构以及使用Hive,Presto,Quantum和Spark查询数据。 它同时使用笔记本电脑和Airflow来构建工作流程。 它还可以调出其他服务并使用其他库,例如Amazon SageMaker服务和TensorFlow Python库进行深度学习。
Qubole通过控制集群中实例的混合,按需启动和自动扩展集群以及在不使用集群时自动关闭集群,来帮助您管理云支出。 它可在AWS,Microsoft Azure,Google Cloud Platform和Oracle Cloud上运行。
总体而言,Qubole是利用(或“激活”)数据湖,隔离的数据库和大数据的一种很好的方法。 您可以选择带有示例数据的AWS,Azure或GCP, 免费试用14天的Qubole驱动器 。 您还可以使用自己的云基础架构帐户和自己的数据为最多五个用户和一个月安排一次免费的功能齐全的试用版。
-
费用:免费提供测试和试用帐户。 企业平台,每个QCU(Qubole计算单元)每小时$ 0.14。
平台: Amazon Web Services,Google Cloud Platform,Microsoft Azure,Oracle Cloud。
From: https://www.infoworld.com/article/3449896/qubole-review-self-service-big-data-analytics.html
Qubole评论:自助式大数据分析相关推荐
- Quick BI助力云上大数据分析---深圳云栖大会
摘要: 在3月29日深圳云栖大会的数据分析与可视化专场中,阿里云产品专家陌停对大数据智能分析产品 Quick BI 进行了深入的剖析.大会现场的精彩分享也赢得观众们的一直认可和热烈的反响. 大数据分析 ...
- Quick BI助力云上大数据分析---深圳云栖大会 1
在3月29日深圳云栖大会的数据分析与可视化专场中,阿里云产品专家陌停对大数据智能分析产品 Quick BI 进行了深入的剖析.大会现场的精彩分享也赢得观众们的一直认可和热烈的反响. 大数据分析之路的挑 ...
- 石油和天然气行业的大数据分析:新兴趋势Big Data analytics in oil and gas industry: An emerging trend
文章目录 A B S T R A C T 1. Introduction 2. Big Data analytics 2.1. Big Data definition 2.2 Big Data met ...
- python 豆瓣评论数据分析_Python爬虫实战案例:豆瓣影评大数据分析报告之网页分析...
个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...
- 毕业设计之 - 大数据分析:电商产品评论数据情感分析
文章目录 1 简介 数据分析目的 数据预处理 评论去重 数据清洗 分词.词性标注.去除停用词 提取含名词的评论 绘制词云¶ 词典匹配 评论数据情感倾向分析 修正情感倾向 LinearSVC模型预测情感 ...
- Google BigQuery——企业级大数据分析工具
Google本月初发布了企业级大数据分析的云服务--BigQuery为正式付费产品,这是Google迈向企业级云计算领域的关键一步.BigQuery本质上是一个云平台基础服务PaaS,旨在实时处理TB ...
- 谷歌大数据三篇论文标题_抖音短视频标题怎么写才能上热门?起标题的3个实操步骤,大数据分析爆款标题的套路...
抖音短视频运营学习路线图,带你全面系统性学习抖音短视频运营! 第十一篇:抖音短视频标题撰写技巧. 1.了解视频标题应该具备的特点. 2.掌握起视频标题的3个实操步骤. 3.掌握起视频标题的注意事项. ...
- 微软发布研究报告:企业数据管理普遍混乱,揭秘大数据分析趋势以及PowerBI的崛起机遇...
本文非常重要,忽略者责任自负.我们时常看到很多新闻说企业的数据分析或大数据如何如何高大上,但你自己感觉你自己所处的环境呢?很多小伙伴在群里真切的抱怨到:感觉是一坨祥云.为什么你看到的和你感受到的有如此 ...
- python金融大数据分析视频_Python金融大数据分析 PDF 全书超清版
给大家带来的一篇关于Python相关的电子书资源,介绍了关于Python金融.大数据分析方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小47.8 MB,希尔皮斯科编写,目前豆瓣.亚马逊. ...
最新文章
- 使用OKR管理好团队这四个高深的技巧要明白
- 分页类实例 java
- 清空 linux 服务器,Linux服务器清理
- 虎牙AI基础技术部招聘深度学习/计算机视觉实习生
- Android 8.0 linux内核,在Ubuntu上为Android增加硬件抽象层(HAL)模块访问Linux内核驱动程序---Android8.0版本实现-对照老罗版本...
- NYOJ-聪明的kk(dp)
- python语言特点多模型_利用CRF模型进行文本分类完整教程(Python语言)
- iOS开发之YYKit丰富的组件,如:YYText
- 嵌入式视频处理考虑(二)
- python3socket非阻塞在linux里无效_Linux Socket - 内核非阻塞功能
- 免费的高匿名爬虫代理池不求人|高可用、高匿名、代理池详解及搭建推荐
- 成就更好的自己,就是不停地做减法
- 显卡的各种故障维修方法
- 《禅与摩托车维修艺术》读后感第一篇
- java理论_java入门——基础理论
- ios 自动打包命令_iOS Xcode 自动打包,一键上传AppStore脚本
- 2,4-二硝基苯磺酰基(DNBS)修饰BODIPY染料识别GSH/溶酶体
- oracle字段名命名规范,oracle 表字段命名规范
- 为什么负责任的技术始于数据治理
- 教你一招,能解决90%的机房问题