Qubole被称为是用于分析,人工智能和机器学习的云原生数据平台,为客户参与,数字转换,数据驱动的产品,数字营销,现代化和安全智能提供解决方案。 它实现了快速的价值实现,多云支持,10倍的管理员生产力,1:200的运营商与用户比率以及更低的云成本。

信息世界

根据我对平台的简要经验,Qubole实际要做的是集成许多开源工具和一些专有工具,以为数据分析师,数据工程师创建基于云的自助式大数据体验和数据科学家。

[ TensorFlow机器学习入门 。 • TensorFlow 2评估:更轻松的端到端机器学习 。 •查看最新版本的TensorFlow中的新增功能 。 | 通过InfoWorld机器学习和分析报告时事通讯 ,深入研究机器学习,人工智能和大数据分析。 ]

Qubole将带您从ETL开始,进行探索性数据分析和模型构建,再到按生产规模部署模型。 在此过程中,它可以自动执行许多云操作,例如资源调配和扩展,否则可能需要大量的管理员时间。 对于任何特定的公司或用例,这种自动化是否实际上将使管理员的生产率提高10倍,还是操作人员与用户的比例为1:200尚不清楚。

Qubole倾向于强调“活动数据”的概念。 基本上,大多数数据湖(实际上是文件存储,其中填充了来自许多源的数据,全部都集中在一个地方而不是一个数据库中),很少有数据被主动用于分析。 Qubole估计大多数数据湖的活动性为10%,非活动状态为90%,并预测它可以逆转该比率。

Qubole的竞争对手包括Databricks,AWS和Cloudera。 还有许多其他产品只能与Qubole的某些功能竞争。

Databricks在集群管理器和Spark的基础上构建笔记本,仪表板和作业; 当我在2016年对其进行评论时 ,我发现它对数据科学家来说是一个有用的平台。Databricks最近开放了其Delta Lake产品的开源,该产品提供ACID事务,可伸缩的元数据处理以及对数据湖的统一流和批处理数据处理,以使其更加可靠。并帮助他们进行Spark分析。

AWS有各种各样的数据产品,实际上Qubole支持与其中许多产品集成。 现在包括Hortonworks在内的Cloudera提供数据仓库和机器学习服务以及数据中心服务。 Qubole声称Databricks和Cloudera都缺乏财务治理,但是您可以自己在单云级别或通过使用多云管理产品来实施治理。

IDG

Qubole体系结构概述。 请注意,蓝色方框的下半部分显示了所包含的六个开源大数据产品。

Qubole的工作原理

Qubole将其所有工具集成在基于云和基于浏览器的环境中。 我将在本文的下一部分中讨论环境的各个部分。 在本节中,我将重点介绍工具。

Qubole将成本控制作为其集群管理的一部分。 您可以指定集群使用实例类型的特定组合,包括现货实例(如果可用)以及用于自动缩放的最小和最大节点数。 您还可以指定任何群集在没有负载的情况下继续运行的时间长度,以避免出现“僵尸”实例。

火花

在他8月份的InfoWorld文章“ Qubole如何解决Apache Spark的挑战”中 ,Qubole的首席执行官Ashish Suchoo讨论了Spark的好处和陷阱,以及Qubole如何补救诸如配置,性能,成本和资源管理之类的难题。 对于数据科学家来说,Spark是Qubole的关键组件,可以轻松快速地进行数据转换和机器学习。

普雷斯托

Presto是一个开放源代码的分布式SQL查询引擎,用于对各种大小(从千兆字节到PB大小)的数据源运行交互式分析查询。 Presto查询的运行速度比Hive查询快得多。 同时,Presto可以查看和使用Hive元数据和数据架构。

蜂巢

Apache Hive是Hadoop生态系统中一个受欢迎的开源项目,它有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已经存储的数据上。 配置单元查询执行通过Apache Tez,Apache Spark或MapReduce运行。 Hive on Qubole可以进行工作负载感知的自动缩放和直接写入; 开源Hive缺乏这些面向云的优化。

Qubole的创建者也是Apache Hive的创建者。 他们在Facebook上创立了Hive,并于2008年开源。

量子

Quantum是Qubole自己的无服务器,自动缩放,交互式SQL查询引擎,支持Hive DDL和Presto SQL。 Quantum是一种即用即付的服务,对于散布在很长一段时间内的零星查询模式具有成本效益,并且具有严格的模式来防止意外支出。 昆腾使用Presto,并补充了Presto服务器群集。 量子查询仅限于45分钟的运行时间。

空气流动

Airflow是基于Python的平台,可通过编程方式创作,安排和监视工作流程。 工作流程是任务的有向无环图(DAG)。 您可以通过用Python代码编写管道来配置DAG。 Qubole提供Airflow作为其服务之一; 它通常用于ETL。

新的QuboleOperator可以像其他任何现有Airflow操作器一样使用。 在工作流中执行操作员期间,它将向Qubole Data Service提交命令,并等待命令完成。 Qubole支持文件和Hive表传感器,Airflow可以使用它们来以编程方式监视工作流。

要查看Airflow用户界面,您首先需要启动一个Airflow集群,然后打开集群页面以查看Airflow网站。

红宝石

RubiX是Qubole的轻量级数据缓存框架,可以由使用Hadoop文件系统接口的大数据系统使用。 RubiX旨在与Amazon S3和Azure Blob存储等云存储系统配合使用,并在本地磁盘上缓存远程文件。 Qubole已将RubiX开源 。 在Qubole中启用RubiX只需选中一个复选框即可。

Qubole是做什么的?

Qubole提供了一个用于分析和数据科学的端到端平台。 该功能分布在十几个模块中。

浏览模块可让您查看数据表,添加数据存储并设置数据交换。 在AWS上,您可以查看数据连接,S3存储桶和Qubole Hive数据存储。

通过“分析”和“工作台”模块,您可以对数据集运行临时查询。 Analyze是旧界面,而Workbench是新界面,当我尝试它时仍处于beta版本。 这两个界面都允许您将数据字段拖放到SQL查询中,并选择用于运行操作的引擎:Quantum,Hive,Presto,Spark,数据库,shell或Hadoop。

Smart Query是Hive和Presto的基于表单的SQL查询构建器。 模板允许您重复使用参数化的SQL查询。

笔记本电脑是基于Spark的Zeppelin或用于数据科学的(测试版)Jupyter笔记本电脑。 仪表板提供了一个界面,用于共享您的浏览记录,而不允许您访问笔记本。

通过Scheduler,您可以定期自动运行查询,工作流,数据导入和导出以及命令。 这可以补充您可以在“分析”和“工作台”模块中运行的即席查询。

群集模块允许您管理Hadoop / Hive,Spark,Presto,Airflow和深度学习(beta)服务器的群集。 使用情况可让您跟踪集群并查询使用情况。 通过控制面板,您可以自己配置平台,也可以在拥有系统管理权限的情况下配置其他平台。

Qubole端到端演练

我经历了导入数据库,创建Hive模式以及使用Hive和Presto分析结果的过程,并分别在Spark笔记本中进行了演练。 我还查看了用于相同过程的Airflow DAG,以及用于通过Spark对不相关的数据集进行机器学习的笔记本。

IDG

在Qubole的“浏览”模块中,您可以管理和检查数据源。 在这里,我们正在查看要导入以进行分析的MySQL表的几行。

IDG

在将数据导入Hive之前,您需要创建模式。

IDG

要为Hive定义数据导入,您需要为要加载的每个表设置导入工作流。 Qubole可以帮助您浏览数据存储和表,从而为您提供帮助。 ORC格式是针对Hive的优化的面向列的数据存储格式。

IDG

与Hive自己的SQL查询引擎相比,Presto通常是一种针对Hive数据运行临时SQL查询的更有效方式。 在这里,我们通过解析Web日志以获取对产品页面的引用,并对每个产品的视图数量进行计数。 第3行中的正则表达式将Web URL重新格式化为品牌加产品名称。 access_logs表是通过将Web日志解析为具有另一个正则表达式的字段而构建的外部表。

IDG

在此Presto查询中,我们将产品和订购商品表连接起来,以构建按数量订购的商品清单。

IDG

Presto可以轻松处理嵌套的SQL选择。 在此,内部查询排除已取消和欺诈的订单,将orders和order_items表联接起来,并对订单求和以计算收入。 外部查询将产品表与内部查询的结果连接起来,并按产品名称报告收入。

IDG

运行独立的Presto查询的另一种方法是在Spark中运行相同的SQL。 在这里,我们使用Zeppelin笔记本以及Spark,SQL和PySpark中的单元格来运行一些与在Presto中测试的相同的查询。 有关不安全的Py4j网关的消息仅是警告,对于Qubole隔离的网络配置而言,实际上并不重要。

IDG

底部的Zeppelin笔记本单元(7)通过运行Spark SQL每天对订单进行计数。 齐柏林飞艇笔记本可以绘制结果图形并在表格中显示。 该单元可以导出到仪表板以供管理人员使用。

IDG

Spark笔记本通常用于MLlib的机器学习。 该图显示了摄取数据,执行特征工程,训练三种机器学习模型,选择最佳模型以及调整最佳模型的端到端过程。 UC Irvine提供的此处使用的数据集包含电信公司客户流失数据,并且这些模型正在尝试预测给定客户是否会“流失”。

IDG

Spark单元中显示的代码使三个模型适合同一训练数据集。 这些模型是“随机森林”,“逻辑回归”和“梯度增强树”(GBT)。 训练所有三个模型花费了40秒。 GBT模型产生的预测变量具有较高的假阳性率和较低的真实阳性率(C),因此需要反转(C')才能发挥作用,如下部单元格所示。

IDG

气流群集的概述页面。 可以通过资源框中的“ Airflow Web服务器”链接访问Airflow的用户界面。 Airflow的集成并不像我们在Qubole的其他组件中看到的那样紧密。

IDG

气流代码是用Python编写的。 此Airflow DAG再现了与我们之前在手动Hive和Presto步骤以及在使用Spark的Zeppelin笔记本电脑中运行的工作流程相同的工作流程。 第19行的配置安排DAG每天运行。 请注意,每个动作的胆量都包含在HQL脚本中,并且DAG大量使用QuboleOperator模块。

IDG

可以使用多种表示形式查看Airflow DAG。 在这里,我们在图形视图中看到了电子商务数据集的导入和分析。 请注意所有单元格的绿色轮廓,表明它们已成功运行。

IDG

树视图是查看气流DAG的另一种方法。 请注意,在此视图中,流程或多或少从右到左,从下到上运行,并且状态颜色应用于右侧的框。 这个特定的DAG从第9行的起始圆开始,向上和向左移动,但在两个连接步骤中向下和向外拆分。

Qubole的深度学习

我们已经看到Qubole中的数据科学达到了经典机器学习的水平,但是深度学习又如何呢? 在Qubole中完成深度学习的一种方法是在笔记本中插入Python步骤,以导入诸如TensorFlow之类的深度学习框架,并将其用于Spark已经设计的数据集。 另一个假设您的Qubole安装在AWS上运行,则从笔记本或Airflow调出Amazon SageMaker 。

您在Qubole中所做的大多数事情都不需要在GPU上运行,但是深度学习通常确实需要GPU,以允许培训在合理的时间内完成。 Amazon SageMaker通过在单独的集群中运行深度学习步骤来解决此问题,您可以根据需要配置这些集群中的节点和GPU。 Qubole还提供了机器学习集群(测试版); 在AWS上,这些允许使用Nvidia GPU加速g型和p型工作器节点;在Google Cloud Platform和Microsoft Azure上,它们允许等效的加速工作器节点。

云中的大数据工具包

Qubole是用于分析和机器学习的云原生数据平台,可帮助您将数据集导入数据湖,使用Hive构建架构以及使用Hive,Presto,Quantum和Spark查询数据。 它同时使用笔记本电脑和Airflow来构建工作流程。 它还可以调出其他服务并使用其他库,例如Amazon SageMaker服务和TensorFlow Python库进行深度学习。

Qubole通过控制集群中实例的混合,按需启动和自动扩展集群以及在不使用集群时自动关闭集群,来帮助您管理云支出。 它可在AWS,Microsoft Azure,Google Cloud Platform和Oracle Cloud上运行。

总体而言,Qubole是利用(或“激活”)数据湖,隔离的数据库和大数据的一种很好的方法。 您可以选择带有示例数据的AWS,Azure或GCP, 免费试用14天的Qubole驱动器 。 您还可以使用自己的云基础架构帐户和自己的数据为最多五个用户和一个月安排一次免费的功能齐全的试用版。

-

费用:免费提供测试和试用帐户。 企业平台,每个QCU(Qubole计算单元)每小时$ 0.14。

平台: Amazon Web Services,Google Cloud Platform,Microsoft Azure,Oracle Cloud。

From: https://www.infoworld.com/article/3449896/qubole-review-self-service-big-data-analytics.html

Qubole评论:自助式大数据分析相关推荐

  1. Quick BI助力云上大数据分析---深圳云栖大会

    摘要: 在3月29日深圳云栖大会的数据分析与可视化专场中,阿里云产品专家陌停对大数据智能分析产品 Quick BI 进行了深入的剖析.大会现场的精彩分享也赢得观众们的一直认可和热烈的反响. 大数据分析 ...

  2. Quick BI助力云上大数据分析---深圳云栖大会 1

    在3月29日深圳云栖大会的数据分析与可视化专场中,阿里云产品专家陌停对大数据智能分析产品 Quick BI 进行了深入的剖析.大会现场的精彩分享也赢得观众们的一直认可和热烈的反响. 大数据分析之路的挑 ...

  3. 石油和天然气行业的大数据分析:新兴趋势Big Data analytics in oil and gas industry: An emerging trend

    文章目录 A B S T R A C T 1. Introduction 2. Big Data analytics 2.1. Big Data definition 2.2 Big Data met ...

  4. python 豆瓣评论数据分析_Python爬虫实战案例:豆瓣影评大数据分析报告之网页分析...

    个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...

  5. 毕业设计之 - 大数据分析:电商产品评论数据情感分析

    文章目录 1 简介 数据分析目的 数据预处理 评论去重 数据清洗 分词.词性标注.去除停用词 提取含名词的评论 绘制词云¶ 词典匹配 评论数据情感倾向分析 修正情感倾向 LinearSVC模型预测情感 ...

  6. Google BigQuery——企业级大数据分析工具

    Google本月初发布了企业级大数据分析的云服务--BigQuery为正式付费产品,这是Google迈向企业级云计算领域的关键一步.BigQuery本质上是一个云平台基础服务PaaS,旨在实时处理TB ...

  7. 谷歌大数据三篇论文标题_抖音短视频标题怎么写才能上热门?起标题的3个实操步骤,大数据分析爆款标题的套路...

    抖音短视频运营学习路线图,带你全面系统性学习抖音短视频运营! 第十一篇:抖音短视频标题撰写技巧. 1.了解视频标题应该具备的特点. 2.掌握起视频标题的3个实操步骤. 3.掌握起视频标题的注意事项. ...

  8. 微软发布研究报告:企业数据管理普遍混乱,揭秘大数据分析趋势以及PowerBI的崛起机遇...

    本文非常重要,忽略者责任自负.我们时常看到很多新闻说企业的数据分析或大数据如何如何高大上,但你自己感觉你自己所处的环境呢?很多小伙伴在群里真切的抱怨到:感觉是一坨祥云.为什么你看到的和你感受到的有如此 ...

  9. python金融大数据分析视频_Python金融大数据分析 PDF 全书超清版

    给大家带来的一篇关于Python相关的电子书资源,介绍了关于Python金融.大数据分析方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小47.8 MB,希尔皮斯科编写,目前豆瓣.亚马逊. ...

最新文章

  1. 使用OKR管理好团队这四个高深的技巧要明白
  2. 分页类实例 java
  3. 清空 linux 服务器,Linux服务器清理
  4. 虎牙AI基础技术部招聘深度学习/计算机视觉实习生
  5. Android 8.0 linux内核,在Ubuntu上为Android增加硬件抽象层(HAL)模块访问Linux内核驱动程序---Android8.0版本实现-对照老罗版本...
  6. NYOJ-聪明的kk(dp)
  7. python语言特点多模型_利用CRF模型进行文本分类完整教程(Python语言)
  8. iOS开发之YYKit丰富的组件,如:YYText
  9. 嵌入式视频处理考虑(二)
  10. python3socket非阻塞在linux里无效_Linux Socket - 内核非阻塞功能
  11. 免费的高匿名爬虫代理池不求人|高可用、高匿名、代理池详解及搭建推荐
  12. 成就更好的自己,就是不停地做减法
  13. 显卡的各种故障维修方法
  14. 《禅与摩托车维修艺术》读后感第一篇
  15. java理论_java入门——基础理论
  16. ios 自动打包命令_iOS Xcode 自动打包,一键上传AppStore脚本
  17. 2,4-二硝基苯磺酰基(DNBS)修饰BODIPY染料识别GSH/溶酶体
  18. oracle字段名命名规范,oracle 表字段命名规范
  19. 为什么负责任的技术始于数据治理
  20. 教你一招,能解决90%的机房问题

热门文章

  1. 机器学习中较为简单的算法有哪些?
  2. 计算机专业比选英语作文,公路三跨预应力连续梁桥设计(40m+60m+40m)任务书
  3. 阿里云服务器安装Prometheus
  4. 月活2亿的Telegram 7月上币,散户终于可以买了
  5. 《SMPTE RP 168-2002》阅读整理
  6. 安全渗透测试-win7
  7. adobexd怎么录屏_Adobe XD快速入门教程
  8. 如何在deepin中安装nodejs
  9. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java校园快递系统q9061
  10. 测绘中的各种坐标问题?