Azure Databricks 是一个已针对 Microsoft Azure 云服务平台进行优化的数据分析平台。

Azure Databricks 提供了三种用于开发数据密集型应用程序的环境:

  • Databricks 数据科学工程

  • Databricks 机器学习

  • Databricks SQL

Databricks SQL 为想要针对数据湖运行 SQL 查询、创建多种可视化类型以从不同角度探索查询结果,以及生成和共享仪表板的分析员提供了一个易于使用的平台。

Databricks 数据科学 工程 提供了一个交互式工作区,可在数据工程师、数据科学家和机器学习工程师之间实现协作。 使用大数据管道时,原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure,或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。 此数据将驻留在 Data Lake(长久存储)、Azure Blob 存储或 Azure Data Lake Storage 中。 在分析工作流中,使用 Azure Databricks 从多个数据源读取数据,并使用 Spark 将数据转换为突破性见解。

Databricks 机器学习是一个集成式端到端机器学习环境,其中整合了用于试验跟踪、模型训练、特征开发和管理以及特征与模型传送的托管服务。

若要选择环境,启动一个 Azure Databricks 工作区并使用边栏中的角色切换器:

什么是Databricks Data Science & Engineering

Databricks Data Science & Engineering (有时只称为"工作区",) 是基于工作区的分析Apache Spark。 它与 Azure 集成,以提供一键式安装程序、简化的工作流程以及交互式工作区,从而使数据工程师、数据科学家和机器学习工程师之间可以进行协作。

使用大数据管道时,原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure,或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。 此数据将驻留在 Data Lake(长久存储)、Azure Blob 存储或 Azure Data Lake Storage 中。 在运行分析工作流的过程中,可以使用 Azure Databricks 从 Azure Blob 存储、Azure Data Lake Storage、Azure Cosmos DB 或 Azure SQL 数据仓库等多个数据源读取数据,并使用 Spark 将数据转化为前所未有的见解。

Apache Spark 分析平台

Databricks Data Science & Engineering 包含完整的开源Apache Spark群集技术和功能。 Databricks Data Science Engineering 中的 & Spark 包括以下组件:

  • Spark SQL 和数据帧:Spark SQL 是用于处理结构化数据的 Spark 模块。 数据帧是已组织成命名列的分布式数据集合。 它在概念上相当于关系型数据库中的表,或 R/Python 中的数据帧。

  • 流式处理:实时数据处理和分析,适用于分析与交互式应用程序。 与 HDFS、Flume 和 Kafka 集成。

  • MLlib:由常见学习算法和实用工具(包括分类、回归、群集、协作筛选、维数约简以及底层优化基元)组成的机器学习库。

  • GraphX:图形和图形计算,适用于从认知分析到数据探索的广泛用例。

  • Spark Core API:包含对 R、SQL、Python、Scala 和 Java 的支持。

Azure Databricks 中的 Apache Spark

Azure Databricks 构建在 Spark 功能的基础之上,提供一个无管理云平台,其中包括:

  • 完全托管的 Spark 群集

  • 可浏览和可视化数据的交互式工作区

  • 一个为你喜爱的 Spark 应用程序提供支持的平台

在云中完全托管的 Apache Spark 群集

Azure Databricks 在云中拥有安全可靠的生产环境,由 Spark 专家进行管理和提供支持。 可以:

  • 在几秒钟内创建群集。

  • 动态自动扩展和缩减群集并在团队中共享群集。

  • 通过调用 REST API 以编程方式使用群集。

  • 使用基于 Spark 的安全数据集成功能,在无需集中化的情况下统一数据。

  • 即时获得每个版本中的最新 Apache Spark 功能。

Databricks Runtime

Databricks 运行时构建在 Apache Spark 的基础之上,是针对 Azure 云以原生方式构建的。

Azure Databricks 通过高度抽象化彻底消除了基础结构复杂性,无需专业知识就能设置和配置数据基础结构。

对于关注生产作业性能的数据工程师而言,Azure Databricks 通过 I/O 层和处理层 (Databricks I/O) 的各种优化提供了一个更快速、更高效的 Spark 引擎。

实现协作的工作区

Databricks Data Science & Engineering 通过协作和集成环境简化了在 Spark 中浏览数据、原型制作和运行数据驱动应用程序的过程。

  • 通过简单的数据浏览确定如何使用数据。

  • 在以 R、Python、Scala 或 SQL 编写的笔记本中记录进度。

  • 几步内即可实现数据可视化,可使用熟悉的工具,例如 Matplotlib、ggplot 或 d3。

  • 使用交互式仪表板创建动态报告。

  • 在使用 Spark 的同时与数据交互。

企业安全性

Azure Databricks 提供企业级的 Azure 安全性,包括 Azure Active Directory 集成、基于角色的控制,以及可保护数据和业务的 SLA。

  • 与 Azure Active Directory 集成后,可以使用 Azure Databricks 运行基于 Azure 的完整解决方案。

  • Azure Databricks 基于角色的访问可以细化用户对笔记本、群集、作业和数据的权限。

  • 企业级 SLA。

与 Azure 服务集成

Databricks Data Science & Engineering 与 Azure 数据库和存储深度集成:Synapse Analytics、Cosmos DB、Data Lake Store和 Blob 存储。

与 Power BI 集成

通过与 Power BI 的丰富集成,Databricks 数据&科学工程可让你快速轻松地发现和共享具有影响力的见解。 还可以使用其他 BI 工具,例如 Tableau 软件。

什么是 Databricks 机器学习

Databricks 机器学习(预览版)是一个集成式端到端机器学习平台,其中整合了用于试验跟踪、模型训练、特征开发和管理、特征与模型传送的托管服务。 此图显示了 Databricks 的功能如何与模型开发和部署过程的各个步骤相契合。

利用 Databricks 机器学习,可以:

  • 使用 AutoML 或手动训练模型。

  • 通过 MLflow 跟踪使用试验跟踪训练参数和模型。

  • 创建并访问特征表来进行模型训练和推理。

  • 使用模型注册表分享、管理和传送模型。

对于机器学习应用程序,Databricks 提供了用于机器学习的 Databricks Runtime,这是 Databricks Runtime 的一种变型,包含许多常见的机器学习库。

Databricks 机器学习特征

特征存储

借助特征存储,可对 ML 特征进行分类,并使其可用于训练和传送,从而提高重用性。 通过基于数据世系的特征搜索来利用自动记录的数据源,可使用无需对客户端应用程序进行更改的简化模型部署来提供特征用于训练和传送。

试验

通过 MLflow 试验,可直观呈现、搜索和比较运行,还可下载运行项目和元数据,便于在其他工具中进行分析。 通过试验页面可快速访问组织中的 MLflow 试验。 可通过从 Azure Databricks 笔记本和作业中记录到这些试验来跟踪机器学习模型开发。

模型

Azure Databricks 提供一种托管版本的 MLflow 模型注册表来帮助你管理 MLflow 模型的完整生命周期。 模型注册表提供按时间顺序记录的模型世系(MLflow 试验和运行在给定时间生成模型)、模型版本控制、阶段转换(例如从“暂存”到“生产”或“已存档”),以及模型事件的电子邮件通知。 你还可创建和查看模型说明,并留下注释。

自动化 ML

通过 AutoML 可根据数据自动生成机器学习模型,并更快投入生产环境。 它为模型训练准备数据集,然后执行并记录一组试验,从而创建、优化和评估多个模型。 它会显示结果,并提供一个 Python 笔记本,里面有每个试验运行的源代码,使你可查看、重现和修改代码。 AutoML 还会计算数据集的汇总统计信息,并将此信息保存在稍后可查看的笔记本中。

用于机器学习的 Databricks Runtime

用于机器学习的 Databricks Runtime (Databricks Runtime ML) 自动创建针对机器学习优化的群集。 Databricks Runtime ML 群集包括最常见的机器学习库,例如 TensorFlow、PyTorch、Keras 和 XGBoost,还包括分布式训练所需的库,如 Horovod。 使用 Databricks Runtime ML 可以加快群集创建速度,并确保已安装的库版本兼容。

什么是 Databricks SQL?

Databricks SQL 用于对数据湖运行快速临时 SQL 查询。 查询支持多种可视化类型,有助于从不同角度探索查询结果。

云中完全托管的 SQL 终结点

SQL 查询在完全托管的 SQL 终结点上运行,这些终结点的大小根据查询延迟需求和并发用户数进行了调整。 为了帮助你快速入门,每个工作区都预配置了一个小型初学者 SQL 终结点。

用于共享见解的仪表板

仪表板支持合并可视化效果和文本,用于共享通过查询获取的见解。

警报可助力监视和集成

查询返回的字段达到阈值时,你会收到警报。 使用警报来监视业务或将其与工具集成,以启动用户加入或支持工单等工作流。

企业安全性

Databricks SQL 提供企业级的 Azure 安全性,包括 Azure Active Directory 集成、基于角色的控制,以及可保护数据和业务的 SLA。

  • 它与 Azure Active Directory 集成,因此你可以使用 Databricks SQL 运行基于 Azure 的完整解决方案。

  • 基于角色的访问可实现针对警报、仪表板、SQL 终结点、查询和数据的精细化用户权限。

  • 企业级 SLA。

与 Azure 服务集成

Databricks SQL 与以下 Azure 数据库和存储集成:Synapse Analytics、Cosmos DB、Data Lake Store 和 Blob 存储。

与 Power BI 集成

通过与 Power BI 的多样化集成,Databricks SQL 让你可以快速轻松地发现和共享有影响力的见解。 还可以使用其他 BI 工具,例如 Tableau 软件。

Databricks文档01----Azure Databricks初探相关推荐

  1. Databricks文档04----使用 Azure Databricks 提取、转换和加载数据

    使用 Azure Databricks 执行 ETL(提取.转换和加载数据)操作. 将数据从 Azure Data Lake Storage Gen2 提取到 Azure Databricks 中,在 ...

  2. Databricks文档03----Azure Databricks 创建

    1.打开Azure portal 搜索资源:Azure Databricks 2.输入相关信息 3.网络选择,由于是实验,一切从简 4.启动工作区 5.创建计算群集

  3. Databricks文档02----Databricks CLI

    学习Databricks 需要安装 Databricks CLI, 安装过程不算复杂,使用Pip进行安装 Databricks CLI 要求 Python 3 - 3.6 及更高版本 Python 2 ...

  4. Databricks文档05----使用 Azure Databricks 连接SQL Server查询数据

    创建新的notebook 输入相关参数 jdbcHostname = "-----" jdbcDatabase = "iotdb" userName = 'sa ...

  5. Scrapy 1.4 文档 01 初窥 Scrapy

    初窥 Scrapy Scrapy 是用于抓取网站并提取结构化数据的应用程序框架,其应用非常广泛,如数据挖掘,信息处理或历史存档. 尽管 Scrapy 最初设计用于网络数据采集(web scraping ...

  6. SCCM 2012 简体中文正式版 部署文档 01 环境说明

    环境很简单分别是域控制器 和独立的SQL+SCCM服务器,以及2台测试用客户端 转载于:https://blog.51cto.com/kongkong7777/778693

  7. 英语笔记(单词来自Shiro文档)01

    application 应用 frustrated 受挫 secure 安全 existing 现有 solutions 解决方案 difficult 难 confuse 迷惑 further 进一步 ...

  8. azure云数据库_从Azure Databricks将数据加载到Azure SQL数据库

    azure云数据库 In this article, we will learn how we can load data into Azure SQL Database from Azure Dat ...

  9. azure未连接_将Azure Databricks数据连接到Power BI Desktop

    azure未连接 This article is next in the Azure Databricks series, where we will learn how to connect dat ...

最新文章

  1. Mask-RCNN技术解析
  2. AI一分钟|腾讯与三星结盟,以对抗苹果和谷歌;亚马逊回应“AI误将国会议员标记为罪犯”...
  3. curl 探测java网站_使用cURL查找网站重定向的位置?
  4. 【数据库】MySQL数据库(一)
  5. Kotlin中?和!!的区别
  6. 【字符比较】单字符比较值是否相等
  7. The Majesty Of Vue.js
  8. 红橙Darren视频笔记 自定义RatingBar touch事件学习 dp转px listener监听
  9. php 怎么查看原生方法源码_你的2020搜索账单地址入口 你的2020搜索账单怎么查看查看方法...
  10. jQuery形式可以计算,它包含了无线电的变化价格,select价格变化,删除行动态计算加盟...
  11. 1000+ 电力系统,电力电子,电机一些仿真程序
  12. 【小程序实战系列】电商平台源码及功能实现
  13. ZigBee技术有哪些应用领域?
  14. ADCS relay
  15. [转]开源软件名的读音
  16. Linux_安装modelsim10_2
  17. 整理了100个Python精选库,建议收藏!
  18. 多目标应用:多目标蜣螂优化算法求解多旅行商问题(Multiple Traveling Salesman Problem, MTSP)
  19. 深度:进入洗牌期的老年鞋市场对中国老年消费品行业的发展启示—足力健地位能否持续,奥康/红蜻蜓能否逆袭?
  20. 海思HI3751_Android解决方案 开发指南

热门文章

  1. JavaScript--小白入门篇1
  2. [Luogu 1312] noip11 Mayan游戏
  3. 用EnumMap代替序数索引
  4. 关于spring security自定义sessionRegistry
  5. 架构师之路(39)---IoC框架
  6. 一种简易的聊天泡泡设置颜色以及添加描边的方式
  7. 在Java中避免NullPointerException
  8. SpringBoot2.0之六 多环境配置
  9. Centos7 之目录处理命令(八)
  10. JavaTPoint 移动开发教程【翻译完成】