Azure Synapse Analytics简介第3部分:数据科学和商业智能
目录
Power BI集成
Azure机器学习集成
聚合不同的数据源样式
Azure Synapse Analytics中的机器学习功能
结论
在这里,我们讨论并展示了如何使用Azure Synapse摄取的数据来提供对业务流程的新见解并回答业务问题。然后我们讨论Apache Spark支持以及PowerBI和Azure ML集成。
正如我们在本系列的第一篇文章中所讨论的那样,Azure Synapse Analytics使我们能够构建从原始数据到数据可视化的完整数据分析解决方案——同时保持在同一个工具中。这包括与数据仓库、大数据、Spark、数据移动编排、安全性和监控相关的所有功能集中在一处。它有效地与Power BI配合使用以可视化和分析该数据。
在本系列的第二篇文章中,我们探讨了Azure Synapse Analytics如何支持引入和准备数据,通过避免自定义ETL代码来节省时间。
现在,在第三部分也是最后一部分中,我们将研究Azure Synapse Analytics如何使用无缝工具集成和引导式体验帮助数据科学和商业智能(BI)专业人员获得新的洞察力。
Power BI集成
Azure Synapse Analytics集成得非常紧密,我们可以直接从Synapse Studio启动Power BI。就像单击“新建链接服务”,然后单击“连接到 Power BI”一样简单。接下来,我们连接到Power BI工作区。
我们在直通身份验证(PTA)的帮助下完成所有这些工作,这是一项Azure AD Connect功能,使您能够访问不同的产品,而不会被提示登录和重新输入凭据。
通过选择Power BI工作区并单击Create,我们可以轻松链接两个工作区,而无需复制或移动数据。现在,当我们转到“开发”选项卡时,我们会看到Power BI是列表中的工件之一。通过展开该条目,我们会看到Power BI工作区中存在的所有数据集,通过进一步展开它,我们会看到该工作区中的所有报表。
现在,假设我们要创建一个名为NYC Yellow的新虚拟数据库并将其链接到Power BI数据集。首先,启动Power BI Desktop,我们将看到该工作区中的所有数据库。然后,选择一个,单击“继续”以打开该Power BI数据源文件,并连接到该数据集。
连接到Azure Synapse Analytics类似于连接到SQL Server,因此感觉就像是另一个SQL连接。
对于Power BI用户和数据分析师,Azure数据资源管理器提供了对数据湖功能的查询。客户可以从Azure Data Lake Storage(ADLS) Gen2 查询历史数据,并将其与Azure数据资源管理器中缓存的近实时数据结合,而无需将数据引入Azure数据资源管理器。
现在我们可以使用Power BI的Power Query Navigator并决定是要对数据执行导入还是直接查询。
我们可以使用Power BI创建数据集并将其发布到我们的Azure Synapse工作区。然后,我们可以在Synapse Studio中从该数据集开始构建新报告。然后,当我们打开报告并在Synapse Studio中进行更改时,我们可以返回Power BI工作区并立即查看这些更改。
Azure Synapse Analytics可以快速查询数十亿数据行。但是,我们不需要,也不应该一直使用详细数据。我们可以使用物化视图来优化我们的查询并自动调整性能。随着详细数据的更新,物化视图会反映更改。
Azure机器学习集成
Azure Synapse Analytics为我们提供了摄取、管理、准备和丰富分析数据所需的一切。它集成了许多不同的Azure服务,例如Power BI和Azure机器学习(ML)。
Azure Data Lake Storage与Azure Synapse Analytics本地集成,为您的数据提供数据湖存储。此外,Azure Synapse Analytics可以在SQL池内的表中存储数据和管理数据。另一种选择是虚拟化数据,使用Azure Synapse Link直接从源读取数据。
有多种方法可以访问Azure Synapse Analytics中的数据。无论我们的数据在哪里,Azure Synapse Analytics都将它们整合到一个平台中,我们可以在其中一起分析它们。例如,我们可以使用Spark计算来处理存储在数据湖中Parquet文件中的半非结构化大数据。如果我们还处理存储在SQL池(以前称为SQL数据仓库)内的表中的关系数据会怎样?Azure Synapse Analytics将这两种类型的数据结合在一起。我们可以以统一的体验处理不同的数据源。
借助Azure Synapse Studio,我们可以构建数据集成管道、管理数据、监控一切并设置安全性。此外,我们可以使用Azure Synapse Analytics中基于SQL的分析运行时处理这些数据。
除了专用的SQL池,Azure Synapse Analytics使我们能够使用无服务器按需SQL池和无服务器Apache Spark池来准备我们的数据以进行分析。
聚合不同的数据源样式
Azure Synapse Analytics使我们能够集成不同的服务以在Azure中创建我们的解决方案。访问数据要简单得多,从我们的信息中获取价值的速度要快得多——以至于这些服务可以让您的管道无缝集成。
例如,我们的Azure数据工厂管道可以自动与Spark池或Azure Data Lake Storage Gen2进行通信。我们所要做的就是预配Azure Synapse工作区。
Azure Synapse Analytics中的机器学习功能
当我们预配Azure Synapse工作区时,它涵盖了开箱即用的机器学习功能,因此我们不需要将其链接到任何其他服务,例如Azure ML或认知服务。在Azure Synapse Analytics中使用无服务器Apache Spark池时,我们已经内置了数据训练和评分功能。此外,我们可以使用predict关键字函数在专用SQL池中的T-SQL查询中运行预测。
Azure Synapse Analytics为喜欢无代码体验的受众提供选项。但是,我们也可以通过代码执行许多与机器学习相关的功能。例如,我们可以在Synapse notebooks中使用T-SQL、PySpark、Scala或C#。此外,Notebooks通过在需要时生成代码工件,在Synapse Studio中提供引导式用户界面(UI)体验,从而为用户提供更快的洞察时间。或者,我们可以选择无代码体验。
让我们探索Azure Synapse Analytics中提供的一些机器学习体验。
使用AutoML进行模型训练可作为引导式Ul体验。在Synapse Studio中,我们可以使用您在Azure ML工作区中使用的相同AutoML。不同之处在于,这次我们可以在Azure Synapse Analytics内的无服务器Apache Spark池上执行。
SQL池中的模型评分是另一种引导式Ul体验,因为我们可以在Azure Synapse Analytics中部署来自Azure ML的模型。例如,我们的数据科学团队可能已经训练了一些模型,我们使用Azure机器学习模型注册表来跟踪这些模型。现在我们可以从Azure ML模型注册表访问模型并使用T-SQL在SQL池中对它们进行评分。我们无需将数据移出、运行评分并将数据移回,而是可以准确地对数据所在的位置进行评分。
然后是认知服务,这是一种使用异常检测器和文本分析情感分析来丰富数据的引导式Ul体验。假设我们打开了一个包含电子邮件的Spark表。它的非结构化文本数据不适合SQL操作。但是,它可以实现一些有趣的数据分析。我们可以使用Synapse Studio应用机器学习并对这些电子邮件进行情感分析。
Azure认知服务附带一个用于情绪分析的预训练模型。我们可以使用这个模型来丰富我们的数据。在选择英语作为语言并选择包含我们电子邮件的Spark表的Comments列后,Synapse Studio为我们生成代码。它创建了一个新的Synapse notebooks,其中包含PySpark (Python)语言的代码片段。我们现在要做的就是运行代码单元,认知服务会对我们的电子邮件执行情绪分析,在结果中创建一个新的情绪列。我们现在有丰富的数据。
结论
在Azure Synapse Analytics系列的最后一部分中,我们讨论了Azure Synapse Analytics如何使我们能够以多种方式提供对业务流程的新见解并回答业务问题。
我们还发现Azure Synapse Analytics通过链接服务与Power BI紧密集成。这样,我们甚至无需离开Synapse Studio即可使用Power BI执行数据分析,生成商业智能以推动改进和增长。
最后,我们在模型训练、模型评分和认知服务的指导体验的帮助下探索了Azure Synapse Analytics的开箱即用机器学习功能。
在之前的文章中,我们探讨了Azure Synapse Analytics如何通过将数据集成、仓储和分析与其他Azure工具的大量集成结合在一个服务中来实现数据准备和管理以及其他活动。Azure Synapse Analytics可节省加载和准备数据的时间,以便快速洞察推动我们业务发展的分析,从而领先于竞争对手采取行动。
查看Microsoft的Azure Synapse分析实践培训系列,了解有关使用这些集成数据工具推动商业智能和机器学习的更多信息—来自Azure Synapse工程团队的成员。
在深入了解Azure Synapse的过程中,您可以学习:
- 启动您的第一个Synapse工作区
- 构建无代码ETL管道
- 本机连接到Power BI
- 连接和处理流数据
- 使用无服务器和专用查询选项
Introduction to Azure Synapse Analytics Part 3: Data Science and Business Intelligence - CodeProject
Azure Synapse Analytics简介第3部分:数据科学和商业智能相关推荐
- Azure Synapse Analytics简介第1部分:什么是Azure Synapse Analytics?
目录 数据摄取 Azure Data Lake Storage Gen2 数据探索.训练和服务 数据查询服务 Azure Synapse Studio Azure Synapse Notebooks ...
- Azure Synapse Analytics (Azure SQL DW)性能优化指南(4)——使用结果集缓存优化性能
目录 (一)前言 (二)关键命令 1. 对用户数据库启用/禁用结果集缓存 (1)检查数据库的统计信息设置 (2)为数据库启用查询存储 (3)为数据库启用结果集缓存 (4)检查数据库的结果集缓存设置 ( ...
- Azure Synapse Analytics(Azure SQL DW) 性能优化指南(2)——使用具体化视图优化性能(上)
目录 (一)前言 (二)具体化视图与标准视图 1. 两者的定义上区别 2. 具体化视图创建方式 (1)语法 (2)参数 (3)注解 (4)示例 (三)使用具体化视图的优点 (四)常见方案 1. 需要提 ...
- Azure Synapse Analytics (Azure SQL DW)性能优化指南(1)——使用有序聚集列存储索引优化性能
目录 (一)前言 (二)有序与无序聚集列存储索引 (三)查询性能 (四)数据加载性能 (五)减少段重叠 (六)在大型表中创建有序 CCI (六)实战案例 A. 检查有序列和序号: B. 若要更改列序号 ...
- BO 4.3支持微软的Azure Synapse Analytics 吗?
微软的Azure Synapse Analytics原名Azure SQL Data Warehouse(以下简称Synapse),是微软推出的一项将企业数据仓库和大数据分析结合在一起按需付费的集成分 ...
- Azure Synapse Analytics(Azure SQL DW)中建表语句的注意事项
目录 (一)前言 (二)建表语法 (三)参数说明 1. 列选项 2. 表结构选项 3. 表分发选项 4. 表分区选项 (四)实例 1. 列的示例 (1) 指定一个列排序规则 (2) 指定列的 DEFA ...
- 浅谈用KUSTO查询语言(KQL)在Azure Synapse Analytics(Azure SQL DW)审计某DB账号的操作记录
目录 (一)前言 (二)实际案列 1. 背景说明: 2. 操作步骤 (1)打开Portal (2)搜索"监视器" (3)点击左侧选项卡中的"日志" (4)在新的 ...
- R如何与Tableau集成分步指南 - 适用于数据科学和商业智能专业人员
Tableau是当今数据科学和商业智能专业人员使用的最流行的数据可视化工具之一.它使您能够以交互式和多彩的方式创建具有洞察力和影响力的可视化效果. 在本文中,我们将看到一些超越拖放功能的高级图表.我们 ...
- Databricks文档04----使用 Azure Databricks 提取、转换和加载数据
使用 Azure Databricks 执行 ETL(提取.转换和加载数据)操作. 将数据从 Azure Data Lake Storage Gen2 提取到 Azure Databricks 中,在 ...
最新文章
- 死磕Java并发:J.U.C之阻塞队列:ArrayBlockingQueue
- 交换机VLAN划分详细手册
- api权限管理系统与前后端分离实践
- android keyguard,Android8.1 SystemUI Keyguard之指纹解锁流程
- 2022网络工程师必看好书(最新整理,附PDF下载)
- 2022年计算机二级Java语言程序设计练习题及答案
- 增长黑客手册——01
- 使用Robot Framework实现多平台自动化测试
- 电脑蓝屏代码0x0000007E,技术信息iUSBXCH.sys
- java左手画圆右手画方_左手画圆,右手画方,有两个截然不同的说法,你知道吗?...
- 基于GEC6818开发板的相册
- 全差分放大器(FDA)的基本知识
- 计算机中丢失MSVCR120.dll,电脑找不到MSVCR120.dll怎么办
- 2023年软考高级系统分析师考试时间及安排
- 将字符串写入文件的五种方法
- Visual Studio 2015 提示安装包损坏或丢失
- 强烈推荐 DELPHI 程序员用 KOL+MCK
- Java实现 LeetCode 416 分割等和子集
- 分布式计算机联锁系统,基于MAS的分布式计算机联锁系统研究
- 6.1 ASP.NET Core Web 入门
热门文章
- 依赖注入有点_一文读懂Java控制反转(IOC)与依赖注入(DI)
- java康纳塔评测_JAVA性能、扩展对比
- 高清壁纸|是时候换换心情了
- 海报样机模型|让设计作品从人群中脱颖而出
- 刚入行的UI设计师,通过临摹优秀UI KIT作品开始
- 设计师网站导航的好处
- python能够处理图像的第三方库_基于图像预处理的几个库
- 安装Qemu-6.1.0
- 【configure】如何用automake、autoconf指令生成configure并创建自己的linux tar.gz安装包【初级篇:简单建立-测试】
- 用c语言写的电话簿的程序,用C语言散列表实现电话薄