Azure之类的超大规模云服务旨在处理大量数据,在购买存储硬件时会利用其规模经济优势。 他们与Bing和Google等搜索引擎的密切关系使他们可以基于为分析公共互联网而开发的算法和工具。 两者的结合使它们成为构建需要处理海量数据集的应用程序的理想平台,而这在您自己的数据中心中是无法实现的。

自成立之初,Microsoft就在Azure上提供了一系列数据和分析服务,从其自己的SQL数据库(该数据库很快成为了熟悉的SQL Server的云托管版本)开始,添加了HDInsight for Hadoop和其他Apache数据服务,以及提供了一个大型数据湖,可让您混合结构化和非结构化数据。 直到最近,这些服务中的大多数还是独立的,并且如果您想将它们组合在一起,则需要构建自己的分析工具。 在Ignite 2019上 ,Microsoft将Azure现有的SQL数据仓库作为Azure Synapse进行了发布 ,重新组织和重新命名,从而增加了对Apache Spark及其自己的Studio开发和分析工具的支持。

[ 也在InfoWorld上:人工智能,机器学习和深度学习:您需要知道的一切 ]

引入Azure Synapse

Azure Synapse 不仅仅是对现有产品的品牌重塑 ,其重点是将Azure的许多数据分析功能集成到单个服务中。 与传统的数据仓库不同,它支持混合的关系数据和非结构化数据,同时仍然允许您使用现有的SQL技能来建立和测试分析模型,并基于Azure SQL的PolyBase大数据查询引擎。 由于它使用内存中的列存储,因此它快速高效,这是使用云服务使用模型时的重要功能。

Synapse与其他数据仓库产品的不同之处在于其源于Azure SQL的hyperscale选项 。 它使用Microsoft称为“数据仓库单元”的群集,而不是由单个计算节点处理所有查询。 这些独立于基础存储的查询计算,使Synapse可以采用海量数据并行方法来处理您的查询。 每个数据仓库单元都具有计算和自定义应用程序,即数据移动服务,该应用程序跨节点并与Azure存储一起使用,以确保在正确的节点中可获得正确的数据。 肯定很快。 Ignite的一个演示将其与30 PB数据集上的Google Big Query进行了比较,并显示Synapse的速度提高了75倍。

这种架构也有价格优势。 与Azure的Paas功能一样,它基本上是无服务器的,可以按需旋转,并在不再需要时暂停。 这样,您只需为用于运行查询和基础存储的计算付费,并根据需要添加更多计算以进行更复杂的分析。

[ 通过InfoWorld的机器学习和分析报告时事通讯来了解机器学习,人工智能和大数据分析的最新进展 ]

Azure Synapse SQL池入门

为Azure Synapse创建新的SQL池遵循与Azure数据仓库相同的路径。 首先在Azure门户中创建新的SQL数据仓库资源。 这使您可以创建具有登录名和密码的新服务器。 选择性能级别将选择默认服务器类型,该服务器类型将设置池的计算成本。 一旦配置好并设置了适当的防火墙规则,您就可以通过选择SQL Server管理工具开始对其进行管理。 查询是使用熟悉的T-SQL方言构建的。 您可以使用PolyBase 将Azure blob存储中的数据加载到临时表中,该临时表用于构建生产表,然后将这些表用于查询。

如果您更喜欢使用Apache Spark分析数据,则该平台将与Apache Spark而不是SQL一起使用。 这种方法为您提供了额外的灵活性,使您可以为问题选择合适的工具。

如果您有现有的Azure SQL数据仓库实例,则可以在Azure Synapse中运行它,从而为使用关系数据和非关系数据的复杂数据集提供了更多选择。 有趣的是,Microsoft承诺与Open Data Initiative源进行集成,其中应包括对Adobe的Marketing Cloud,SAP以及Microsoft自己的Dynamics平台中数据的支持。 Microsoft正在计划用于其他数据源(包括第三方)的连接器。

[ 也在InfoWorld上:用于AI开发的6种最佳编程语言 ]

在Synapse Studio中构建查询

Synapse Studio是新的组合分析平台的关键元素。 它充当一个单一的窗格,用于构建,测试和查看查询结果。 您可以将其与代码一起使用,也可以不与代码一起使用,在运行查询和构建报告之前选择并选择不同的表和源。 可以将同一工具与一次性查询一起使用,以帮助解决特定问题,也可以构建重复查询,这些重复查询可以使用Azure Data Factory进行自动化 ,在其中您需要获取各种数据源的常规报告。

一个有用的功能是Azure Synapse与Power BI的集成。 数据分析师可以使用Azure Synapse构建可以移交给业务分析师的模型,后者可以使用Power BI的可视化分析工具来构建和运行自己的查询,以寻找与自己的兴趣相关的结果。 这种方法减少了找到特定业务问题答案的时间,因为数据团队无需在业务分析师完善其查询的同时不断重建模型并运行昂贵的分析流程。 Power BI集成将确保可以将使用机器学习和其他Azure服务的预建查询内置到执行人员仪表板中,以近乎实时地访问关键业务指标。

[ 通过InfoWorld Daily新闻通讯了解软件开发,云计算,数据分析和机器学习方面的最新发展 ]

从分析到机器学习

访问诸如Azure Synapse中的大型数据存储可以帮助训练您自己的机器学习模型。 Synapse的Studio开发工具包括一个类似于Jupyter Notebook的草图板,用于在Azure机器学习管道中使用新模型之前对其进行构建和测试。 支持R统计数据探索语言以及机器学习的主要工具Python。

Microsoft将Azure Synapse描述为“ PB级”平台。 我们中的大多数人都不需要以这种规模工作,但是以这种规模提供结果的工具可以与较小的数据集以及来自IoT设备的流数据同样有效地工作。 Microsoft建议使用Azure Synapse处理超过1TB的数据,最小数据集大小为250GB。

借助Azure Synapse能够以相对较小的规模启动并快速扩展,以及与数据科学家和业务分析师以及数据库仓库专家共享数据仓库中的数据的能力,使其成为其他内部部署和内部部署的有吸引力的替代方案。云分析工具-特别是可以选择在相同的基础数据集上使用特定于角色的工具。

From: https://www.infoworld.com/article/3489176/a-look-at-azure-synapse.html

初探Azure Synapse相关推荐

  1. Azure Synapse Analytics简介第3部分:数据科学和商业智能

    目录 Power BI集成 Azure机器学习集成 聚合不同的数据源样式 Azure Synapse Analytics中的机器学习功能 结论 在这里,我们讨论并展示了如何使用Azure Synaps ...

  2. Azure Synapse Analytics简介第1部分:什么是Azure Synapse Analytics?

    目录 数据摄取 Azure Data Lake Storage Gen2 数据探索.训练和服务 数据查询服务 Azure Synapse Studio Azure Synapse Notebooks ...

  3. Azure Synapse Analytics (Azure SQL DW)性能优化指南(4)——使用结果集缓存优化性能

    目录 (一)前言 (二)关键命令 1. 对用户数据库启用/禁用结果集缓存 (1)检查数据库的统计信息设置 (2)为数据库启用查询存储 (3)为数据库启用结果集缓存 (4)检查数据库的结果集缓存设置 ( ...

  4. Azure Synapse Analytics(Azure SQL DW) 性能优化指南(2)——使用具体化视图优化性能(上)

    目录 (一)前言 (二)具体化视图与标准视图 1. 两者的定义上区别 2. 具体化视图创建方式 (1)语法 (2)参数 (3)注解 (4)示例 (三)使用具体化视图的优点 (四)常见方案 1. 需要提 ...

  5. 浅谈用KUSTO查询语言(KQL)在Azure Synapse Analytics(Azure SQL DW)审计某DB账号的操作记录

    目录 (一)前言 (二)实际案列 1. 背景说明: 2. 操作步骤 (1)打开Portal (2)搜索"监视器" (3)点击左侧选项卡中的"日志" (4)在新的 ...

  6. 【数据仓库】什么是 Azure Synapse,它与 Azure Data Bricks 有何不同?

    Azure Synapse Analytics 是一项针对大型公司的无限信息分析服务,它被呈现为 Azure SQL 数据仓库 (SQL DW) 的演变,将业务数据存储和宏或大数据分析结合在一起. 在 ...

  7. Azure Synapse Analytics (Azure SQL DW)性能优化指南(1)——使用有序聚集列存储索引优化性能

    目录 (一)前言 (二)有序与无序聚集列存储索引 (三)查询性能 (四)数据加载性能 (五)减少段重叠 (六)在大型表中创建有序 CCI (六)实战案例 A. 检查有序列和序号: B. 若要更改列序号 ...

  8. BO 4.3支持微软的Azure Synapse Analytics 吗?

    微软的Azure Synapse Analytics原名Azure SQL Data Warehouse(以下简称Synapse),是微软推出的一项将企业数据仓库和大数据分析结合在一起按需付费的集成分 ...

  9. Azure Synapse Analytics(Azure SQL DW)中建表语句的注意事项

    目录 (一)前言 (二)建表语法 (三)参数说明 1. 列选项 2. 表结构选项 3. 表分发选项 4. 表分区选项 (四)实例 1. 列的示例 (1) 指定一个列排序规则 (2) 指定列的 DEFA ...

最新文章

  1. 通俗讲解从Transformer到BERT模型!
  2. java数组排序之冒泡排序
  3. 霍夫变换(直线检测、圆检测)
  4. python学习:map()
  5. execve系统调用_张凯捷—系统调用分析(3) (基于最新Linux5.0版本系统调用日志收集系统)...
  6. 做安全操作系统,这位技术老兵是认真的!
  7. 绿屏后再现“粉屏”门!大量网友投诉iPhone 13粉屏问题 客服:非硬件问题
  8. maven 转 gradle
  9. (转)JVM——内存管理和垃圾回收
  10. NYOJ 个人刷题题解
  11. aardio学习记录-1.基本概念和自定义类的调用
  12. python 更换windows壁纸(简单)
  13. Windows下使用smb搭建你的个人云盘(ipad不止爱奇艺)
  14. 计算机管理usb出现问号,USB设备全部都是问号,求助?
  15. 三、数据需求与数据库设计
  16. 关于 geodesic distance 的通俗解释
  17. 《数据分析咖哥十话》包邮送3本
  18. 低代码没有技术含量?来扒扒你所不了解的低代码
  19. 关于 UGUI 字体花屏或乱码
  20. 视屏剪辑背景音乐_文本背景和带有背景剪辑的渐变

热门文章

  1. 20190823考试反思
  2. 语言学习游戏的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  3. elastica安装
  4. 逻辑与和逻辑或的执行顺序
  5. 语音识别服务_语音识别服务厂商_腾讯云语音识别服务 - 云+社区 - 腾讯云
  6. 【java】drools入门之LHS和RHS语法
  7. 一个web项目中web.xmlcontext-param的作用
  8. 分享一些网页设计的素材
  9. 阿里java规范手册总结
  10. 神经网络的严冬与复兴之路