本文属于【Azure Data Platform】系列。
接上文:【Azure Data Platform】ETL工具(18)——ADF 迭代和条件活动(2)
这次来聊聊Azure Databricks

前言

之所以突然停下ADF的介绍转而向Azure Databricks, 是因为最近公司的项目已经呈现出ADF与Databricks的组合趋势。为了更好地运维公司的项目,有必要了解一下Databricks。并且大概介绍一下Azure Data Factory和Azure Databricks的关系。

什么是Databricks

今时今日,大数据已经不是新鲜事,也已经被大范围地使用。大数据中有一个开源引擎Spark用来支持大规模数据分析。主要通过集群,并行地进行数据处理,从而提高数据处理性能。
Databricks简单来说,就是Azure上的Spark。 它可以很容易地与Blob storage, ADLS, SQL DB, PowerBI 等工具集成

  • Databricks Workspace:一个交互式的工作区,用户(主要是数据的消费者)可以通过这个工作区进行合作。
  • Databricks Runtime : 用于支持运行,提高性能。
  • Databricks File System (DBFS):类似于DataBricks的存储,但是对用户来说是一个抽象层。

它与ADF的区别

ADF主要用于从多个大规模的数据源中进行数据集成,Databricks则通过在单一平台中统一数据、分析和 AI 工作负载从而简化数据架构。

  • ADF是一个PaaS,而Databricks偏向于SaaS。
  • ADF 偏向于数据集成,Databricks则偏向于数据处理,机器学习等。
  • ADF是一个低代码平台,可以通过拖拽的方式来实现绝大部分功能,而Databricks则提供丰富的编程支持

什么时候使用ADF和Databricks

目的上:

ADF:数据集成和数据移动。
Databricks:主要针对机器学习建模。

功能需求上:

ADF:低代码带来的功能并不如Databricks强大。
Databricks:通过编程方式扩展所需功能。

数据处理时效性:

ADF:不适合实时数据流。适合定期抽取数据。
Databricks:通过Spark API,可以实现实时流处理。

综上所述:如果并不需要实时的,过多定制需求的数集成,且希望学习成本不要太高,那么ADF是值得考虑的。否则,那么在ADF和Databricks之间选择的话,Databricks更好。

接下来用一点点篇幅介绍如何创建和使用Azure Databricks。

【Azure Data Platform】ETL工具(19)——Azure Databricks相关推荐

  1. 【Azure Data Platform】ETL工具(20)——创建Azure Databricks

    本文属于[Azure Data Platform]系列. 接上文:[Azure Data Platform]ETL工具(19)--Azure Databricks 本文演示如何创建一个Azure Da ...

  2. 【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合

    本文属于[Azure Data Platform]系列. 接上文:[Azure Data Platform]ETL工具(21)--Azure Databricks使用(1)--访问Azure Blob ...

  3. 【Azure Data Platform】ETL工具(21)——Azure Databricks使用(1)——访问Azure Blob

    本文属于[Azure Data Platform]系列. 接上文:[Azure Data Platform]ETL工具(20)--创建Azure Databricks 本文演示如何通过Azure Da ...

  4. 【Azure Data Platform】ETL工具(11)——ADF 数据流

    本文属于[Azure Data Platform]系列. 接上文:[[Azure Data Platform]ETL工具(10)--ADF 集成运行时(Integration Runtimes,IR) ...

  5. 【Azure Data Platform】ETL工具(8)——ADF 数据集和链接服务

    本文属于[Azure Data Platform]系列. 接上文:[Azure Data Platform]ETL工具(7)--ADF copy data 详解 本文介绍ADF 的数据集 和链接服务 ...

  6. 【Azure Data Platform】ETL工具(13)——ADF并行加载多个文件

    本文属于[Azure Data Platform]系列. 接上文:[Azure Data Platform]ETL工具(12)--ADF 参数 本文介绍ADF 的并行导入多个文件 前言 在一个数据类的 ...

  7. 【Azure Data Platform】ETL工具(6)——重新认识Azure Data Factory

    本文属于[Azure Data Platform]系列. 接上文:[Azure Data Platform]ETL工具(5)--使用Azure Data Factory数据流转换数据 前面开篇第一章主 ...

  8. 【Azure Data Platform】Azure SQLDW与ADLS的整合

    本文属于[Azure Data Platform]系列. 接上文:[Azure Data Platform]Azure Data Lake(1)--简介 前言 在Azure上面,已经没有了data w ...

  9. 【Azure Data Platform】数据平台的选择

    本文属于[Azure Data Platform]系列. 接上文:[Azure Data Platform]Dedicated SQL Pool--导入性能测试(4)--总结 本文谈一下数据平台的选择 ...

最新文章

  1. cmd批处理命令大全1
  2. 有人做出了中文版GPT-2,可用于写小说、诗歌、新闻等;15亿参数版GPT-2被两名研究生复现...
  3. 推荐系统炼丹笔记:阿里边缘计算+奉送20个推荐系统强特
  4. 计算机辅助设计A卷,《计算机辅助设计》考试试卷A.doc
  5. Event and Delegate
  6. php多商户限时抢购,GitHub - 617746883/thinkphp5.0_shop: 基于thinkphp5,多商户商城。积分商城、团购、秒杀、拍卖、夺宝等多插件(持续开发中)...
  7. 战双帕弥什自抽号怎么使用_战双帕弥什新S冰露怎么玩《战双帕弥什》新S冰露玩法技巧...
  8. 【心路】谈谈最近的一些想法吧
  9. js检测弹出窗口拦截程序
  10. wangeditor 请求头_跨域上传 · wangEditor2使用手册 · 看云
  11. SOP 中的 Service
  12. 有关龙的成语(词语)、故事、诗歌
  13. JS 播放语音,将文本转成语音播放
  14. elementUI动态菜单
  15. 利用 nslookup 解析 DNS 记录
  16. B 站上有哪些很好的学习资源?
  17. ak和sk的意思及用法
  18. FFmpeg循环推流
  19. web课程设计网页规划与设计—— 中西餐美食餐饮网站(10页面) html+css+javascript网页设计实例...
  20. 案例 | 珠宝行业:多触点个性化营销,企业微信赋能线下门店导购

热门文章

  1. 成功解决:XXX不在 sudoers 文件中,此事将被报告
  2. [Unity]项目工程文件太大删除Library文件夹会怎么样
  3. 墨子管理启发的“天龙八部”
  4. gitlab+drone+harbor之CI自动化流程
  5. 1000道Python编程题
  6. 深度剖析CMOS、FinFET、SOI和GaN工艺技术
  7. win7如何显示文件后缀名【系统天地】
  8. STM32F05 学习中............
  9. 海阳顶端网php,海阳顶端网的ASP木马的一个漏洞和利用
  10. Win7(Win2003)下安装Node.js(版本号:v0.11.0)提供下载