注意

Lineage 支持是非常实验性的,可能会发生变化。

Airflow可以帮助跟踪数据的来源,发生的事情以及数据随时间的变化。 这有助于实现审计跟踪和数据治理,还可以调试数据流。

气流通过任务的入口和出口跟踪数据。 让我们从一个例子开始,看看它是如何工作的。

 from airflow.operators.bash_operator import BashOperator
from airflow.operators.dummy_operator import DummyOperator
from airflow.lineage.datasets import File
from airflow.models import DAG
from datetime import timedeltaFILE_CATEGORIES = [ "CAT1" , "CAT2" , "CAT3" ]args = {'owner' : 'airflow' ,'start_date' : airflow . utils . dates . days_ago ( 2 )
}

阅读全文/改进本文

Airflow 中文文档:Lineage相关推荐

  1. Airflow 中文文档:概念

    Airflow Platform是用于描述,执行和监控工作流的工具. 核心理念 DAG的 在Airflow中, DAG (或定向非循环图)是您要运行的所有任务的集合,以反映其关系和依赖关系的方式进行组 ...

  2. Airflow 中文文档:数据分析

    使用数据生产效率的一部分是拥有正确的武器来分析您正在使用的数据. Airflow提供了一个简单的查询界面来编写SQL并快速获得结果,以及一个图表应用程序,可以让您可视化数据. 临时查询 adhoc查询 ...

  3. Airflow 中文文档:API 参考

    运营商 运算符允许生成某些类型的任务,这些任务在实例化时成为DAG中的节点. 所有运算符都派生自BaseOperator ,并以这种方式继承许多属性和方法. 有关更多详细信息,请参阅BaseOpera ...

  4. Airflow 中文文档:常见问题

    为什么我的任务没有安排好? 您的任务可能无法安排的原因有很多. 以下是一些常见原因: 您的脚本是否"编译",Airflow引擎是否可以解析它并找到您的DAG对象. 要对此进行测试, ...

  5. Airflow 中文文档:时区

    默认情况下启用对时区的支持. Airflow在内部和数据库中以UTC格式存储日期时间信息. 它允许您使用时区相关的计划运行DAG. 目前,Airflow不会将其转换为用户界面中的最终用户时区. 它始终 ...

  6. Airflow 中文文档:用Dask扩展

    DaskExecutor允许您在Dask分布式群集中运行Airflow任务. Dask集群可以在单个机器上运行,也可以在远程网络上运行. 有关完整详细信息,请参阅分布式文档 . 要创建集群,首先启动调 ...

  7. Airflow 中文文档:用Celery扩大规模

    CeleryExecutor是您扩展工人数量的方法之一. 为此,您需要设置Celery后端( RabbitMQ , Redis ,-)并更改airflow.cfg以将执行程序参数指向CeleryExe ...

  8. Airflow 中文文档:管理连接

    Airflow需要知道如何连接到您的环境. 其他系统和服务的主机名,端口,登录名和密码等信息在UI的Admin->Connection部分中处理. 您将创作的管道代码将引用Connection对 ...

  9. Airflow 中文文档:集成

    反向代理 Azure:Microsoft Azure AWS:亚马逊网络服务 Databricks GCP:Google云端平台 反向代理 可以在反向代理后面设置气流,并能够灵活地设置其端点. 例如, ...

最新文章

  1. PE文件结构详解(三)
  2. 精心推荐7款windows端实用软件,让人大开眼界!
  3. linux screen 命令详解
  4. 设置Linux网络的方法
  5. JS 表单、表单验证(表单判断、get、post、submit、validity、checkValidity)
  6. 《Sibelius 脚本程序设计》连载(三十九) - 4.9 SystemStaff
  7. 三个锦囊:剖析 5G 安全难题
  8. Uber “杀人”事件
  9. 用python分析拼多多_python:拼多多订单接口api
  10. Java实现Modbus/TCP客户端与modsim通信
  11. BP神经网络matlab代码
  12. 英语计算机手抄报图片大全,关于英语手抄报图片简单又整洁
  13. Chrome:下载Chrome网上应用店扩展程序crx
  14. 错误异常too many open files解决方法
  15. boost电路输出电流公式_Boost电路的参数计算及仿真
  16. pve 不订阅更新_炉石传说pve冒险到底好玩在哪里?绯夜千雪来告诉你!
  17. lbp2900打印机linux驱动下载,lbp2900打印机驱动下载x64 (canon lbp2900驱动canon lbp2900打印机驱动)下载 - 下载吧...
  18. Android 去掉标题栏
  19. Opencv 实现 运动模糊的添加(motion blur)与消除(demotion blur)
  20. Mac系统关闭重启电脑后「重新打开应用及其窗口」功能的方法

热门文章

  1. (15)System Verilog结构体struct详解
  2. FPGA设计注意事项
  3. 条件随机场python实现_基于条件随机场的多标签分类
  4. string empty java,在C#中,我应该使用string.Empty还是String.Empty或“”来初始化字符串?...
  5. 韦东山和正点原子IMX6ULL开发版的区别
  6. 查看云服务器系统的命令,查看云服务器系统的命令
  7. linux 源码安装node 9,linux如何安装node?
  8. java flash 压缩_Java和flash通信中数据的zlib压缩与解压缩
  9. mysql如何给数据增加tab_怎么往mysql表里添加数据
  10. 《深入理解分布式事务》第八章 TCC 分布式事务原理