• 2024-09-13Azkaban、oozie、airflow、dolphinschduler 对比分析
    好的,我们可以进一步深入分析Azkaban、Oozie、Airflow和DolphinScheduler的更多技术细节、架构、优缺点,以及在实际场景中的应用情况。1.Azkaban1.1架构组件:WebServer:负责处理用户请求、提交工作流、查看任务状态和管理任务调度。ExecutorServer:负责实际执行
  • 2024-08-06airflow DAG/PIPELINE examples reference
    data-pipelines-with-apache-airflowhttps://github.com/BasPH/data-pipelines-with-apache-airflowCodeforDataPipelineswithApacheAirflowhttps://www.manning.com/books/data-pipelines-with-apache-airflowAsuccessfulpipelinemovesdataefficiently,mi
  • 2024-08-04Airflow vs. Luigi vs. Argo vs. MLFlow vs. KubeFlow
    Airflowvs.Luigivs.Argovs.MLFlowvs.KubeFlowhttps://www.datarevenue.com/en-blog/airflow-vs-luigi-vs-argo-vs-mlflow-vs-kubeflow Airflowisthemostpopularsolution,followedbyLuigi.Therearenewercontenderstoo,andthey’reallgrowingfast
  • 2024-07-25导入airflow会自动创建airflow目录
    我注意到,每当我在Python中导入气流时,它都会自动在我的主目录中创建一个气流目录。从字面上看就是这样$pythonPython3.11.9|packagedbyconda-forge|(main,Apr192024,18:36:13)[GCC12.3.0]onlinuxType"help","copyright","credits"or"license"formo
  • 2024-07-24Airflow 2.7.2 触发badld编写的代码块 Triggerer的异步线程
    我正在运行Airflow版本2.7.2,并且我不断地在触发器日志中看到该问题。Triggerer'sasyncthreadwasblockedfor0.50seconds,likelybyabadly-writtentrigger.SetPYTHONASYNCIODEBUG=1togetmoreinformationonoverrunningcoroutines.我的触发器运行函数是
  • 2024-06-21Airflow:工作流调度的原理与使用指南
    文章目录引言Airflow的原理工作流定义调度器执行器元数据存储用户界面Airflow的使用安装与配置1.环境准备2.安装Airflow3.初始化数据库4.启动Web服务器和调度器5.编写和部署DAGs6.监视和管理结论引言在现代数据处理和分析中,工作流管理变得越来越重要
  • 2024-06-01【定时任务知多少, 横跨10余项目,6种实践方式】
    工作多年,随着项目的不断研发落地,大大小小做了有10+个项目,其中不少涉及到定时任务。今天来盘一下,这些项目中,定时任务的实现方式。通过项目的需求场景,可以看出定时任务需要有什么样的功能。需求1调度需求任务,增,删,查。时效,实时发送/定时发送。2执行需求分布式,多机
  • 2024-05-23CVE-2020-11981
    ApacheAirflowCelery消息中间件命令执行(CVE-2020-11981)ApacheAirflow是一款开源的,分布式任务调度框架。在其1.10.10版本及以前,如果攻击者控制了Celery的消息中间件(如Redis/RabbitMQ),将可以通过控制消息,在Worker进程中执行任意命令。漏洞环境依次执行如下命令启动airflow1.1
  • 2024-05-23CVE-2020-11978
    ApacheAirflow示例dag中的命令注入(CVE-2020-11978)ApacheAirflow是一款开源的,分布式任务调度框架。在其1.10.10版本及以前的示例DAG中存在一处命令注入漏洞,未授权的访问者可以通过这个漏洞在Worker中执行任意命令。漏洞复现cdvulhub/airflow/CVE-2020-11978#初始化数据库d
  • 2024-05-06通过API触发airflow的DAG任务
    背景以前编写的DAG都是通过定时触发的,当前有一个场景需要通过手动提交API来触发,这样能够在用户需要的时候,主动触发执行任务,于是就有了这篇内容的摸索。之前只知道airflow支持通过API来触发任务,但是具体如何操作是真不会,看了官方的API文档,也没找到具体方法,特别是认证这块一直没解
  • 2024-04-24Airflow
    ApacheAirflowhttps://airflow.apache.org/ Airflow™isaplatformcreatedbythecommunitytoprogrammaticallyauthor,scheduleandmonitorworkflows. fromdatetimeimportdatetimefromairflowimportDAGfromairflow.decoratorsimporttaskfromairflow.
  • 2024-04-13windmill Airplane&Superblocks&Retool&Prefect&Airflow 可选工具
    现在调度工具是越来越多了,而且集成的能力也越来越强大了windmill是一个很不错的workflow调度平台功能很强大特性可扩展的执行runtime,支持跨语言代码执行强大的调度器,支持基于低代码以及yaml模式通过appbuilder使用低代码或者js框架开发面向数据的dashboards智能依赖以
  • 2024-04-08Airflow 搭建
    安装采用pip安装#下面的安装方式是通过pip采用清华源来安装,一般安装的版本比较低pipinstallapache-airflow-ihttps://pypi.tuna.tsinghua.edu.cn/simple采用anaconda安装--推荐anacoand/miniforge安装方式参考这里condainstallapache-airflow初始化数据库airflo
  • 2024-04-07使用miniforge平替anaconda,重建airflow服务
    背景因公司通知不能使用anaconda,可以采用miniforge作为开源平替,因之前环境搭建使用的就是anaconda,当前需要卸载并替换成miniforge。那为什么一定要用这个呢,其实也不是一定,而是用这个搭建环境比较省事,如果没用这个,我当前环境的python版本过低,解决这个问题耗费的时间会更久,所以最
  • 2024-03-23【Docker】Airflow 容器化部署
    Airflow环境标准软件基于BitnamiAirflow构建。当前版本为2.8.2你可以通过轻云UC部署工具直接安装部署,也可以手动按如下文档操作,该项目已经全面开源,可以从如下环境获取配置文件地址:https://gitee.com/qingplus/qingcloud-platformqinghub自动安装部署配置库什么是Air
  • 2024-03-06本地快速搭建airflow docker镜像,映射本地路径
    airflow官方文档拉取镜像dockerpullapache/airflow:2.8.2拉取配置文件curl-LfO'https://airflow.apache.org/docs/apache-airflow/2.8.2/docker-compose.yaml'修改刚刚拉取的yaml文件关闭示例dagAIRFLOW__CORE__LOAD_EXAMPLES:'false'映射本地路径volumes:
  • 2024-01-21astronomer-cosmosy一个方便dbt 在apache airflow 运行的工具
    dbt在国外比较火,同时社区也提供了不少调度运行模式(core部分没提供),研究apacheairflow是一个不错的选择,但是原生script模式的调用比较简单,astronomer-cosmosy提供了方便dbt在apacheairflow通过dag以及taskgroups运行的功能支持的特性基于airflowconnections的链接,
  • 2023-11-27airflow
    what:ApacheAirflow是一个提供基于DAG有向无环图来编排工作流的、可视化的分布式任务调度平台,与Oozie、Azkaban等任务流调度平台类似。Airflow在2014年由Airbnb发起,2016年3月进入Apache基金会,在2019年1月成为顶级项目。Airflow采用Python语言编写,提供可编程方式定义D
  • 2023-10-12airflow部署LDAP
    airflow部署目录airflow部署一、构建虚拟环境virtualenv二、安装apache-airflow[celery]==2.7.1三、安装数据库四、安装配置消息队列五、修改配置文件airflow.cfg六、邮件发送配置七、send_email.pytest八、设置systemctl启动九、airflow配置身份验证:LDAP传输层安全协议十、pro
  • 2023-08-12kestra apache airflow 可选方案
    今天我有简单说明过一个mage-ai的airflow替换方案,kestra是另外一个可选方案kestra使用了yaml进行piepline的配置,当然我们也可以直接在ui中操作,kestra包含了自己的插件系统适合的业务场景数据调度分布式调度事件驱动workflow说明kestra也提供了可以在线体验的地址,
  • 2023-08-12mage-ai 替换airflow 的现代数据pipeline 平台
    mage-ai是一个可以替换airflow的现代数据pipeline平台包含的特性友好的开发体验支持python,sql,r语言不以来DAG的可开发模式交互式代码数据优先基于云的协作快速部署扩展简单提供可观测性说明官方提供来的demo站点,可以方便的体验学习,目前来看mage-ai算是一个很
  • 2023-08-08hadoop组件---spark实战-----airflow----调度工具airflow定时运行任务的理解
    我们在前面已经初步了解了airflow:hadoop组件—spark实战-----airflow----调度工具airflow的介绍和使用示例但是我们开始尝试使用airflow的定时任务的时候,常常遇到一个尴尬的情况,任务没有成功运行,或者说设置开始时间是今天,但是明天才开始运行。本篇文章尝试说明其中的
  • 2023-08-08hadoop组件---spark实战-----airflow----调度工具airflow部署到k8s中使用
    在之前的文章中我们已经了解了airflow和它的工作原理。hadoop组件—spark实战-----airflow----调度工具airflow的介绍和使用示例Scheduler进程,WebServer进程和Worker进程需要单独启动。Scheduler和WebServer可以跑在一个操作系统内,也可以分开,而通常Worker需要很多,如果是部署特定
  • 2023-08-08hadoop组件---spark实战-----airflow----调度工具airflow的介绍和使用示例
    Airflow是什么Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和管理,
  • 2023-08-07Airflow 2.2.6 + MySQL 8.0.27 + Redis 7.0.12 部署Airflow任务调度平台
    本docker-compose文件在centos7.9系统,docker版本为24.0.2上测试的如果你的docker版本低于24.xxx就需要手动安装docker-compose,高于24就不需要安装了,docker已经自带了官方文档,关于docker部署1.先执行mkdir-p./dags./logs./plugins./config./