首页 > 其他分享 >数据抽取平台pydatax介绍

数据抽取平台pydatax介绍

时间:2024-02-21 16:14:35浏览次数:18  
标签:抽取 kettle pydatax 平台 系统 shell datax 数据

   缘起一:

        公司现有数据仓库,是通过kettle从mysql抽取到目标库,运行多年,主要有以下问题,

            1,效率低:kettle抽取行数少 

            2,容错性差:一个表抽取出错就导致后续计算会出问题,

            3,扩展性差: 对多库多表等支持不好

     近300张表抽取,再加上计算,每天都算到7点,还有2个巨大的计算要等到10点左右才能算完。

    上一任数仓开发者,使用datax来替换kettle,将数据通过datax抽取到新的greeplum中,效率很高,而且稳定,但每个表一个shell文件,300个表要300个shell文件,每次修改都要登陆到linux修改,太麻烦了。但迁移了部分表又没有全部迁移。

     自从2022年11月接下这套数据仓库系统,就想怎么优化这数仓系统。

  缘起二:

       2023年10月开始,公司接了几个关于数据指标系统计算的大单。经济形势不好,经济上开始开源节流,我们这些维护人员转做项目,当项目确定后,和另一个开发人员一起做个数据仓库系统。这个数据仓库的ETL抽取层任务交给我,因为以前设计和实现过下面2个系统:

        1、SSIS数据同步系统

        2,用ELK分析每天4亿多条腾讯云MySQL审计日志(1)--解决过程   

   借鉴2个系统的思路,就想,是否可以通过程序调用datax,做个闭环的基于datax的系统,不用再写很多shell文件,将其元数据都配置化,提高开发效率。

 方法:

      市面上是有datax_web这个可视化配置平台,自己测试,和自己想要的不一样,思考了一下,要么用linux的shell或者python3来写这个datax的配置调度,将其需要的数据都配置化:

       1,测试了linux的shell,在读取mysql表数据字段数据时,进行多字段数据读取,字段数据读出后,不能很好分割出,有空格的会作为一个新字段。不可用

       2,因datax也是python开发的,支持python2,想用python3程序开发,实现配置化,通过测试,发现是可以直接在python3程序调用datax,而且很方便。 可用

  目标:   简化datax的开发,其配置等数据都数据库表配置化

        经过1个多月的开发和测试,达到了上面的2个要求,同时可以记录执行过程等相关信息(如抽取时间,抽取速度,抽取行数等),执行错误记录相关错误信息,不用再登陆到linux去看日志文件信息。

        这个小系统,被命名为pydatax抽取系统,和以前用kettle和单个文件datax相比,有很大优势: 简单,实用和高效

     pydatax新系统带来巨大便利:

    1.   抽取表等相关信息数据全部可配置化
    2.   抽取出错信息直接表中查看
    3.   新加和修改直接修改表数据即可完成,极大提高效率
    4.   抽取历史数据和错误数据可单独执行
    5.   有抽取的历史记录日志等信息

 

       

 

标签:抽取,kettle,pydatax,平台,系统,shell,datax,数据
From: https://www.cnblogs.com/zping/p/18006506

相关文章

  • 开发者选择与实施低代码平台的终极指南
    低代码技术的全面兴起,给开发者提供了更多样的开发方式,但挑战也随之而来。本文旨在提供一个全面的指南,帮助开发者有效选择和实施低代码或无代码开发平台。为什么选择低代码平台?不是所有的业务开发都需要低代码平台。如果你的项目满足以下几个典型特征你可以考虑:业务探索中,需求......
  • .NET 9 预览版:打造云原生及人工智能 AI 平台
    前言微软发布了.NET9首个预览版,分享.NET团队对.NET9的初步愿景,该愿景将于今年年底在.NETConf2024上发布。重点关注针对云原生和人工智能领域的应用程序开发以及在性能、生产力和安全性方面投入大量资源,将.NET9打造成云原生开发平台和工具。 云原生.NET团队......
  • 怎样建设供应商文件分发平台?这三点陷阱需注意
    供应商在市场经济中是不可或缺的角色,供应商作为重要的环节,串联起从商品生产到消费者的链路,而供应商特殊的点在于供应商并不能单独存在,相反它与上下游关系非常紧密。上游供应商是指向供应商提供原材料、零部件或其他支持的企业或组织。上游供应商通常负责生产或制造商品所需的原......
  • [转]基于前端技术栈的PC跨平台桌面应用开发技术Electron简介及快速入门
    原文地址:Electron简介及快速入门-知乎大江东去:基于EA的软件工程创新理论与最佳实践第四章:桌面应用系统开发基础及入门第四节:Electron简介及快速入门一、Electron基本介绍官网地址:https://www.electronjs.org/Electron是一个由OpenJS基金会维护的开源项目,也是一个活跃的......
  • 安防监控/视频汇聚/监控摄像头EasyCVR平台如何通过RTMP协议进行推流?
    众所周知,安防视频汇聚平台EasyCVR不仅可支持的接入协议非常多(包括:国标GB28181、RTSP/Onvif、RTMP,以及厂家的私有协议与SDK,如:海康ehome、海康sdk、大华sdk、宇视sdk、华为sdk、萤石云sdk、乐橙sdk等),同时可分发的视频流格式也非常丰富,具体包括:RTMP、RTSP、HTTP-FLV、WebSocket-FLV、......
  • 智能视频监控平台智能边缘分析一体机视频监控平台AI算法智能检测人员违规打电话
    在数字化时代的浪潮中,智能视频监控平台如同一双无所不见的眼睛,默默守护着我们的安全。而在这些平台中,智能边缘分析一体机以其独特的AI算法和智能检测功能,成为了维护规范和秩序的得力助手。今天,让我们一同探索这项技术如何在不断演进中,为我们的社会带来更加安全和高效的保障。......
  • 视频智能分析平台LntonAIServer视频监控管理平台车辆检测算法车辆识别
    在这个信息爆炸的时代,数据如同洪流般汹涌而来,而我们,正站在这股洪流的前沿,试图捕捉那些能够引领我们走向更加智能化未来的珍贵数据。在众多领域之中,视频监控管理平台的发展尤为迅猛,它们不仅仅是简单的录像工具,更是智能分析和管理的关键节点。而在这场智能化的革命中,LntonAIServer......
  • 智能视频监控平台LntonAIServer视频汇聚算法识别行人入侵算法检测
    在当今这个信息化飞速发展的时代,安全一直是我们无法回避的话题。随着人工智能技术的不断进步,智能监控系统已经成为了维护社会安全的有力工具。在众多的智能监控技术中,LntonAIServer视频汇聚算法和行人入侵检测算法是两种重要的技术,它们如同两位无声的守护者,默默守护着我们的安全......
  • 当平台工程遇上DevEx:打造卓越的开发者体验
    引言近期在参与编写平台工程系列标准时,我发现开发者体验(DevEx)是一个不可忽视的关键因素,它对于构建一个成功的平台工程起到了重要的作用,DevEx可以称之为平台工程的基础。基于我最近的学习和思考,我决定写这篇文章,想深入探讨一下DevEx对于内部开发平台的重要性,也希望为从事内......
  • 视频智能分析平台智能边缘分析一体机视频汇聚智能算法分析园区客流统计算法检测
    在城市的脉动中,园区作为经济活动的重要载体,扮演着举足轻重的角色。无论是科技园区、商务园区还是文化创意园区,它们都是城市发展活力的缩影。然而,随着竞争的加剧和需求的多样化,传统的园区管理方式已经难以满足现代园区的发展需求。这时,智能边缘分析一体机园区客流统计技术应运而生......