• 2024-07-30DataX 常见问题及解决方式
    1.同步到PG出现invalidbytesequenceforencoding"UTF8":0x00”“invalidbytesequenceforencoding"UTF8":0x00”(注意:若不是0x00则很可能是字符集设置有误),是PostgreSQL独有的错误信息,直接原因是varchar型的字段或变量不接受含有'\0'(也即数值0x00、UTF编码
  • 2024-07-27DataX(一):DataX简介
    1.什么是DataXDataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。2.DataX的设计为了解决异构数据源同步问题,DataX将复杂的网状的同步
  • 2024-07-22数据迁移(同步)-datx
    本期介绍数据迁移工具-datax的使用。1.安装datax是阿里开源的数据同步工具,常见于大数据应用。之前我们项目选型为Sqoop,但是很遗憾该工具和eureka一样早已停止维护了,所以选择使用datax。https://github.com/alibaba/DataX(推荐去GitHub上看一看,因为有很多资料可以供你更全面
  • 2024-07-17datax rdbmsreader
    See:DataX/rdbmsreader/doc/rdbmsreader.mdatmaster·alibaba/DataXSeealso:ConfiguringImpalatoWorkwithJDBC1快速介绍RDBMSReader插件实现了从RDBMS读取数据。在底层实现上,RDBMSReader通过JDBC连接远程RDBMS数据库,并执行相应的sql语句将数据从RDBMS库中SEL
  • 2024-07-08datax使用
    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、datax的使用流程二、我踩的坑1.json格式相关2.mysql配置3.我自己蠢总结前言datax的使用流程和本人踩的坑一、datax的使用流程以mysql->mysql为例datax使用流程(macOS版本官网下
  • 2024-07-07大数据之路 读书笔记 Day4 数据同步
    回顾:Day3总结了无限客户端的日志采集大数据之路读书笔记Day3Day2总结了浏览器端的日志采集大数据之路读书笔记Day2数据同步阿里数据体系中的数据同步,主要指的是在不同的数据存储系统之间进行数据的传输与更新,以保证数据的一致性和实时性。这个过程通常涉及
  • 2024-07-03DataX3的学习
    阿里云开源离线同步工具DataX3.0一.DataX3.0概览DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同
  • 2024-06-19ETL可视化工具 DataX -- DataX-Web安装 (三)
    引言DataX系列文章:ETL可视化工具DataX–简介(一)ETL可视化工具DataX–安装部署(二)3.1简介DataXWeb是在DataX之上开发的分布式数据同步工具,提供简单易用的操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选
  • 2024-06-16ETL可视化工具 DataX -- 简介( 一)
    引言DataX系列文章:ETL可视化工具DataX–安装部署(二)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、A
  • 2024-06-052.6倍!WhaleTunnel 客户POC实景对弈DataX
    作为阿里早期的开源产品,DataX是一款非常优秀的数据集成工具,普遍被用于多个数据源之间的批量同步,包括类似ApacheDolphinScheduler的Task类型也对DataX进行了适配和增强,可以直接在DolphinScheduler里面利用通用的数据源调用DataX进行数据批量同步。作为DolphinScheduler的社区支
  • 2024-06-04异构数据源同步之数据同步 → DataX 使用细节
    开心一刻中午我妈微信给我消息妈:儿子啊,妈电话欠费了,能帮妈充个话费吗我:妈,我知道了,我帮你充当我帮我妈把话费充好,正准备回微信的时候,我妈微信给我发消息了妈:等会儿子,不用充了,刚刚有个二臂帮妈充上了我输入框中的(妈,充好了)是发还是不发?简单使用关于DataX,大家可以去看官网
  • 2024-06-03mysqlwirter
    DataXMysqlWriter1快速介绍MysqlWriter插件实现了写入数据到Mysql主库的目的表的功能。在底层实现上,MysqlWriter通过JDBC连接远程Mysql数据库,并执行相应的insertinto...或者(replaceinto...)的sql语句将数据写入Mysql,内部会分批次提交入库,需要数据库本
  • 2024-06-03datax修改 hdfsReader源码实现空文件及目录为空时,程序退出不抛出异常
    最近在使用datax_202309时,有任务需要将hive的数据按天同步到mysql,由于同步的表由业务生成,故可能有的表当天是没有数据产生,就会抛出出现下面的错误:问题:datax读取hive分区表时,datax-hdfsReader读取空目录报错问题描述:com.alibaba.datax.common.exception.DataXException:Code:[
  • 2024-06-03DataX HiveReader
    DataXHiveReader来源:github-datax-hivereader1快速介绍Hivereader插件:从Hive表读取数据2实现原理实现方式是:根据配置的QuerySql,通过将查询结果保存到一张新的临时hive表中这种方式;然后获取临时表的hdfs文件地址,然后读取文件到缓冲区,最后删除临时的表。3功能说明Hiv
  • 2024-05-30datax 从 hive 同步数据配置
    DataXHiveReader1快速介绍Hivereader插件:从Hive表读取数据2实现原理实现方式是:根据配置的QuerySql,通过将查询结果保存到一张新的临时hive表中这种方式;然后获取临时表的hdfs文件地址,然后读取文件到缓冲区,最后删除临时的表。3功能说明Hivereader插件:从Hive表读取数据
  • 2024-05-28datax 抽取hive表到doris
    datax读取hive表有两种方式,一种是读取hdfs文件路径HDFSReader,因为hive是存储在hdfs上。第二种是读取hive表RDBMSReader。HDFSReader{"job":{"setting":{"speed":{"channel":3},"
  • 2024-05-27异构数据源同步之数据同步 → datax 再改造,开始触及源码
    开心一刻其实追女生,没那么复杂只要你花心思,花时间,陪她聊天,带她吃好吃的,耍好玩的,买好看的慢慢你就会发现什么叫做打水漂不说了,我要去陪她看电影了前情回顾异构数据源同步之数据同步→datax改造,有点意思主要讲到了2点去Python,直接在命令行用java命令来启动通过
  • 2024-05-25datax和datax-web时间问题处理(定时任务没有按指定时间触发、日志时间错误)
    datax-web和datax各种时间不准问题此文目的为解决日志输出中的时间不准确问题和datax-web定时任务触发时间不对的问题(以东八区为例),但首先要确认操作系统的时间和时区是正常的!!!。总体思路就是修改时区,修改三个文件:datax.py、datax-executor.sh、datax-admin.sh在对应的位置加上时
  • 2024-05-20异构数据源同步之数据同步 → datax 改造,有点意思
    开心一刻去年在抖音里谈了个少妇,骗了我9万后来我发现了,她怕我报警她把她表妹介绍给我然后她表妹又骗了我7万DataXDataX是什么,有什么用,怎么用不做介绍,大家自行去官网(DataX)看,Gitee上也有(DataX)你们别不服,我这是为了逼迫你们去自学,是为了你们好!文档很详细,也是开源的,
  • 2024-05-17DataX将Oracle数据库数据同步到达梦数据库
    1.DataX3.0开源版本,rdbms里面默认是达梦7的驱动,因此,如果像链接达梦8需要替换驱动。需要将达梦8的驱动放在D:\datax\lib、D:\datax\plugin\reader\rdbmsreader\lib和D:\datax\plugin\reader\rdbmswriter\lib下D:\datax\plugin\reader\rdbmsreader\plugin.json和D:\datax\plugin\re
  • 2024-05-16阿里DataX极简教程
    目录简介工作流程核心架构核心模块介绍DataX调度流程支持的数据实践下载环境执行流程引用简介DataX是一个数据同步工具,可以将数据从一个地方读取出来并以极快的速度写入另外一个地方。常见的如将mysql中的数据同步到另外一个mysql中,或者另外一个mongodb中。工作流程read:设置
  • 2024-05-16DataX将MySql数据库数据同步到Oracle数据库
    1.下载DataX并解压(本地环境安装有python)DataX/userGuid.mdatmaster·alibaba/DataX(github.com) job文件夹下存放数据同步的json脚本{"job":{"setting":{"speed":{"channel":1}
  • 2024-04-24阿里云开源离线同步工具DataX3.0介绍
    一.DataX3.0概览​DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据
  • 2024-04-23DataX二次开发详解-Kingbasees86Reader、Kingbasees86Writer插件
     一、前提国产数据库的崛起元年,不得不提人大金仓(Kingbase)、南大通用数据库(Gbase)、达梦数据库(DM)、华为数据库(GaussDB)、阿里数据库(Oceanbase)等,此文章介绍采用datax作为同步人大金仓Kingbase86数据库的工具。目前github上的datax版本功能仅支持Kingbase82系列产品。而项目上如果要
  • 2024-04-22Datax助力轻松迁移SQLServer数据至GreatSQL
    1.环境说明1.1源端SQLSserver版本IP端口MicrosoftSQLServer2017192.168.140.16014331.2目标端GreatSQL版本IP端口GreatSQL-8.0.32192.168.139.8633082.安装环境2.1安装SQLServer环境环境说明:借助Docker使用镜像启动数据库2.1.1安装docke