首页 > 其他分享 >datax 抽取hive表到doris

datax 抽取hive表到doris

时间:2024-05-28 16:12:38浏览次数:26  
标签:count ads column 表到 ods hive datax doris name

datax读取hive表有两种方式,一种是读取hdfs文件路径HDFSReader,因为hive是存储在hdfs上。第二种是读取hive表RDBMSReader。

HDFSReader

{
    "job": {
        "setting": {
            "speed": {
                "channel": 3
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [{
            "reader": {
                "name": "hdfsreader",
                "parameter": {
                    "path": "/user/hive/warehouse/ods.db/ods.ods_count/*",
                    "defaultFS": "hdfs://ip:9000",
                    "column": [{
                            "type": "STRING",
                            "index": "0"
                        },
                        {
                            "type": "STRING",
                            "index": "1"
                        }
                    ],
                    "fileType": "orc",
                    "fieldDelimiter": "\u0001",
                    "nullFormat": "null"
                }
            },
            "writer": {
                "name": "doriswriter",
                "parameter": {
                    "loadUrl": ["ip:8031"],
                    "loadProps": {
                        "column_separator": "\\x01",
                        "line_delimiter": "\\x02"
                    },
                    "database": "ads",
                    "column": [
                        "ID",
                        "NAME"
                    ],
                    "username": "${mysqlwriterUsername}",
                    "password": "${mysqlwriterPassword}",
                    "postSql": [],
                    "preSql": ["truncate table count"],
                    "connection": [{
                        "jdbcUrl": "jdbc:mysql://IP:9031/ads?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai",
                        "table": ["count"],
                        "selectedDatabase": "ads"
                    }]
                }
            }
        }]
    }
}

RDBMSReader

{
    "job": {
        "setting": {
            "speed": {
                "channel": 3
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [{
            "reader": {
                "name": "rdbmsreader",
                "parameter": {
                    "username": "${hiveusername}",
                    "password": "${hivepassword}",
                    "splitPk": "",
                    "connection": [{
                        "querySql": [
                            "select * from ods.test where 1 = 1"
                        ],
                        "jdbcUrl": ["jdbc:hive2://ip:port/default"]
                    }]
                }
            },
            "writer": {
                "name": "doriswriter",
                "parameter": {
                    "loadUrl": ["IP:PORT"],
                    "loadProps": {
                        "column_separator": "\\x01",
                        "line_delimiter": "\\x02"
                    },
                    "database": "ads",
                    "column": [
                        "ID",
                        "NAME"
                    ],
                    "username": "${mysqlwriterUsername}",
                    "password": "${mysqlwriterPassword}",
                    "postSql": [],
                    "preSql": ["truncate table count"],
                    "connection": [{
                        "jdbcUrl": "jdbc:mysql://${writeJdbcUrl}",
                        "table": ["count"],
                        "selectedDatabase": "ads"
                    }]
                }
            }
        }]
    }
}

 

标签:count,ads,column,表到,ods,hive,datax,doris,name
From: https://www.cnblogs.com/chong-zuo3322/p/18218228

相关文章

  • 异构数据源同步之数据同步 → datax 再改造,开始触及源码
    开心一刻其实追女生,没那么复杂只要你花心思,花时间,陪她聊天,带她吃好吃的,耍好玩的,买好看的慢慢你就会发现什么叫做打水漂不说了,我要去陪她看电影了前情回顾异构数据源同步之数据同步→datax改造,有点意思主要讲到了2点去Python,直接在命令行用java命令来启动通过......
  • 使用benthos 实现stream load入库到doris
    下面给出yaml配置,只有input和output,中间可以自定义数据转换pipeline当前的数据从kafka中取出来就是json格式,所以不需要进行处理转换,输出段使用http_client组件,配置批处理提高吞吐量input:broker:copies:9inputs:-kafka:addresses:......
  • datax和datax-web时间问题处理(定时任务没有按指定时间触发、日志时间错误)
    datax-web和datax各种时间不准问题此文目的为解决日志输出中的时间不准确问题和datax-web定时任务触发时间不对的问题(以东八区为例),但首先要确认操作系统的时间和时区是正常的!!!。总体思路就是修改时区,修改三个文件:datax.py、datax-executor.sh、datax-admin.sh在对应的位置加上时......
  • Apache DorisDB 线上部署
    ApacheDorisDB线上部署一、机器资源(初始)机器IPHostname内存CPU磁盘172.16.203.151dorisdb203-15116g4核500G172.16.203.152dorisdb203-15216g4核500G172.16.203.153dorisdb203-15316g4核500G二、角色分配机器IP角色172.16.203.15......
  • Doris:数据导入导出
    数据导入导入(Load)功能就是将用户的原始数据导入到Doris中。导入成功后,用户即可通过Mysql客户端查询数据。为适配不同的数据导入需求,Doris系统提供了6种不同的导入方式(Broker、Stream、Insert、Multi、Routine、S3)。每种导入方式支持不同的数据源,存在不同的使用方式(异步,......
  • Doris:概念与基础操作
    Doris一款现代化的MPP分析性数据库产品支持亚秒级响应支持10PB以上数据集兼容MySQL协议基础概念doris有3种基础表:明细表(Duplicate):一张普普通通的表,doris默认表模式,支持数据预排序主键表(Unique):一种特殊的聚合表,如果主键重复,会自动更新其他值聚合表(Aggregate):聚合模......
  • 异构数据源同步之数据同步 → datax 改造,有点意思
    开心一刻去年在抖音里谈了个少妇,骗了我9万后来我发现了,她怕我报警她把她表妹介绍给我然后她表妹又骗了我7万DataXDataX是什么,有什么用,怎么用不做介绍,大家自行去官网(DataX)看,Gitee上也有(DataX)你们别不服,我这是为了逼迫你们去自学,是为了你们好!文档很详细,也是开源的,......
  • DataX将Oracle数据库数据同步到达梦数据库
    1.DataX3.0开源版本,rdbms里面默认是达梦7的驱动,因此,如果像链接达梦8需要替换驱动。需要将达梦8的驱动放在D:\datax\lib、D:\datax\plugin\reader\rdbmsreader\lib和D:\datax\plugin\reader\rdbmswriter\lib下D:\datax\plugin\reader\rdbmsreader\plugin.json和D:\datax\plugin\re......
  • 阿里DataX极简教程
    目录简介工作流程核心架构核心模块介绍DataX调度流程支持的数据实践下载环境执行流程引用简介DataX是一个数据同步工具,可以将数据从一个地方读取出来并以极快的速度写入另外一个地方。常见的如将mysql中的数据同步到另外一个mysql中,或者另外一个mongodb中。工作流程read:设置......
  • DataX将MySql数据库数据同步到Oracle数据库
    1.下载DataX并解压(本地环境安装有python)DataX/userGuid.mdatmaster·alibaba/DataX(github.com) job文件夹下存放数据同步的json脚本{"job":{"setting":{"speed":{"channel":1}......