首页 > 其他分享 >datax采集txt文件数据到hive

datax采集txt文件数据到hive

时间:2023-12-05 17:22:57浏览次数:39  
标签:STRING ods SEND hive datax txt type string name

1、提前创建hive表结构

DROP TABLE IF EXISTS ods.ods_log_1diu;
CREATE TABLE IF NOT EXISTS ods.ods_log_1diu
(
    SI_NO      STRING, --varchar(10) not null,主键
    SEND_TABLE STRING, --varchar(30) not null,主键
    SEQ        STRING, --varchar(11) not null,主键
    SEND_DATE  STRING, --datetime,
    SEND_TIME  STRING  --varchar(6),
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '^'
    STORED AS ORC
    TBLPROPERTIES ('orc.compress' = 'SNAPPY');

2、datax采集json

{
    "job": {
        "content": [
            {
                "reader": {
                    "parameter": {
                        "path": [
                            "${inputFilePath}/LOG_${BeforeDay}*.txt"
                        ],
                        "column": [
                            {
                                "index": 0,
                                "type": "string"
                            },
                            {
                                "index": 1,
                                "type": "string"
                            },
                            {
                                "index": 2,
                                "type": "string"
                            },
                            {
                                "index": 3,
                                "type": "string"
                            },
                            {
                                "index": 4,
                                "type": "string"
                            }
                        ],
                        "skipHeader": "true",
                        "encoding": "UTF-8",
                        "fieldDelimiter": "\t"
                    },
                    "name": "txtfilereader"
                },
                "writer": {
                    "parameter": {
                        "path": "/user/hive/warehouse/ods.db/ods_log_1diu",
                        "fileName": "ods_log_1diu",
                        "compress": "SNAPPY",
                        "column": [
                            {
                                "name": "SI_NO",
                                "type": "STRING"
                            },
                            {
                                "name": "SEND_TABLE",
                                "type": "STRING"
                            },
                            {
                                "name": "SEQ",
                                "type": "STRING"
                            },
                            {
                                "name": "SEND_DATE",
                                "type": "STRING"
                            },
                            {
                                "name": "SEND_TIME",
                                "type": "STRING"
                            }
                        ],
                        "defaultFS": "hdfs://master-:9000",
                        "writeMode": "truncate",
                        "fieldDelimiter": "^",
                        "fileType": "orc"
                    },
                    "name": "hdfswriter"
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": 3
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        }
    }
}

 

标签:STRING,ods,SEND,hive,datax,txt,type,string,name
From: https://www.cnblogs.com/chong-zuo3322/p/17877722.html

相关文章

  • fileinput:一个txt文件的Python库
    文件处理和输入流时,Python中的fileinput模块是一个非常有用的工具。fileinput模块允许迭代处理多个文件,同时还可以处理标准输入流。以下是Python中fileinput模块的五个常见用法。1.逐行迭代文件fileinput模块可以用于逐行迭代处理文件中的内容。importfileinputforlinei......
  • 关于hadoop hive中使用hive分区功能
    很多人习惯了使用第三方的工具去连接hive或者hbase数据库,并且使用其中的sql编辑器进行失去了语句的使用来进行数据的分析等一系列的操作,但是一些shell命令也可以在其中运行例如:1. sethive.exec.dynamic.partition=true;2. sethive.exec.dynamic.partition.mode=nonstr......
  • MATLAB的SAVE命令动态批量保存TXT文件
    使用save();fori=1:6str=[num2str(i),’.txt’];m=[12;34];save(str,’m’,’-ascii’);%注意m的单引号,一定记得加上,否则出错end 将会得到1.txt,2.txt,3.txt,4.txt,5.txt,6.txt.(注意上段代码只是实例,不可在matlab中直接运行,因为输入可能夹杂中文符号,可能出错,最......
  • hive启动时有一堆WARN信息
    hive启动时有一堆WARN信息比如:SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/usr/local/hive/lib/log4j-slf4j-impl-2.17.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J:Foundbindingin[jar:file:/usr/local/hadoop/......
  • Hive的安装与配置
    第1关:Hive的安装与配置在修改conf下面的hive-site.xml文件这里,题目给的信息是错误的,正确的内容如下:<?xmlversion="1.0"encoding="UTF-8"standalone="no"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><configura......
  • hive启动出现Either your MetaData is incorrect, or you need to enable "datanucleu
    hive启动出现:Requiredtablemissing:"`VERSION`"inCatalog""Schema"".DataNucleusrequiresthistabletoperformitspersistenceoperations.EitheryourMetaDataisincorrect,oryouneedtoenable"datanucleus.schema......
  • hive升级元数据报错The reference to entity "useSSL" must end with the ';' delimit
    使用Hive自带的schematool工具升级元数据,也就是把最新的元数据重新写入MySQL数据库中。执行以下命令cd/usr/local/hive./bin/schematool-initSchema-dbTypemysql出现Thereferencetoentity"useSSL"mustendwiththe';'delimiter.修改之前配置的hive-site.xml原......
  • PG14归档失败解决办法archiver failed on wal_lsn
    案例1:pg_wal下有wal_lsn文件案例1适用于以下场景:pg_wal下有该wal_lsn文件而归档目录下无该wal_lsn文件pg_wal和归档目录下同时都有该wal_lsn文件问题描述昨晚Repmgr+PG14主备主库因wal日志撑爆磁盘,删除主库过期wal文件重做备库后上午进行主备状态巡查,主库向备库发送wal文件正常,但......
  • hadoop高可用集群集成hive
    hive和hadoop的关系从上图可以看出实际上外界是通过thriftserver这个节点和hadoop的hdfs以及rm进行交互的,中间为driver因此当我修改完hadoop集群为高可用的时候,hive也需要重新配置环境以下是我hive的全新配置<configuration><!--Hive元数据存储配置--><propert......
  • 一键生成requirements.txt
    pipfreeze>requirements.txt想把requirements.txt放在哪里就在编译器中进入那个地址例如我想放在根目录下(目前来说requirements.txt都是放在根目录下)   回车后一键生成所有项目中的依赖,别人后续在对你的项目进行操作时,一键安装依赖一键安装命令pipinstall-rrequi......