datax修改 hdfsReader源码实现空文件及目录为空时，程序退出不抛出异常

时间：2024-06-03 14:34:29浏览次数：31

标签：LOG hdfsReader List splitNumber 源码 datax 读取

最近在使用datax_202309时，有任务需要将hive的数据按天同步到mysql, 由于同步的表由业务生成，故可能有的表当天是没有数据产生，就会抛出出现下面的错误：

问题：datax读取hive分区表时，datax-hdfsReader 读取空目录报错
问题描述：
com.alibaba.datax.common.exception.DataXException: Code:[HdfsReader-08], Description:[您尝试读取的文件目录为空.]. - 未能找到待读取的文件,请确认您的配置项path: /user/hive/warehouse/dws.db/dws_index_business_xzkh/dt_date=2024-01-02

解决办法：下载datax源码，修改源码,修改完后编译打包，上传并替换 datax安装${datax}/plugin/reader/hdfsreader/ 目录下面的 hdfsreader-0.0.1-SNAPSHOT.jar

 public List<Configuration> split(int adviceNumber) {

            LOG.info("split() begin...");
            List<Configuration> readerSplitConfigs = new ArrayList<Configuration>();
            // warn:每个slice拖且仅拖一个文件,
            // int splitNumber = adviceNumber;
            int splitNumber = this.sourceFiles.size();
            if (0 == splitNumber) {
            /*    throw DataXException.asDataXException(HdfsReaderErrorCode.EMPTY_DIR_EXCEPTION,
                        String.format("未能找到待读取的文件,请确认您的配置项path: %s", this.readerOriginConfig.getString(Key.PATH)));*/
                //异常处理逻辑修改
                LOG.warn(String.format("未能找到待读取的文件,请确认您的配置项path: %s", this.readerOriginConfig.getString(Key.PATH)));
                LOG.info("split() end");
                LOG.info("Task exited with return code 0");
                System.exit(0);
            }

            List<List<String>> splitedSourceFiles = this.splitSourceFiles(new ArrayList<String>(this.sourceFiles), splitNumber);
            for (List<String> files : splitedSourceFiles) {
                Configuration splitedConfig = this.readerOriginConfig.clone();
                splitedConfig.set(Constant.SOURCE_FILES, files);
                readerSplitConfigs.add(splitedConfig);
            }

            return readerSplitConfigs;
        }

展示效果：

标签：LOG,hdfsReader,List,splitNumber,源码,datax,读取
From： https://www.cnblogs.com/henyu/p/18228849

DataX HiveReader
DataXHiveReader来源：github-datax-hivereader1快速介绍Hivereader插件:从Hive表读取数据2实现原理实现方式是:根据配置的QuerySql,通过将查询结果保存到一张新的临时hive表中这种方式；然后获取临时表的hdfs文件地址，然后读取文件到缓冲区，最后删除临时的表。3功能说明Hiv......
hdfsreader
hdfsreader来源：github-datax-hdfsreader1快速介绍HdfsReader提供了读取分布式文件系统数据存储的能力。在底层实现上，HdfsReader获取分布式文件系统上文件的数据，并转换为DataX传输协议传递给Writer。目前HdfsReader支持的文件格式有textfile（text）、orcfile（orc）、rcfile（rc）、sequ......
学生家乡网页设计作品静态HTML网页模板源码广西旅游景点网页设计大学生家乡主题网站
家乡旅游景点网页作业制作网页代码运用了DIV盒子的使用方法，如盒子的嵌套、浮动、margin、border、background等属性的使用，外部大盒子设定居中，内部左中右布局，下方横向浮动排列，大学学习的前端知识点和布局方式都有运用，CSS的代码量也很足、很细致，使用hover来完成过渡效果、鼠......
一文带你理解透MyBatis源码
本文分享自华为云社区《一文彻底吃透MyBatis源码！！》，作者：冰河。写在前面随着互联网的发展，越来越多的公司摒弃了Hibernate，而选择拥抱了MyBatis。而且，很多大厂在面试的时候喜欢问MyBatis底层的原理和源码实现。总之，MyBatis几乎成为了Java开发人员必须深入掌握的框架技术，今天，我们就......
java springboot基于Android平台的诗词学习系统APP小程序万字文档和PPT(源码+lw+部署
前言......
java springboot基于bs 架构的母婴用户商城全程服务管理系统万字文档和PPT(源码+lw+部
前言......
java springboot基于BS的小区家政服务预约平台的设计与实现万字文档和PPT(源码+lw+部
前言......
java springboot基于BS架构的校园体育器材管理系统设计与实现万字文档和PPT(源码+lw+
前言......
基于SpringBoot+Vue毕业设计管理系统设计和实现(源码+LW+部署讲解)
......
集合类源码浅析のArrayList
源码分析路线图：初级部分：ArrayList->LinkedList->Vector->HashMap(红黑树数据结构，如何翻转，变色，手写红黑树)->ConcurrentHashMap中级部分：Spring->SpringMVC->SpringBoot->Mybatis核心类源码高级部分：中间件源码（有生之年系列）第一篇，从最简单的ArrayList入手分析1、成员变量......

datax修改 hdfsReader源码实现空文件及目录为空时，程序退出不抛出异常

相关文章

赞助商

阅读排行