首页 > 其他分享 >kettle从入门到精通 第五十五课 ETL之kettle Excel输入

kettle从入门到精通 第五十五课 ETL之kettle Excel输入

时间:2024-05-05 21:12:32浏览次数:28  
标签:文件 第五十五 文件目录 错误 步骤 kettle Excel 指定

1、 Excel输入,Microsoft Excel输入步骤的作用是从Microsoft Excel中读取数据,如下图所示:

1)Excel输入步骤从文件D:\data\测试数据.xlsx读取数据。

2)将数据通过写日志步骤打印出来。

2、Excel输入步骤-文件配置

 步骤名称:自定义

表格类型(引擎):

Excel 97-2003 XLS:这个引擎是JXL软件后端提供的默认向后兼容类型。
Excel 2007 XLSX(Apache POI):如果您选择这种电子表格类型,您可以读取所有已知的Excel文件类型。功能由Apache POI项目提供。
注意:如果您使用了受密码保护的工作表,您必须将电子表格类型(引擎)设置为Excel 2007 XLSX(Apache POI)。
Excel 2007 XLSX(Apache POI Streaming):这种电子表格类型允许您读取大型Excel文件。
Open Office ODS:通过选择这种类型,您可以使用ODFDOM引擎读取OpenOffice电子表格文件。

文件或目录:通过点击浏览按钮进行选择文件或者目录。

正则表达式:如果上方指定的是目录,这里指定一个正则表达式来匹配指定目录中的文件名。

正则表达式(排除):如果上方指定的是目录,这里指定一个正则表达式来排除指定目录中的文件名。

Password:当Excel文件设置密码保护时,请指定打开Excel文件所需的密码。 

选中的文件:上面点击增加按钮之后的文件会展示在这里,可以删除或者编辑。

从前面的步骤获取文件名:动态设置Excel文件名称。

3、Excel输入步骤-工作表配置,当文件选中之后可以点击获取工作表名称或者手动填写工作表名称也可以。

开始读数据的行号和列号(从0开始),这个根据文件的具体情况进行设置。

4、Excel输入步骤-内容配置。

 1)头部:在“sheet”选项卡中指定的工作表包含标题行需要跳过时,请选择此选项。

2)非空记录:在此步骤的输出中不希望出现空行,请选择此选项。

3)停在空记录:在空数据的地方停下来。

4)限制:在此步骤生成的记录数量上设置一个限制。当设置为零时,结果不受限制。

5)编码:指定要使用的文本文件编码。将此选项留空以使用默认系统编码。首次使用时,PDI会搜索您的系统以获取可用编码。要使用Unicode,请指定UTF-8或UTF-16。

5、Excel输入步骤-错误处理配置。

 严格类型:选择在读取时让PDI报告数据类型错误。

忽略错误:选择是否要在解析过程中忽略错误。这些行可以通过在警告文件目录、错误文件目录和失败行号文件目录中指定路径来转储到单独的文件中。取消选中此选项,以使具有错误的行在此步骤的输出中显示为NULL值。

跳过错误行:选择让PDI跳过包含错误的行。

警告文件目录:指定生成警告时放置警告的目录位置。生成的文件名称为<警告目录>/文件名.<日期_时间>.<警告扩展名>。

错误文件目录:指定发生错误时放置错误的目录位置。生成的文件名称为<errorfile_dir>/文件名.<日期_时间>.<errorfile_extension>。

失败的记录数文件目录:翻译:如果发生行解析错误,请指定放置错误的目录位置。生成的文件名称为<errorline dir>/filename.<date_time>.<errorline extension>。

6、Excel输入步骤-字段配置

 点击偶去来自头部数据的字段按钮进行设置字段。也就是Excel文件第一行的列名。

 

7、Excel输入步骤-其他输出配置。

自定义其他输出字段,然后这些字段会同文件内容一同输出,传递给后续步骤。 

 

标签:文件,第五十五,文件目录,错误,步骤,kettle,Excel,指定
From: https://www.cnblogs.com/zjBoy/p/18166425

相关文章

  • kettle从入门到精通 第五十六课 ETL之kettle Microsoft Excel Output
    1、9.4版本的kettle中有两个Excel输出,Excel输出和MicrosoftExcel输出。前者只支持xls格式,后者支持xls和xlsx两种格式,本节课主要讲解步骤MicrosoftExcel输出,如下图所示: 1)、步骤【生成记录】生成两条测试数据,每条数据里面包含id和name字段。 2)步骤【MicrosoftExcelOutput......
  • Excel求解器使用教程
    添加规则求解加载项创建excel文件,点击文件点击选项选择加载项->规则求解加载项->转到选择规则求解加载项->确定求解器所在位置---数据->规划求解在excel文档中填写相关的计算公式,用来求解点击规则求解,填写对应的目标,可变单元和约束,选择求解方法来求......
  • excel - SUMIF的使用
    SUMIF(range,criteria,[sum_range])range是你要根据条件进行检查的单元格区域。criteria是根据其检查range的条件。这个条件可以是数字、表达式、或文本字符串。[sum_range]是可选的参数,当要求和的数字位于与range不同的区域时使用。如果省略sum_range,Excel会默认......
  • Excel忘记了密码,怎么解开?
      在我们日常工作或者是学习时候,Excel会被经常使用到。我们会通过网络将Excel发送给其他人,但是有时候,为了公司的数据安全或者是保护隐私,防止别人随意修改数据或者是复制数据,通常的办法是给Excel表格加上密码。时间久了,有时候会忘记了密码,怎么解决呢?一起来看看怎么解决。昨天......
  • 有遇到过吗?同样的规则 Excel 中 比Python 结果大
    大家好,我是Python进阶者。一、前言前几天在Python白银交流群【JethroShen】问了一个Python处理Excel数据读取的问题。问题如下:有遇到过吗?同样的规则 Excel中 比Python 结果大?二、实现过程这里【瑜亮老师】和【论草莓如何成为冻干莓】给了一个指导,指出是字符串的问题......
  • java EasyExcel 导出不同dto到多sheet,同时有动态字段,分页写入方案,解决存在oom的问题
    思路 1将一次查询数据改成分页查询,比如一次2000条,2将每次查询的数据按业务分组计算每类业务动态列追加的最大次数treeMap追加列2在excel列表头则是追加2列,名称自定义,我这边是补数字,示例追加列1,追加列2我的业务是按数据库存放的图片来确定最大追加列,需要将图片......
  • 使用 EasyExcel 进行数据解析
    一、添加pom.xml导入相关依赖<dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.12</version></dependency><depende......
  • 如何通过前后端交互的方式制作Excel报表
    前言Excel拥有在办公领域最广泛的受众群体,以其强大的数据处理和可视化功能,成了无可替代的工具。它不仅可以呈现数据清晰明了,还能进行数据分析、图表制作和数据透视等操作,为用户提供了全面的数据展示和分析能力。今天小编就为大家介绍一下,如何通过葡萄城公司的纯前端表格控件Spre......
  • Qt Excel读写 QXlsx的安装配置以及测试
    引言Qt无自带的库处理Excel文件,但可通过QAxObject借助COM接口进行Excel的读写1。亦可使用免费的开源第三方库:QXlsx,一个基于Qt库开发的用于读写MicrosoftExcel文件的C++库。它提供了一组简单易用的API,可以方便地创建、修改和操作Excel文件。一、安装配置1.下载源码,如下图所......
  • Qt Excel的读写
    在Qt中,可以使用第三方库来处理Excel文件,常用的库包括:QXlsx:一个基于Qt的Excel文件处理库,支持读写Excel文件。LibXL:一个商业的Excel文件处理库,支持多种编程语言,包括C++。OpenXLSX:一个开源的Excel文件处理库,支持读写Excel文件,支持多种操作系统。下......