首页 > 其他分享 >kedro IncrementalDataset 简单说明

kedro IncrementalDataset 简单说明

时间:2024-10-01 08:54:22浏览次数:7  
标签:IncrementalDataset type dataset checkpoint kedro 简单 path my

IncrementalDataset 实现了一种增量数据处理的能力,基于了PartitionedDataset 同时包含了checkpoint 确保数据处理的准确性,对于
checkpoint 可以配置自己的函数

参考定义

  • 参考catalog 定义
my_partitioned_dataset:
  type: partitions.IncrementalDataset
  path: s3://my-bucket-name/path/to/folder
  dataset: pandas.CSVDataset
  checkpoint:
    # update the filepath and load_args, but keep the dataset type unchanged
    filepath: gcs://other-bucket/CHECKPOINT
    load_args:
      k1: v1
  • 自定义函数的catalog 配置
my_partitioned_dataset:
  type: partitions.IncrementalDataset
  path: s3://my-bucket-name/path/to/folder
  dataset: pandas.CSVDataset
  checkpoint:
    comparison_func: my_module.path.to.custom_comparison_function  # the path must be importable
  • 指定checkpoint 具体文件
my_partitioned_dataset:
  type: partitions.IncrementalDataset
  path: s3://my-bucket-name/path/to/folder
  dataset: pandas.CSVDataset
  checkpoint:
    force_checkpoint: 2020-01-01/data.csv

说明

增量能力还是很重要的,尤其是在数据量比较大的场景,使用好IncrementalDataset 可以提升数据处理速度

参考资料

https://docs.kedro.org/en/stable/data/partitioned_and_incremental_datasets.html

标签:IncrementalDataset,type,dataset,checkpoint,kedro,简单,path,my
From: https://www.cnblogs.com/rongfengliang/p/18353699

相关文章

  • JavaScript 网页设计案例 简单的电商案例 页面切换 数据搜索 动态网页
    JavaScript网页设计案例简单的电商案例页面切换数据搜索动态网页1.案例描述以下是一个简单的产品展示网页,用户可以通过点击不同的产品类别按钮来查看相应的产品,且在鼠标悬停时显示产品详情。页面还将包含一个搜索框,用户可以输入关键词来筛选产品。2.文件结构-......
  • 实验1 C语言输入输出和简单程序编写
    一,实验目的1.会使用C语言程序开发环境(vs2010/devc++等),能熟练、正确使用它们编写、编译、运行、调试C程序2.知道C程序结构和编码规范,能正确使用3.能正确、熟练使用C语言输入输出函数:scanf(),printf(),getchar(),putchar()4.能灵活、组合使用基本数据类型、运算符和......
  • Gitee简单操作
    gitee上传代码第一步:电脑上先安装git:下载链接https://git-scm.com/downloads#如果在桌面鼠标右键,出现下面两个东西,则安装成功openGitGUIhereopenGitBashhere第二步:注册gitee/github第三步:创建项目仓库(点击右上角+号)本地git配置-全局(最开始做一......
  • 鸿蒙越狱全网最简单方法:不需要安装任何外部APP,不需要修改系统文件,几分钟完成,偶然中发
    亲测有效,特别简单。先上图   下面教方法。进“设置”→“应用和服务”→“应用管理”,把所有自带的系统应用能关的全全掉,能卸载的全部卸载更新,全部将至出厂版本即可。我不知道其中的原理,但我怀疑是出厂系统软件没有过多功能,因此就不会对手机软件安装施加过多限制。卸......
  • @Validated和@Valid简单使用
    当使用apifox时,我们需要必传字段做标记,可以使用@NotEmpty(message="id不能为空")同时在入参位置添加@Valid@RequestBody其中@Valid起到关键作用效果图 同时在apifox中 这样测试或者前端去测试接口的时候就知道哪些字段一定要传,哪些是非必要的@NotEmpty引入jar包impor......
  • Scala数据结构简单介绍
    数据结构的定义: 1.数组(Array)    (1)定义:        定长数组:newArray[T](数组长度)        变长数组:ArrayBuffer[T]()    (2)示例:        定长数组:valarr1=newArray[Int](3)        变长数组(需提前导包):valarr2=Arr......
  • label-studio的简单使用
    人工标注一、语义角色:Agent:实施动作的主体Action:谓语,动作Patient:承受动作的客体Time:发生动作的时间Location:发生动作的地点二、工具——labelstudio官方网址:OpenSourceDataLabeling|LabelStudio使用工具:labelstudio安装命令:pipinstalllabel-studio启动命令:label-studio访......
  • 实验1_C语言输入输出和简单程序应用编程
    任务1://打印一个字符小人#include<stdio.h>intmain(){printf("O\n");printf("<H>\n");printf("II\n");printf("O\n");printf("<H>\n");printf("II\n");r......
  • 简单的XGBoost案例
    一、前言    今天我们来一起学习一个新的算法模型,XGboost算法:     1、XGBoost的特性        XGBoost(ExtremeGradientBoosting)是一个高效的开源机器学习库,广泛应用于结构化数据的分类和回归问题。它基于梯度提升算法,利用决策树的集成方法来提高模型的......
  • WPF下使用FreeRedis操作RedisStream实现简单的消息队列
    RedisStream简介RedisStream是随着5.0版本发布的一种新的Redis数据类型:高效消费者组:允许多个消费者组从同一数据流的不同部分消费数据,每个消费者组都能独立地处理消息,这样可以并行处理和提高效率。阻塞操作:消费者可以设置阻塞操作,这样它们会在流中有新数据添加时被唤醒并开始......