• 2024-10-01kedro IncrementalDataset 简单说明
    IncrementalDataset实现了一种增量数据处理的能力,基于了PartitionedDataset同时包含了checkpoint确保数据处理的准确性,对于checkpoint可以配置自己的函数参考定义参考catalog定义my_partitioned_dataset:type:partitions.IncrementalDatasetpath:
  • 2024-09-26kedro package 项目运行内部处理
    kedropackage会将开发的datapipeline项目构建为一个标准的pythonwhl格式包(build模块),之后我们就可以直接基于项目模块运行开发的pipeline了,以下简单说明下内部处理项目结构为了将kedropipeline项目提供为一个可以通过模块直接运行的,kedrostarter包含了一个__main__.p
  • 2024-09-24metaflow netflix开源的数据科学ML&AI 框架
    metaflownetflix开源的数据科学ML&AI框架,类似的也有kedro,metaflow相比kedro来说对于云原生周边支持的更加友好一张图了解metaflow能力如下图,很清晰的说明了metaflow的能力,而且都是基于代码声明的说明metaflow官方文档比较详细,使用上相比kedro基于项目代码结构的模式
  • 2024-09-21kedro package 命令内部处理简单说明
    kedropackage是一个比较方便的能力,可以将我们开发的datapipeline打包为python包,方便分发以及使用,以下简单说明下内部实现参考内部处理代码可以看到内部并没有特殊的地方,对于标准pythonwhl文件基于了build模块进行构建,对于配置部分使用了tar命令进行处理