对于机器学习特征处理是一个比较重要,特征的质量会严重影响模型的质量,而且很多时候我们都是希望实时的特征数据
feast 是一个开源的特征存储实现,包含了离线以及实时特征的存储以及获取(包含了sdk,可以进行特征的获取)
参考架构
包含的组件:
registry: 对象存储,持久化特征,我们可以通过sdk 获取特征的信息
feast python sdk /cli 管理特征定义版本,物化特征值到在线存储中,构建以及查看离线的数据集
stream processor 流处理部分,主要是进行实时处理,当前是基于spark 与kafa 的集成
batch materialization engine 批量物化引擎进行批量的数据处理(实时以及离线)
online store 主要是对于实时进入的特征数据的存储
offlone store 主要是存储离线的数据,这些数据主要是用来产品训练的
说明
目前也有不少类似的,目前feast 是一个社区比较活跃的项目
参考资料
https://www.iguazio.com/glossary/feature-store/
https://feast.dev/
https://domino.ai/blog/an-introductory-guide-to-feature-stores
https://www.serverless-ml.org/
https://github.com/featureform/featureform
https://github.com/logicalclocks/hopsworks