首页 > 其他分享 >FeatInsight: 基于 OpenMLDB 的特征平台助力高效的特征管理和编排

FeatInsight: 基于 OpenMLDB 的特征平台助力高效的特征管理和编排

时间:2024-01-18 16:55:06浏览次数:22  
标签:在线 特征 创建 离线 OpenMLDB FeatInsight

OpenMLDB 社区新开源了特征平台产品 - FeatInsight(https://github.com/4paradigm/FeatInsight),是一个先进的特征存储(Feature Store)服务,基于 OpenMLDB 数据库实现高效的特征管理和编排功能。FeatInsight 特征平台提供简便易用的 UI 界面,用户可以进行机器学习特征开发的全流程,包括数据的导入、查看、编辑,特征的生成、存储、上线等功能。 针对离线场景中,用户可以选择特征生成离线样本用于后续的机器学习开发;针对在线场景中,用户可以选择特征创建特征服务,实现实时特征计算。

核心特性

FeatInsight 的主要目的是解决在机器学习项目中常见的问题,包括简便快捷地进行特征提取、转换、组合、选择以及血缘管理,特征的重用和共享,特征服务版本控制,以及确保在训练和推理过程中使用的特征数据的一致和可靠。一些范例应用场景包括:

  • 上线在线特征服务:提供本地化部署的高性能特征存储和在线特征计算功能。
  • 搭建 MLOps 平台:基于 OpenMLDB 在线离线一致性快速实现完成的 MLOps 工作流。
  • 搭建 FeatureStore 平台:提供完备的特征创建、删除、上线、血缘管理等功能,低成本实现本地 FeatureStore 服务。
  • 复用开源特征方案:在本地复用开源共建的特征数据集,实现特征重用和共享。
  • 机器学习业务组件:为推荐系统、自然语言处理、金融医疗等领域机器学习模型提供一站式特征工程落地方案。
    更多内容请参见 FeatInsight 文档

快速开始

这里我们将通过一个简单的例子来演示如何简便快速地使用 FeatInsight 特征平台。使用流程大致包括导入数据、创建特征、离线场景的使用,以及在线场景的使用四个步骤。

  1. 导入数据

首先创建数据库test_db表,和数据表test_table,可以直接执行 SQL 来创建。

CREATE DATABASE test_db;
CREATE TABLE test_db.test_table (id STRING, trx_time DATE);

也可以在 FeatInsight 的“数据导入”前端页面直接创建。

file

为了测试方便,我们准备一个 CSV 文件并保存到 /tmp/test_table.csv。注意,这里本地是 OpenMLDB TaskManager 服务器的本地路径,一般也是 FeatInsight 的服务器路径,需要提前登陆编辑。

id,trx_time
user1,2024-01-01
user2,2024-01-02
user3,2024-01-03
user4,2024-01-04
user5,2024-01-05
user6,2024-01-06
user7,2024-01-07

其中,在线数据可以使用 LOAD DATAINSERT 命令来导入,这里演示通过点击 “使用 CSV 导入” 来执行。

file

通过前端页面可以预览已导入的在线数据。

file

离线数据也可以使用 LOAD DATA 命令或前端选择“使用 CSV 导入”来执行。

file

等待半分钟后导入任务完成,可以查看任务的状态以及日志。

file

  1. 创建特征

数据导入完成后,可以开始创建特征,本示例使用 SQL 来创建两个基本特征。

SELECT id, dayofweek(trx_time) as trx_day FROM test_table

在“特征”页面选择“创建特征”,填写特征组名称以及 SQL 语句。

file

创建完成后,可以在“特征”页面查看成功创建的特征。

file

点击特征名称,进入特征详情页,可以查看特征基础信息,并提供特征预览功能。

file

  1. 生成离线样本

在“离线场景”页面,可以选择导出离线样本,只要选择刚创建好的特征和提供导出路径即可,前端还提供了“更多选项”可以选择到处格式、运行参数等。

file

提交导出任务后,可以在“离线样本”详情页查看导出信息,大概半分钟后成功完成。

file

在本地即可查看导出的样本文件内容。为了验证 FeatInsight 特征平台提供的在线离线一致性,可记录离线特征结果,并于后面的在线特征计算做比较。

file

  1. 创建在线服务

在“特征服务”页面可以选择创建特征服务,同样是只需要选择上线的特征,以及提供特征服务名称和版本即可。

file

创建成功后,可以在特征服务详情页查看到服务的基本信息,上线包含的特征列表,以及依赖数据表的血缘关系等。

file

最后通过“请求特征服务”页面,我们可以输入测试数据进行在线特征计算,并且和离线样本的特征结果进行比对。

file

这就是使用 FeatInsight 特征平台的完整流程,通过编写简单的 SQL 即可实现在线和离线的特征定义,通过选择不同的特征,甚至是组合不同特征组的特征,即可实现快速的特征复用和上线,并且对比离线和在线的计算结果验证了特征计算的一致性。

如果您想进一步了解 FeatInsight 的使用方式及范例场景,可参照应用案例

附录:高级功能

除了特征工程的基本功能之外,FeatInsight 特征平台还提供了高级功能以方便用户进行特征工程的开发:

  • SQL 实验室:提供了 OpenMLDB SQL 语句的调试和执行功能,方便用户执行任意 SQL 操作并调试特征抽取的 SQL 语句。详情请见这里
  • 预计算特征:可以将通过外部批计算或流式处理后得到的特征值直接存入OpenMLDB在线表中,然后访问在线表数据进行读写特征。详情请见这里

相关阅读

标签:在线,特征,创建,离线,OpenMLDB,FeatInsight
From: https://www.cnblogs.com/4paradigm-opensource/p/17972876

相关文章

  • 【机器学习】特征选择与稀疏学习
    特征选择和稀疏学习子集搜索与评价对象都有很多属性来描述,属性也称为特征(feature),用于刻画对象的某一个特性。对一个学习任务而言,有些属性是关键有用的,而有些属性则可能不必要纳入训练数据。对当前学习任务有用的属性称为相关特征(relevantfeature)、无用的属性称为无关特征(irrelevan......
  • webshell流量特征
    WebShell攻击者为了达到控制服务器的目的,通常会想办法将网站可解析的文件写入服务器web目录下。例如在ASP架构的网站写入ASP脚本,在PHP架构网站写入PHP脚本,在Java架构的网站写入jsp脚本等。这种被攻击者写入并能够成功执行的脚本,叫WebShell,也叫网页后门。获取WebShell的过程也被......
  • 基于协方差矩阵自适应演化策略(CMA-ES)的高效特征选择
    特征选择是指从原始特征集中选择一部分特征,以提高模型性能、减少计算开销或改善模型的解释性。特征选择的目标是找到对目标变量预测最具信息量的特征,同时减少不必要的特征。这有助于防止过拟合、提高模型的泛化能力,并且可以减少训练和推理的计算成本。如果特征N的数量很小,那么穷......
  • 如何开发医疗保险欺诈识别监测模型中的特征工程?
    在开发医疗保险欺诈识别监测模型时,特征工程是一个关键的步骤,它有助于提取、转换和选择最相关的特征,以改善模型的性能。以下是在开发医疗保险欺诈识别监测模型时进行特征工程的一些建议:基本特征提取:提取基本的医疗保险相关特征,如就医次数、就医地点、就医科室、医疗费用等。......
  • 通过网页中的 6 个特征字段检测钓鱼网站以及更简单的防钓鱼方式
    你可能会认为钓鱼网站很难检测和跟踪,但实际上,许多钓鱼网站都包含唯一标识它们的HTML片段。本文就以英国皇家邮政(Royal Mail)钓鱼网站为例来进行说明,它们都包含字符串css_4WjozGK8ccMNs2W9MfwvMVZNPzpmiyysOUq4_0NulQo。这些长而随机的字符串是追踪钓鱼网站的绝佳指标,几乎可以肯定......
  • 精益生产:三大特征及其在实践中的应用
    在当今全球竞争激烈的市场环境中,企业为了保持竞争优势,必须采用一种高效、低成本、高质量的生产方式。精益生产作为一种先进的生产方式,已经成为众多企业的选择。精益生产的核心在于其三大特征:拉动式生产、消除浪费和自働化。这些特征使得企业能够更好地应对市场变化,提高生产效率和质......
  • 特征量化编码入门指南
    推荐论文: https://arxiv.org/abs/2211.13745 论文摘要:本文研究了设备边缘协同推理系统中CNN推理的计算卸载。受新兴语义通信范式的启发,我们提出了一种新颖的基于自动编码器的CNN架构(AECNN),用于在终端设备上进行有效的特征提取。我们基于CNN中的通道注意方法设计了一个特征压缩......
  • 神经网络之谜:特征值与特征向量在深度学习中的作用
    1.背景介绍深度学习是当今最热门的人工智能领域之一,它的核心技术是神经网络。神经网络的基本结构是由多个节点组成的,这些节点被称为神经元或神经网络。这些神经元通过连接和权重来学习和表示数据中的模式。在深度学习中,这些模式通常被表示为特征值和特征向量。这两个概念在深度学习......
  • 书籍推荐-《计算机视觉的特征描述》
    以下内容来自公众号【一点人工一点智能】编辑:东岸因为@一点人工一点智能书籍:RoboticVehicles:SystemsandTechnology作者:TianSengNg出版:Springer《计算机视觉的特征描述》通过对近100种局部、区域和全局特征描述符的调查,将该领域的历史发展与当代方法的最新分析相结合,而......
  • 特征量化编码入门指南
    推荐论文: https://arxiv.org/abs/2211.13745论文摘要:本文研究了设备边缘协同推理系统中CNN推理的计算卸载。受新兴语义通信范式的启发,我们提出了一种新颖的基于自动编码器的CNN架构(AECNN),用于在终端设备上进行有效的特征提取。我们基于CNN中的通道注意方法设计了一个特征压缩......