首页 > 其他分享 >特征平台笔记

特征平台笔记

时间:2023-07-19 19:35:39浏览次数:48  
标签:特征 模型 平台 Feature 笔记 维度 度量

AI从2012年开始快速发展,在人脸识别、广告、个性化推荐等领域大规模商用后,陆续出现了一些通用的平台来加速模型训练模型部署流程,例如:

  • AWS SageMaker :通过完全托管的基础设施、工具和工作流程为任何用例构建、训练和部署机器学习 (ML) 模型
  • Google Vertex AI :使用全代管式机器学习工具更快地构建、部署和扩缩机器学习 (ML) 模型,以用于任何使用场景
  • 华为云ModelArts:面向开发者的一站式 AI 平台,为机器学习与深度学习提供海量数据预处理及交互式智能标注、大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流
  • 阿里云PAI平台:提供企业级数据建模服务,基于机器学习算法,快速满足您对数据化运营的需求
  • 百度飞桨BML: BML 全功能 AI 开发平台是一个面向企业和个人开发者的机器学习集成开发环境,为经典机器学习和深度学习提供了从数据处理、模型训练、模型管理到模型推理的全生命周期管理服务,帮助用户更快的构建、训练和部署模型

开源平台:

  • 微众银行Prophecis:Prophecis 是微众银行自研的一站式机器学习平台,集成多种开源机器学习框架,具备机器学习计算集群的多租户管理能力,提供生产环境全栈化容器部署与管理服务
  • 飞桨 PaddlePaddle:飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个自主研发、功能完备、 开源开放的产业级深度学习平台,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体
  • 之江天枢开源平台: 平台面向人工智能研究中的数据处理、算法开发、模型训练、算力管理和推理应用等各个流程的技术难点,研发了包括一站式算法开发平台、高性能分布式深度学习框架、先进算法模型库、视觉模型炼知平台、数据可视化分析平台等一系列平台及工具
  • 腾讯 Cube Studio:cube是 腾讯音乐 开源的一站式云原生机器学习平台,包含数据管理、在线开发、训练编排、推理服务、资源统筹等

商用平台在模型训练阶段:以 SaaS 平台通常提供了托管的Jupyter Notebook或JupyterLab平台,简化了开发环境软件和硬件的搭建,加速了模型训练过程。

而在模型部署阶段:提供了类似 Serverless 领域 Function as a Service的能力,自动化在线服务部署和API封装,简化了模型部署的流程。

对于数据准备阶段:自2019年,GO-JEK(一家SaaS解决方案公司)开源 Feast ——第一个提出 Feature Store 概念的平台后,各厂商陆续推出了自己的 Feature Store,它们的目标都在于提高数据准备阶段的效率:

特征平台(feature store)的需求层次


 特征平台的理解参考:《Feature Stores - A Hierarchy of Needs》(翻译总结版见《特征平台需求层次理论》)

 业界实践资料:https://github.com/eugeneyan/applied-ml#feature-stores

 特征平台的需求层次

   如马斯洛需求层次理论,认为人类有五个层次的需求(生理需求、安全需求、社交需求、尊严需求、自我实现需求),呈金字塔形。该理论认为,人会首先满足最大最基本的需求(金字塔底),才会考虑更高层次的要求(金字塔顶)

   同样,特征平台会首先满足最必要和急迫的需求(包括特征读取和特征服务),再去考虑高阶需求,如下图:

  •  

其中:

 1、最底层是访问(access)的需求:这一层需求包括特征可读取、特征转换逻辑透明和特征血缘可溯。它们使得特征能被发现、分享复用,减少重复。

  • 从前,算法工程师进行机器学习开发时,60%的时间都花在编写特征转换逻辑上。—— Airbnb

 2、其次是服务(serving)的需求:这一层的核心需求是为线上服务提供高吞吐、低延迟的特征读取能力,而无需通过 SQL 去数据仓库读取。其它需求还包括:与已有的离线特征存储集成,使得特征能够从离线特征存储同步到在线特征存储(例如 Redis);实时的特征转换等。

  • 通常,数据工程师会将数据科学家实现的特征重新实现为可以在生产环境运行的特征管道。这个重复实现的过程会让项目推迟数月交付,让跨团队合作极为复杂。—— GoJek

 3、诉诸准确(integrity)需求:最常见的需求是最小化 train-serve skew,确保特征在训练和服务环境下是一致的。另一个常见需求是 point-in-time correctness(又称 time-travel),以确保历史特征和标签被用于训练和评估时不存在 data leaks。

  • 训练通常是离线的,而服务通常是实时的。保证训练和服务环境下的数据一致性极为重要。—— Uber

 4、再往上,是便利的需求:特征平台需要足够简单好入手,例如提供简单直观的接口、易交互、易 debug 等,才能让大家采纳和受益。

  • 记住,我们是个平台组。我们要搭建工具把提供给用户,让他们能够自己动手丰衣足食。—— Uber

 5、最后是自治(autopilot)的需求:包括自动回填特征、对特征的分布进行监控和报警等。我知道有些公司有做这一层的事情,但我没怎么读到相关材料。

  • 特征回填是训练集迭代最主要的瓶颈。解决这一问题能极大地加速数据科学家的工作流。—— Airbnb

并非所有团队都有全部五层需求,对大部分团队而言,满足第一、二层和部分第三层的需求就很受益了。不同团队对于每一层需求的程度要求也不同。在线场景少的团队相比每秒需要处理几百万请求的的 DoorDash 团队,当然更少关心特征服务的需求;

 

特征平台的能力


1、特征(Feature)创建:从各类原始数据,例如日志、记录、表,经过关联、统计、转化、聚集等操作得到的一系列值

  • 例如,对于电商领域,从用户行为日志,可以计算得到用户最近30天购买商品列表、最近1小时浏览商品列表、平均订单金额等特征。特征是特征平台上最基础的概念。

   其中:

  •  统计对象、统计维度、度量值对应于Hive表中的字段(维度一般来自维度表,度量值一般来自事实表,主要是曝光、点击、下单)。
  • 为了增加灵活性,我们还允许对原始Hive字段做加工,加工后的值作为统计维度、度量值(加工的接口我们分别称为维度算子和度量算子)
  • 统计量基于度量值做的一些聚合操作,如累加、求均值、拼接、求占比、算分位点(分布)。前两者输出一个数值,后三者输出形如”Key1:Value1,Key2:Value2”的KeyValue列表。

   另外,统计通常是在一定时间窗口内进行的,由于不同时期的数据价值不同(新数据比老数据更有价值),我们引入了时间衰减,对老数据降权。 基于以上考虑,整个统计流程可以分解为(基于Spark):

  •  

 1)、按统计对象字段做聚合(GROUP BY)。统计对象字段由配置给定。对于外卖排序主要为uuid、poi_id。这一步可能会有数据倾斜,需要更多优化。

 2)、计算维度。支持维度算子,可以对原始维度字段做处理,如对金额字段做分段处理,以分段后的金额作为维度。

 3)、按统计维度聚合(GROUP BY)。这是在对象聚合的基础上做的二次聚合。维度字段由配置给定,可以有多个字段,表示交叉特征统计,如不同时段的品类偏好,维度字段为:时段、品类。

 4)、时间衰减并累加。衰减各个时间的度量值,并把所有时间的度量值累加,作为加权后的度量值。时间字段和度量字段由配置给定。时间字段主要为日期,度量字段主要为曝光、点击、下单。经过维度聚合后,度量值都在特定维度值对应的记录集上做累加,每个维度对应一个度量值

 5)、计算度量值。度量字段也可以通过度量算子做进一步处理,算子得到的结果作为度量值。也可以有多个字段,如点击和曝光字段,配合除法算子,可以得到点击率作为度量值。

 6)、计算统计量。经过对象和维度聚合后,对象、维度、度量值建立了二级映射关系:对象维度度量值,相当于一个二维Map:Map<对象, Map<维度, 度量值>>。统计量是对Map<维度, 度量值>做一个聚合操作。每个统计量对应输出Hive表中的一个字段。现在主要支持如下几种算子:

  • 累加:对该维度的所有度量值求和;
  • 求均值:该维度所有取值情况对应的度量值的均值;
  • 拼接:把Map<维度, 度量值>序列化为”Key1:Value1, Key2:Value2”形式,以便以字符串的形式存储于一个输出字段内。为了防止序列化串太长,可通过配置设定只保留度量值最大的top N;
  • 求占比:该维度所有取值情况对应的度量值占度量值总和的比重,即Map<维度, 度量值/Sum(度量值)>。然后再做拼接输出;
  • 算分位点:有时候想直到某些维度的分布情况,比如用户下单金额的分布以考察用户的消费能力。分位点可以作为分布的一种简单而有效的表示方法。该算子输出每个分位点的维度值,形如”分位点1:维度值1, 分位点2:维度值2”。此时,度量值只是用来算比值。

 

 2、特征注册中心(Feature Registry): 通常以UI控制台暴露给用户使用,平台上所有特征均在此展示,方便平台用户进行探索、共享、复用。如下图

  •  

 

 3、特征离线存储&消费:离线存储&消费能力是为模型训练阶段服务的

  • 对于广告、个性化推荐等使用过去信息来预测未来信息的算法模型,特征是随时间变化的。例如用户最近1小时浏览商品列表,会随着时间变化而发生变化。
  • 进行模型训练时,我们需要预先生成训练数据。以电商场景为例,将一系列被标记的行为关联其对应的特征,即可生成训练数据。

 4、特征在线存储&消费:在线存储&消费能力是为模型部署阶段服务的

  • 算法模型部署成在线服务后,在进行推理(inference)时,需要快速取得特征,这要求我们将特征的最新的版本同步到高速缓存中,并提供便捷的查询API(例如按特征组查询),以便满足高并发、低延迟的特征在线消费要求;如下图:

 

 服务:在实时环境使用特征


 常用批数据离线训练模型,然而在线模型服务需要实时读取这些特征。这难住了很多团队——应该如何为在线模型服务高吞吐、低延迟地提供(serve)这些特征?

  • 我们在开发模型的过程中发现:很多用于训练的特征,并无法在生产环境中获取。—— Monzo Bank

Monzo Bank 能从离线分析环境(用于模型训练)中获取特征,但无法从生产环境(用于模型服务)中获取特征。Monzo Bank 采用了一个 轻量的解决方案,将离线分析存储(BigQuery)中的特征同步至在线存储(Cassandra)

  • 首先,在离线分析环境的 SQL 建表语句中加入标签。这些表的更新频率在小时或天级别
  • 特征平台中的 Go 服务检查特征表 schema 的正确性,例如必需的 subject_type 和 subject_id 列是否存在
  •  有个 cron job 监听特征表的更新,将数据变动从 BigQuery 经过 Google Cloud Storage 的中转同步至 Cassandra

Uber 的 Palette 采取了类似的双存储设计。

  • 离线存储(Hive)保存特征快照,用于训练。
  • 在线存储(Cassandra)实时提供同样的特征。特征由 Flink 生成,写入 Cassandra。
  • 两个存储之间会进行特征同步:添加到 Hive 的特征会被复制到 Cassandra,添加到 Cassandra 的特征会被 ETL 到 Hive。    
  •  

 阿里巴巴的特征服务平台实时计算用户行为特征的统计量(点击、点赞、购买等),用于「猜你喜欢」实时推荐。 

 

 特征平台要解决的问题和方案


要解决的问题主要包含:

  • 统一的特征管理中心:包括特征的各类元数据,计算逻辑,特征版本,数据血缘等,方便在组织内部管理和共享特征的使用
  • 特征的生成支持:包括各类数据源的接入,特征自动化计算,持久化,backfill 等。很多时候业务都包含了batch, streaming两大类型的数据源,这部分感觉可以从lambda架构中学习一些经验。
  • 特征的消费支持:也可以分为offline和online两大类。Offline就是训练阶段的特征提取支持,而online则是model serving时需要获取特征的支持。这里需要解决的一个比较重要的问题就是training-serving skew
  • 特征的各类监控支持:包括特征生成的开销,特征的统计信息,数据质量,模型应用的精度,特征重要度等等。
  •  

技术架构设计:

 1、在存储方面:大多数的解决方案都会区分提供offline和online服务的存储系统,因为两者的访问pattern分别是大批量获取和小批量低延迟获取。

  • 例如Michelangelo里offline存储使用了Hive,而online的存储利用了Cassandra的KV查询能力。
  • Hopsworks的offline存储用了Hudi,可以比较好的支持数据版本。
  • Feast的offline和online存储分别是BigQuery和BigTable/Redis,不过这个选型对不同云平台的支持会有一些挑战。像一些新近的“湖仓一体”技术,或许未来也有机会成为Feature Store的底层技术支持。

 2、在计算引擎方面:算法建模的同学最习惯的肯定还是Python生态,而batch和streaming两块比较流行的框架是Spark和Flink。如何保持算法建模的灵活性,同时又要兼顾线上运行的稳定和一致性已经是不小的挑战了,再加上batch和streaming计算逻辑的统一,难度就更大了。

  • Feast在这方面利用了Apache Beam,可以同时支持Spark和Flink后端,但是构建feature的灵活度肯定就没有原生Python那么高了。
  • 也有不少公司例如Uber,Pinterest,Twitter都开发了相应的DSL,也是一种思路。

 3、数据版本方面:看起来用Delta Lake/Hudi/Iceberg等的解决方案还比较少,很多都是自行开发的支持。个人猜测跟复杂的serving pattern支持有一定关系,比如Delta Lake对于实时查询访问的支持就会比较困难。

 4、数据格式的支持:相比于标准的结构化数据,算法训练过程中不同库需要消费的数据格式也不尽相同。像offline情况下可以选择parquet存储,支持更高效的数据压缩和传输,而online情况下可能需要json/protobuf之类便于API消费的数据格式

 典型的架构如下:

  •  

     

参考学习


Flag:

  • feature store以特征为基础概念,将特征生产、存储、消费从AI流程中解耦出来,封装成为公共的能力。提升多个AI模型间特征共享、复用的效率,解决特征消费中的诸多问题。
  • 这一目标只在算法场景多样、迭代快、相关程度高的业务场景下,才能发挥其价值。如果算法需求简单、变化缓慢、无共享场景,则不必要引入feature store
  • 特征平台 VS 指标系统?

参考资料:


标签:特征,模型,平台,Feature,笔记,维度,度量
From: https://www.cnblogs.com/tgzhu/p/17123465.html

相关文章

  • XOps笔记
     当前是 Ops盛行的时代,在互联网圈内的你一定经常都会听到这些名词,DevOps、DevSecOps、GitOps、NetOps、ItOps、Aiops、DataOps、MLOps、NoOps;无论是什么Ops,它的目标都是利用DevOps的最佳实践去实现效率和规模经济,并确保可靠性、可重用性和可重复性,同时减少技术和流程的重复,从......
  • 主席树学习笔记
    Tip:建议完成LuoguP3919后阅读。目录模板:静态区间\(k\)小值模板:动态区间\(k\)小值BZOJ3207:花神的嘲讽计划疯狂的颜色序列SPOJ10628:CountonatreeLuoguP3302森林模板题:静态区间\(k\)小值思路引导首先我们想一想,如何用线段树求数列\(k\)小值。我们可以建......
  • 白话机器学习笔记(二)学习分类
    分类用图形来解释,把他想象为有大小有方向带箭头的向量。设权重向量为\(w\),虚线为使权重向量称为法线向量的直线。直线的表达式为:\(w\cdotx=0\)(两个向量的内积)也可写为:\(w\cdotx=\sum\limits_{i=1}^nw_ix_i=w_1x_1+w_2x_2=0\)\(w\cdotx=|w|\cdot|x|\cdotcos\theta\)要......
  • 白话机器学习笔记(一)学习回归
    最小二乘法定义模型表达式:\(f_\theta(x)=\theta_0+\theta_1x\)(常用\(\theta\)表示未知数、\(f_\theta(x)\)表示含有参数\(\theta\)并且和变量\(x\)相关的函数)目标函数假设有\(n\)个训练数据,那么它们的误差之和可以这样表示,这个表达式称为目标函数。\(E(\theta)=\frac12\sum......
  • 白话机器学习笔记(三)评估模型
    模型评估在进行回归和分类时,为了进行预测,我们定义了函数\(f_\theta(x)\),然后根据训练数据求出了函数的参数\(\theta\)。如何预测函数\(f_\theta(x)\)的精度?看它能否很好的拟合训练数据?我们需要能够定量的表示机器学习模型的精度,这就是模型的评估。交叉验证回归问题的验证把......
  • 虚拟化平台如何搭建
    虚拟化平台搭建方案1.项目背景和需求分析随着云计算技术的发展,虚拟化平台成为了企业部署应用程序的重要工具。搭建一个稳定、高效的虚拟化平台,可以提供更好的资源利用和管理方式,实现快速部署和弹性扩展。本项目旨在搭建一个基于开源虚拟化技术的虚拟化平台,支持对物理服务器进行......
  • 小型电商平台架构
    小型电商平台架构引言在当今的数字时代,电商平台已经成为了人们进行购物的主要渠道之一。为了构建一个高效、稳定的电商平台,良好的架构设计是至关重要的。本文将介绍一个小型电商平台的架构设计,并提供相关的代码示例。架构设计一个典型的小型电商平台可以分为以下几个主要的组件......
  • 云原生微服务应用的平台工程实践
    作者:纳海01微服务应用云原生化微服务是一个广泛使用的应用架构,而如何使得微服务应用云原生化却是近些年一直在演进的课题。国内外云厂商对云原生概念的诠释大同小异,基本都会遵循CNCF基金会的定义:云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行......
  • KMP算法笔记
    1.概念解析前置:将原串称之为文本串,匹配串称之为模式串。KMP的实质其实就是:利用已经匹配的信息,来加速查找的过程。对于暴力解法而言,当我进行模式串匹配时,遇到一个不匹配的字符,那么只能一步一步往下滑动,然后重新匹配。但是对于KMP算法而言,利用到了前缀子......
  • 使用MASA Stack+.Net 从零开始搭建IoT平台 第四章 4.4 查询历史数据
    @目录前言分析方案编写代码定义数据类编写查询方法添加ECharts图表效果总结前言IoT平台需要监控设备的运行状态,统计和分析设备传感器数据,使用图表展示是比较常见的场景。使用图表和表格数据组合的Dashboard也可以放在首页作为大屏展示。分析因为我们设备上报的数据都是存储......