首页 > 其他分享 >OpenMLDB 作为中国唯一的特征平台产品入选 2023 Gartner 研究报告

OpenMLDB 作为中国唯一的特征平台产品入选 2023 Gartner 研究报告

时间:2024-02-08 13:44:07浏览次数:45  
标签:场景 落地 特征 离线 OpenMLDB 2023 Gartner

在国际权威咨询与研究机构 Gartner 发布的重要研究报告《The Logical Feature Store: Data Management for Machine Learning》(《逻辑特征存储:机器学习的数据管理》,下文简称报告)中,OpenMLDB 荣幸作为中国唯一的特征平台代表产品入选该报告。
file
该报告深刻剖析了当前机器学习应用在实际落地过程中面临的三大难题:全流程效率低、可复用性差、训练环境与生产环境不一致,从而解释了数据库特征平台的迫切必要性。考虑到研发特征平台所涉及的高度复杂性和资源占比的挑战, Gartner 坚信相对于企业自主研发,寻求外部采购尤其是购买集成特征平台的 MLOps 全方位数据库解决方案,是一种更具性价比的选择。在这一方面, OpenMLDB 以其卓越表现成功入选 Gartner 推荐的供应商名单,成为中国唯一入选的集成特征平台的 MLOps 数据库解决方案产品。此报告对渴望拓展机器学习业务规模的企业具有专业指导意义。

OpenMLDB:提供线上线下一致的生产级特征平台,实现每单位成本效能提升500%

Gartner 在其报告中强调了机器学习在实际应用中的挑战,即企业的机器学习团队通常不得不投入大量时间在解决数据问题上,而没有精力专注于实际的模型开发和优化,在这一过程中,还存在大量的特征定义不一致以及频繁的重复返工。 OpenMLDB 的研究也揭示了相似的现象:在人工智能工程实践中,企业的数据和工程化团队往往耗费了整体95%的时间和精力用于数据处理、特征校验等相关工作。

在没有 OpenMLDB 的传统方式下,实时特征计算上线通常需要经历以下三个步骤:(1)数据科学家离线使用SparkSQL 或 Python 开发特征脚本;(2)由于开发的离线脚本无法满足生产环境的需求,工程化团队需要将其基于不同的工具栈重新优化;(3)最后,需要对数据科学家开发的离线特征脚本和工程化团队开发的线上服务进行计算逻辑的一致性校验。整个过程涉及两组开发人员、两套工具栈,带来高昂的落地成本。
file
OpenMLDB 的目标是开发即上线,让数据科学家开发的特征脚本能够在生产环境直接上线。平台具备离线和在线两套处理引擎,其中在线引擎经过深度优化,既满足线上生产级需求,也通过一致性执行计划生成器自动保证线上线下一致性。使用 OpenMLDB ,机器学习应用在特征环节的落地仅包含以下两个步骤:(1)数据科学家使用 SQL 开发离线特征脚本;(2)通过一条部署命令,即可将特征脚本部署到线上引擎。这样在保证线上线下一致性的同时,成功实现毫秒级低延迟、高并发、高可用的线上服务。
file
因此, OpenMLDB 的最大价值是显著降低人工智能的工程化落地成本。对一个较大的业务场景, OpenMLDB 可以通过省去工程化团队的在线服务开发和线上线下一致性校验,将传统方式原有的6人月降低到1人月,实现每单位成本效能提升500%。

OpenMLDB X Akulaku:通过场景驱动,对 10 亿条订单进行窗口特征计算,成功实现4 毫秒延迟性能,节约资源保守估计400万以上

OpenMLDB 致力于解决 AI 工程化落地的数据治理难题,并且已经在上百个企业级人工智能场景中得到落地。其中 Akulaku 作为东南亚领先的互联网金融服务商,服务内容涵盖了电商全链路,应用场景包含金融风控、智能客服及电商推荐等。在以上众多场景中, Akulaku 都需要落地相应的 AI 应用。而对于电商金融这一领域,其往往对于特征计算环节有着极高的要求,要求线上部署具有低延时与高时效性,能尽可能反映新数据的实时特征计算,线下需求分析具有高吞吐量,与此同时还要保证线上线下的一致性。而在实际场景中,同时满足这三点并不容易。

对于这个难题, OpenMLDB 协助 Akulaku 针对性地构建了一套智能计算架构,将 OpenMLDB 的在线引擎嵌入模型计算层,离线引擎嵌入特征计算层,并通过场景驱动,在业务调用环节调用实时计算结果,成功对10亿条订单进行窗口特征计算,实现4毫秒延迟性能,节约资源保守估计400万以上。
file
除此之外, OpenMLDB 还帮助更多企业优化了其数据库架构,实现更好的 AI 场景落地。比如帮助唯品会将商品个性化推荐场景的特征开发迭代速度从5人天降低到2人天,带来特征开发迭代速度60%的提升。某头部银行反欺诈系统在离线开发、线上推理、自学习阶段都使用了 OpenMLDB 进行特征计算和管理,解决了困扰其已久的数据穿越、结果不一致问题,省去了昂贵的一致性校验成本。华为将 OpenMLDB 用于实时商品个性化推荐场景后,实现数据分钟级更新,小时级特征上线。未来, OpenMLDB 希望能帮助更多的企业解决数据及特征处理上的真实业务落地问题。

作为中国唯一入选 Gartner《The Logical Feature Store: Data Management for Machine Learning》报告的数据库特征平台代表产品, OpenMLDB 之后将持续打磨产品、优化性能,继续发挥自身在数据库特征平台领域的优势,力求将 AI 工作者们的时间从繁琐低效的数据处理中释放出来,助力企业实现更简单高效的机器学习应用落地。

相关阅读

标签:场景,落地,特征,离线,OpenMLDB,2023,Gartner
From: https://www.cnblogs.com/4paradigm-opensource/p/18011742

相关文章

  • 2023年度总结
    生活2023是花钱最多的一年,今年女儿出生,房子购买,在帝都换了一个新房租,哪里都是钱,靠着微薄的工资就这样坚挺了下来,同样也是辛苦且满足的一年,每个人都很累,抱一抱自己工作2023是进入新公司的一年,整整一年的时光,最后年终的时候有一个很好的结局,还是要感谢公司,感谢自己,感谢工作,不然自......
  • 我的2023年总结
    2023年已经过去一个多月了,我已经不会再将日期错写为“2023xxxx”。同样,2023年的记忆也在随着时间一点一点模糊。临近春节,今天工作日无心再工作,于是想借这个时间对2023年做个小小的总结,同时给以2024年一些希望。2023年,再见1、2023年,家人一切安好。虽然经历了多次全家发烧咳嗽的......
  • 【CPL-2023】W14笔记-程序结果、预处理与I/O
    有趣的预编译编写大型程序头文件:变量的声明,函数的声明,宏的定义,预编译指令include库函数include<xx.h>找库函数的路径include自己的头文件include"xx.h",先找当前目录gcc--verbosemain.cgcc-I.include当前目录头文件的重复包含标准头文件结构#ifndef......
  • 开启未来创新之门:.NET Conf China 2023 精彩回顾及资料下载
    2023年12月16日-17日,一年一度的.NETConfChina2023中国.NET开发者大会在北京盛大举办!大会以第一天主会场+AI、.NET8、云原生、IoT、前端&安全5大分会场,第二天闭门会议+三场工作坊的形式,为现场以及线上的.NET爱好者们带来了为期两天的.NET年度盛宴。本次.NETConf......
  • DataSpell 2023:专注于数据,加速您的数据科学之旅 mac/win版
    JetBrainsDataSpell2023是一款专为数据科学家和数据分析师设计的集成开发环境(IDE)。这款IDE提供了强大的数据分析和可视化工具,旨在帮助用户更快速、更高效地进行数据科学工作。→→↓↓载DataSpell2023mac/win版 DataSpell2023在保持其一贯的数据处理、数据清洗、数据探......
  • Rider 2023:打造高效.NET项目的智能IDE,让开发更简单mac/win版
    JetBrainsRider2023激活版下载是一款专为.NET开发者打造的强大集成开发环境(IDE)。这款IDE提供了丰富的功能,旨在帮助开发者更快速、更高效地编写、调试和测试.NET应用程序。→→↓↓载Rider2023mac/win版 Rider2023在保持了其一贯的智能代码补全、代码导航和重构工具的同......
  • 当我们一起走过 2023|Apache Doris 年度时刻盘点
    2024年的第一个月已经彻底过去,2023年的回顾总结才姗姗来迟。在过去一年的大多数时间里,我们一直处于忙碌的状态中,紧锣密鼓的代码研发、高速推进的版本迭代、行程紧密的全国之行,众多社区用户与开发者皆是见证。越是忙碌,在年末的这场回顾就越难能可贵。在2024年开端,我们挑选出了......
  • 【专题】2023旅游行业洞察报告PDF合集分享(附原数据表)
    原文链接:https://tecdat.cn/?p=33833原文出处:拓端数据部落公众号根据文化和旅游部的数据统计,2023年"五一"假期全国国内共有2.74亿人次进行了旅游,同比增长了70.83%。而端午节假期期间,全国国内出游人数达到1.06亿人次,同比增长了32.3%。消费者对于旅游的热情高涨,文化和旅游行业呈现......
  • 【专题】2023年房地产行业报告汇总PDF合集分享(附原数据表)
    原文链接:https://tecdat.cn/?p=35157原文出处:拓端数据部落公众号中国房地产行业是国民经济的重要支柱之一,对经济增长和就业创造起着重要作用。随着经济的发展和城市化进程的推进,房地产市场的供需状况成为人们关注的焦点。本报告合集通过对当前国内房地产行业的供需状况进行全面......
  • 【专题】2023年中国工业互联网平台行业研究报告PDF合集分享(附原数据表)
    原文链接:https://tecdat.cn/?p=33647原文出处:拓端数据部落公众号这份报告合集是基于中国工业产业升级和智能制造的大背景而展开的。报告合集分析了工业互联网平台市场的发展阶段、平台玩家的产品和服务的底层逻辑以及变化趋势,并探讨了补贴减少、数据归属权之争、标准化与盈利模......