演讲实录 | OpenMLDB 整合自动特征工程

本文整理自 OpenMLDB 社区开发者、伊利诺伊大学徐鹏程在 OpenMLDB Meetup No.7 中的分享——《OpenMLDB 整合自动特征工程》。

大家好，我是来自伊利诺伊大学的硕士在读学生，也是 OpenMLDB 开源社区的贡献者——徐鹏程。我参与开发的项目，也是今天要和大家介绍的：OpenMLDB 整合自动特征工程。这个项目的工作内容是把 OpenMLDB 和 AutoX 两者结合起来做成一个自动特征工程，我们把它命名为 AutoFE，即 Auto Feature Engineering。

在开始前做个简单自我介绍，我本科就读于上海交通大学，硕士在伊利诺伊大学香槟分校，专业都是电子与计算机工程，感兴趣的方向有机器学习在生物信息等领域的应用、计算机系统与架构、分布式系统等。

今天我会从以下三个方面展开介绍。

问题背景
解决思路
现场 DEMO

问题背景

课题的目标是将 OpenMLDB 和自动特征工程结合起来，达到降低使用门槛的效果。

我们既想要调用 OpenMLDB 这样一个线上线下一致的时序数据库，也想要帮助离线开发的数据科学家减少工作的繁杂，完成一个自动特征工程。

离线开发需要数据科学家根据专业知识和工作经验去构建基于数据的特征，这个工作较为繁复。我们希望通过自动特征工程来减轻负担、降低门槛，同时也与 OpenMLDB 整合，使它能够更好的部署使用。

解决思路

「解决问题流程」

file

AutoFE 和 OpenMLDB 的通性在于使用了同一套 OpenMLDB 优化后的 SQL。

而课题解决问题的思路是：

step1：使用自动工具生成 SQL，SQL 会利用一些特征工程算法在原有数据的基础上构造生成一些特征。比如我们想解决出租车订单的相关预测问题，像是预测用户下单的等待接单时间、乘车出行时间等。AutoFE 会根据已有的数据，如用户ID、用户定位、用户目的地、每一次订单的用时等构造出适合此类应用场景的新特征，例如，近五分钟平台的平均/最大/最小接单用时，近五分钟比十分钟前的订单平均用时变化量等。

step2：经过 OpenMLDB 的特征提取，会返回一个数据。

step3：我们要针对返回的数据做进一步的筛选。因为部分数据是冗余的，而我们需要的是筛选后的最重要的 K 特征。

step4：K 特征筛选出来后，会重建为最终特征的 SQL 。

step5：最终的 SQL 会传递给 OpenMLDB。

step6：最后进行 SQL 和模型的上线训练。

以上流程已被全部打通，在 OpenMLDB Github 中 Python 目录中有程序链接。

https://github.com/4paradigm/OpenMLDB/tree/main/python/AutoFE

「提升空间」

目前算法还在不断完善中，因为新机器学习算法的不断涌现，所以算法还有广阔的发展空间。尤其是其中较为重要的构造特征以及特征选择两个环节还有充足的提升余地。

file