目前常见的连续特征处理可以概括为三种:No Embedding、Field Embedding、Descretization。接下来将为大家一一介绍。
之前离散化的不足
尽管离散化在工业界广泛引用,但仍然有以下三方面的缺点:
- TPP(Two-Phase Problem):将特征分桶的过程一般使用启发式的规则(如 EDD、EFD)或者其他模型(如 GBDT),无法与 CTR 模型进行一起优化,即无法做到端到端训练。
- SBD(Similar value But Dis-similar embedding):对于边界值,两个相近的取值由于被分到了不同的桶中,导致其 embedding 可能相差很远。
- DBS(Dis-similar value But Same embedding):对于同一个桶中的边界值,两边的取值可能相差很远,但由于在同一桶中,其对应的 embedding 是相同的。
连续特征离散成n个桶,那么该连续特征可以学习到n*d的embeding,传统的离散学习是通过查表来确定该特征的embeding,可以加上加权,可以额外学习一个attention矩阵,加权获取最后的特征embeding表示。
标签:特征,边界值,离散,连续,embedding,embeding From: https://www.cnblogs.com/qiaoqifa/p/17392034.html