首页 > 其他分享 >连续特征的embeding

连续特征的embeding

时间:2023-05-11 19:59:06浏览次数:29  
标签:特征 边界值 离散 连续 embedding embeding

目前常见的连续特征处理可以概括为三种:No EmbeddingField EmbeddingDescretization。接下来将为大家一一介绍。

 

 

 

之前离散化的不足

尽管离散化在工业界广泛引用,但仍然有以下三方面的缺点:

  1. TPPTwo-Phase Problem):将特征分桶的过程一般使用启发式的规则(如 EDD、EFD)或者其他模型(如 GBDT),无法与 CTR 模型进行一起优化,即无法做到端到端训练。
  2. SBDSimilar value But Dis-similar embedding):对于边界值,两个相近的取值由于被分到了不同的桶中,导致其 embedding 可能相差很远。
  3. DBSDis-similar value But Same embedding):对于同一个桶中的边界值,两边的取值可能相差很远,但由于在同一桶中,其对应的 embedding 是相同的。

连续特征离散成n个桶,那么该连续特征可以学习到n*d的embeding,传统的离散学习是通过查表来确定该特征的embeding,可以加上加权,可以额外学习一个attention矩阵,加权获取最后的特征embeding表示。

标签:特征,边界值,离散,连续,embedding,embeding
From: https://www.cnblogs.com/qiaoqifa/p/17392034.html

相关文章

  • [每天例题]蓝桥杯 C语言 连续奇数和
    连续奇数和题目 思路分析1.采用双for,第一个for用于记录起始数字,第二个for计算和2.如果sum==111的立方,则输出起始数字,如果大于,则跳转到第一个for增大起始数字代码#include<stdio.h>intmain(){ longlongintn; n=111*111*111; inti,j; intsum=0; for(i=1;i<100......
  • 和为S的连续正数序列
    暴力枚举区间起点i,对于每一个i,找到最大的j,满足ij区间和<targetclassSolution{public:vector<vector<int>>findContinuousSequence(intsum){vector<vector<int>>res;for(inti=1;i<sum;i++){in......
  • 连续可导总结
    连续连续定义:\(\lim_{x->x_0^-}f(x)=f(x_0)\),为左连续\(\lim_{x->x_0^+}f(x)=f(x_0)\),为右连续以前认为,左右极限相等是错的,参考可去间断点,左右也相等,但是不连续这里纠正,函数极限存在相等不一定连续,应该是左连续等于右连续可导可导是左右导数存在且相等这里可导推......
  • 推荐广告中常用的特征交叉方法
    背景在LR模型时代,特征交叉一般依赖人工经验,存在以下几个缺点:1.依赖人工经验很难构建高阶交叉特征,一般只能构建二阶交叉特征2.LR中构建的二阶交叉特征必须是这两个特征值一起在样本中出现过模型才能学的到,而在推荐系统中特征是非常稀疏,很多特征其实是没有共现过的到了深度学......
  • AcWing 771. 字符串中最长的连续出现的字符
    AcWing771.字符串中最长的连续出现的字符1.地址https://www.acwing.com/problem/content/description/773/2.题解#include<iostream>#include<cstdio>#include<string>usingnamespacestd;intmain(){intn;intsum;intmax;int......
  • Python学习之路和隐藏特征
    在小学生都学Python了,你还不知道怎么开始文中介绍了Python的应用广泛,功能强大,提供了Python的在线学习视频和资料等。学习程序语言不是一件难事,也不是一件简单事。为什么编程这么难中翻译了一篇编程学习的心路历程。(图例“编程信心与能力”:纵轴为信心值,横轴为能力水平,虚线从左至右依......
  • POJ2739 Sum of Consecutive Prime Numbers&&Acwing4938 连续质数之和
    方法:单调队列为什么是单调队列?因为这里让我们求连续的质数和,我们可以利用欧拉筛来维护质数,再利用单调队列来维护连续的质数。代码(POJ不支持C++11差评):#include<cstdlib>#include<cstring>#include<cstdio>#include<cctype>namespaceFastIo{ #definegcgetchar() #d......
  • 一维卷积对一维数据进行特征再提取
    点击查看代码#第一步读取csv文件(循环读取)#第二步将数据转化为tensor形式#第三步创建一个列表将tensor逐个放入列表#第四步写入标签importcsvimportnumpyasnpimporttorchfromtorch.utils.dataimportTensorDatasetimporttorchfromtorch.utils.dat......
  • 注意力机制对一维数据特征提取
    点击查看代码#第一步读取csv文件(循环读取)#第二步将数据转化为tensor形式#第三步创建一个列表将tensor逐个放入列表#第四步写入标签importcsvimportnumpyasnpimporttorchfromtorch.utils.dataimportTensorDatasetimporttorchfromtorch.utils.dat......
  • 特征缩放/归一化
         ......