首页 > 编程语言 >【推荐算法】推荐系统中的特征工程

【推荐算法】推荐系统中的特征工程

时间:2024-12-07 19:20:46浏览次数:10  
标签:偏差 特征 推荐 用户 算法 物品 画像 ID

前言:这篇文章是阅读石塔西《互联网大厂推荐算法实战》第二章推荐系统中的特征工程的学习笔记,在未来对于特征向量的学习笔记会在此基础上进行补充。编者认为特征工程已经过时的言论是错误的,该言论认为DNN模型可以自主的完成对数据特征的提取,但是在Deep Cross Network网络中,作者直接指出仅采用DNN模型是无法实现对二阶、三阶的特征进行交互的;并且虽然在DIN、SIM模型中可以从数据中挖掘用户的短期兴趣和长期兴趣,是因为模型足够复杂,需要通过复杂的计算才能提取这些兴趣特征。因此,一个好的特征工程在深度学习快速发展的环境还是必要的。
⭕ 表示笔者待学习部分

  • 基本概念:

Field:相当于是特征的集合,例如,特征为视频类别特征中,有【体育、音乐、戏剧】三个类,视频类别就被称为一个Field

Feature:体育、音乐、戏剧均为视频类别的特征。


目录

物料画像

ItemID

在传统的识别任务中,物品的ID往往被认为是无效特征,因为ID是随机的,无法对识别、预测等任务提供有效的信息。但在推荐算法中,虽然本身也没具体含义,但是模型可以通过历史数据,对物品ID进行学习,记住物品ID与用户特征的信号关系。

静态画像

无需通过与用户交互的数据即可获得的特征,一般通过BERT/CLIP 对原始图像、标题等信息特征提取。一般分析得到的信息不是一个具体的值,例如在一个新闻推荐中,有【体育、音乐、戏剧】三类,分析后的结果并不是【体育】一个单一结果,而是各个feature的概率【0.9, 0.1, 0.1】

标签:偏差,特征,推荐,用户,算法,物品,画像,ID
From: https://www.cnblogs.com/DLShark/p/18592568

相关文章

  • 欧几里得算法 & 扩展欧几里得算法
    一、欧几里得算法欧几里得算法,也叫辗转相除,简称gcd,用于计算两个整数的最大公约数引理:\(\gcd(a,b)=\gcd(b,a\%b)\)证明:设\(r=a%b\),\(c=gcd(a,b)\)则\(a=xc\),\(b=yc\),其中\(x,y\)互质\(r=a\%b=a-pb=xc-pyc=(x-py)c\)......
  • 堆栈实验--KMP算法
     求next数组的思想:最长公共前后缀什么是字符串前后缀呢,比如一个字符串aba,a可以是前缀,ab也可以是,但aba不是(也有资料说是但在kmp我们不认为),同样的,a(最后的a)是后缀,ba也是。求next数组,以ababa为例,若字符数组以0开始,第一位我们默认为-1,即a b a b a-1求第二位,则......
  • 编写一个冒泡算法,对10个整数进行排序
    #include<iostream>//冒泡排序函数voidbubbleSort(intarr[],intn){for(inti=0;i<n-1;++i){for(intj=0;j<n-1-i;++j){if(arr[j]>arr[j+1]){//交换相邻元素inttemp......
  • 栈和队列的应用 ——球钟算法
    栈和队列的应用——球钟算法1.球钟背景球钟是一个利用球的移动来记录时间的简单装置它有三个可以容纳若干个球的指示器:分钟指示器,五分钟指示器,小时指示器若分钟指示器中有两个球,五分钟指示器有六个球,小时指示器有五个球,那就代表时间是5:322.工作原理每过一分钟球钟就......
  • AI工具推荐——Cherry Studio
    CherryStudio介绍CherryStudio是一款支持多模型服务的Windows/macOSGPT客户端。它的主要特点如下:多样化的大型语言模型提供商支持☁️主要的大型语言模型云服务:OpenAI、Gemini、Anthropic等......
  • 版本比较工具类 - C#小函数类推荐
          此文记录的是版本比较工具类。/***版本比较工具类AustinLiu刘恒辉ProjectManagerandSoftwareDesignerE-Mail:lzhdim@163.comBlog:http://lzhdim.cnblogs.comDate:2024-01-1515:18:00使用参考:if(Ve......
  • [学习笔记 #8] Manacher 算法
    目录[学习笔记#8]Manacher算法[学习笔记#8]Manacher算法至今都不会exKMP/dk/dk/dk[]里的是我还不确定的。Manacher是对序列上每个点求它作为[回文中心]的最长回文子串长度/端点的算法,时间复杂度是\(O(|S|)\)。具体地,从左往右加入每个点,记录当前字符串的回......
  • 【C++算法】31.前缀和_连续数组
    文章目录题目链接:题目描述:解法C++算法代码:图解题目链接:525.连续数组题目描述:解法前缀和思想:如果把0变成-1,那么就是在区间内找一个最长的子数组,使得子数组中所有元素的和为0前面做过一个前缀和为k的子数组,这里就是转化为和为0。前缀和+哈希表哈希表里......
  • 【C++算法】32.前缀和_矩阵区域和
    文章目录题目链接:题目描述:解法C++算法代码:题目链接:1314.矩阵区域和题目描述:解法防止有人看不明白题目,先解释一下题目二维前缀和思想:使用前缀和矩阵ret=[x1,y1]~[x2,y2]=D=(A+B+C+D)-(A+B)-(A+C)+A=dp[x2,y2]-dp[x1-1,y2]-dp[x2,y1-1]+dp[x......
  • 深入解析图神经网络:Graph Transformer的算法基础与工程实践
    GraphTransformer是一种将Transformer架构应用于图结构数据的特殊神经网络模型。该模型通过融合图神经网络(GNNs)的基本原理与Transformer的自注意力机制,实现了对图中节点间关系信息的处理与长程依赖关系的有效捕获。GraphTransformer的技术优势在处理图结构数据任务时,Graph......