前言:这篇文章是阅读石塔西《互联网大厂推荐算法实战》第二章推荐系统中的特征工程的学习笔记,在未来对于特征向量的学习笔记会在此基础上进行补充。编者认为特征工程已经过时的言论是错误的,该言论认为DNN模型可以自主的完成对数据特征的提取,但是在Deep Cross Network网络中,作者直接指出仅采用DNN模型是无法实现对二阶、三阶的特征进行交互的;并且虽然在DIN、SIM模型中可以从数据中挖掘用户的短期兴趣和长期兴趣,是因为模型足够复杂,需要通过复杂的计算才能提取这些兴趣特征。因此,一个好的特征工程在深度学习快速发展的环境还是必要的。
⭕ 表示笔者待学习部分
- 基本概念:
Field
:相当于是特征的集合,例如,特征为视频类别特征中,有【体育、音乐、戏剧】三个类,视频类别就被称为一个Field
Feature
:体育、音乐、戏剧均为视频类别的特征。
目录
物料画像
ItemID
在传统的识别任务中,物品的ID往往被认为是无效特征,因为ID是随机的,无法对识别、预测等任务提供有效的信息。但在推荐算法中,虽然本身也没具体含义,但是模型可以通过历史数据,对物品ID进行学习,记住物品ID与用户特征的信号关系。
静态画像
无需通过与用户交互的数据即可获得的特征,一般通过
标签:偏差,特征,推荐,用户,算法,物品,画像,ID From: https://www.cnblogs.com/DLShark/p/18592568BERT
/CLIP
对原始图像、标题等信息特征提取。一般分析得到的信息不是一个具体的值,例如在一个新闻推荐中,有【体育、音乐、戏剧】三类,分析后的结果并不是【体育】一个单一结果,而是各个feature的概率【0.9, 0.1, 0.1】