推荐系统中的常用算法——基于Graph Embedding的GES和EGES

标签：GES EGES Graph item 算法 Embedding 向量

1. 概述

相比较于基于Collaborative Filter算法，基于基础Graph Embedding模型可以根据用户的行为序列学习出item的embedding，利用item对应的Embedding可以方便计算item与item之间的相似度，并在实践中被证明是卓有成效的方法，在基于基础Graph Embedding模型，主要包括item2vec，node2vec，deepwalk等算法。

在使用基础Graph Embedding算法的前提是用户的行为序列，但是对于一些新的item或者用户很少有行为的item，即冷启动问题，基础的Graph Embedding算法很难学到对应item的embedding表示，为此，一些针对item冷启动的方法被提出，其中就包括GES和EGES算法。

GES和EGES是阿里在2018年提出的两个基于Graph Embedding的算法，其中GES全称为Graph Embedding with Side Information，EGES全称为Enhanced Graph Embedding with Side Information。为了解决冷启动的问题，GES和EGES在计算item embedding的过程中引入了side information。

2. 算法原理

2.1. side information

side information在推荐系统中有着重要的作用，不仅仅能应用在召回中用于处理冷启动问题，同时在排序阶段中也有广泛的应用。side information主要指的是与item相关的一些先验信息，对于商品而言，先验信息包括：类别，商店，价格等。

2.2. GES算法

GES算法全称为Graph Embedding with Side Information，假设 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习$ 表示item或者side information的embedding矩阵，其中， $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_02$ 表示item $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_03$ 的embedding， $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_04$ 表示第 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_05$ 个side information，item $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_03$ 共有 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_07$ 个side information，则对于item $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_03$ 共有 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_09$ 个向量：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_10$

其中， $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_11$ 为embedding的维度。

对于item $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_03$ ，使用average-pooling将这 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_09$ 个向量聚合起来，得到item $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_03$ 的向量表示：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_15$

2.3. EGES算法

EGES算法全称为Enhanced Graph Embedding with Side Information，从其名字来看便可以知道，EGES是GES的增强版。在GES中，每一个向量，包括一个item的向量以及 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_07$ 个side information的向量，这些向量的权重是一样的。从实际的情况来看，不同种类的side information对于最终的embedding的贡献是不一样的。因此EGES对GES中的向量做了加权的操作。

假设对于item $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_03$ ，权重矩阵为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_18$ ，其中， $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_19$ 表示第 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_20$ 个item的第 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_21$ 个side information的权重，为简单，记 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_22$ 为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_19$ ， $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_24$ 表示的是item $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_20$ 本身向量的权重，记为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_26$ 。

对于item $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_03$ ，加权平均后的结果为：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_28$

其中，使用 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_29$ 而不是 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_30$ 是为了保证权重大于0。

2.4. GES和EGES的模型结构

GES和EGES的模型结构如下图所示：

推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_31

其中，Dense Embeddings表示的是item向量以及 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_07$ 个side information的向量。Hidden Representation即为如上公式中的 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_33$ 。从上述过程来看，GES即为EGES模型的简化版本，即权重都为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_34$ 。

2.5. EGES中item向量的求解

EGES算法的流程如下图所示：

推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_35

从EGES算法的流程中，笔者发现，其与DeepWalk的流程基本一致，不同的主要是两点：1）学习的参数不同，在DeepWalk中主要是item的向量表示，在EGES中不仅要学习item的向量 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_36$ ， $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_07$ 个side information的向量 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_38$ ，还包括权重的矩阵 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_39$ ；2）在DeepWalk中使用的是SkipGram，在EGES中使用的是WeightedSkipGram。

2.6. Weighted Skip-Gram

Weighted Skip-Gram算法的流程如下所示：

推荐系统中的常用算法——基于Graph Embedding的GES和EGES_ide_40

为了能够更好的理解上述的流程，我们需要先了解word2vec中Skip-Gram模型的具体流程，在词向量的求解过程中除了Skip-Gram还可以是CBOW模型，本文的重点是Skip-Gram模型，Skip-Gram模型的结构如下图所示：

推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_41

为讨论的方便，假设在Skip-Gram模型中，每个词的向量维度为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_11$ ，在词典 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_43$ 中，中心词 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_ide_44$ 的词向量为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_45$ ，背景词 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_46$ 的词向量为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_47$ 。给定中心词生成背景词的条件概率可以通过对向量内积做softmax运算而得到：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_48$

此时，对于整个文本可以得到如下的概率形式：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_49$

语言模型中的目标是要使得上述的概率最大，通过log似然，可以得到如下的损失函数：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_50$

对于 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_51$ ，有：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_52$

为了能够对其中的参数求解，可以使用梯度下降法求解，此时需要对损失函数求导，以 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_53$ 为例：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_54$

从上述的公式发现，每次的求导数的过程中，都需要对整个词典中的词计算，如果词典较大，那么每次更新时的计算成本就比较大，为降低计算成本，近似的训练方法被提出，负采样（Negative Sampling）便是其中的一种近似计算方法。

对于上述给定的中心词 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_ide_44$ ，给定一个背景窗口，假设背景词 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_46$ 出现在 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_ide_44$ 的背景窗口中的事件概率为：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_58$

对于给定的长度为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_59$ 的文本，假设时间步 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_60$ 的词为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_61$ 且背景窗口大小为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_62$ ，此时联合概率为：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_63$

此时模型中仅考虑了正样本，通过采样 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_64$ 个未出现在该背景窗口中的词，此时的联合概率为：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_49$

其中， $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_66$ 可以表示为：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_67$

可以验证，此时计算不再与词典大小相关，而是与负采样的参数 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_64$ 相关，以上便是Skip-Gram模型以及负采样的相关内容。

对于采样到的样本 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_69$ ，其对应的向量为 $推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_70$ ，由上述的理论可以得到：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_71$

可以得到如下的导数：

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_深度学习_72$

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_Graph_73$

$推荐系统中的常用算法——基于Graph Embedding的GES和EGES_权重_74$

参考文献

Wang J, Huang P, Zhao H, et al. Billion-scale commodity embedding for e-commerce recommendation in alibaba[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 839-848.
[Graph Embedding]阿里超大规模商品Embedding策略EGES
Graph Embedding在淘宝推荐系统中的应用
NLP之—word2vec算法skip-gram原理详解

标签：GES,EGES,Graph,item,算法,Embedding,向量
From： https://blog.51cto.com/u_16161414/6480223