[WSDM 2022]An Effective Graph Learning based Approach for Temporal Link Prediction: The First Place of WSDM Cup 2022
总结
传统模型+拓扑结构中生成更多的特征实现拟合,并没有对时间间隔进行优化
介绍
这是WSDM在2022举办的竞赛,要求是预测时序图中一定时间窗口内的边。这篇是获得第一名的蚂蚁集团的算法论文。
数据集
比赛中会为每组查询提供时间窗口,且提供了三组test数据集,inter和final是没有ground truth的,最后final上的结果作为了比赛结果。
表2找出了initial test里的边已存在于train里的边。可以看到绝大多数的边都不是第一次出现。因此作者尝试了仅根据训练集里边的存在与否进行了预测,实验结果为表3。这个预测结果已经比官方baseline要好了。可见一阶关系是很重要的。
此外,作者还统计了与init test中的相同边的label的模和均值作为预测,结果同样很好。
模型
训练集
原始数据集中只有时间戳信息,但实际测试的是时间间隔。因此作者直接对边进行了随机采样来制作负样本。更具体地说,采样原图中的边为正样本,再保持源点不变,随机改变关系和目标点。
此外,作者还删除了冗余特征。一个是删除了所有时间相关特征,一个是删除B中的所有边特征,因为B中有边特征的边非常少。
特征
点嵌入算法使用LINE,得到的点特征通过余弦距离和内积判断它们之间的关系。
此外,对于点特征,还将点的度、连接的不同类型的点数和边数作为特征
对于点对,连接同一个一跳/两跳邻居点的连接数量以及连接边类型作为特征
此外,还利用了相同三元组(点边点)的出现次数
Catboost模型
直接使用Catboost模型进行预测