An Analysis of Sequential Recommendation Datasets

时间：2024-04-24 14:12:45浏览次数：31

标签：Datasets 预测交互用户 Analysis MovieLens Sequential 序列数据

概
统计角度论证
实验论证
代码

Woolridge D., Wilner S. and Glick M. An analysis of sequential recommendation datasets. PERSPECTIVES, 2021.

概

本文讨论了 MovieLens 系列数据集是否适用于序列推荐.

统计角度论证

作者为了论证 MovieLens 不适合作为序列推荐数据集, 首先从数据集的统计信息角度出发.

上图展示了常用的序列推荐数据集的 Day 分布情况, 如 '6' 上的占比表示该数据集中所有交互均发生在 6 天内的用户的占比. 显然和其它数据集相比, MovieLens 系列的数据集所有的交互有大半发生在一天内.

Table2 展示了更加精细化的一个指标. 可以发现, ML-1M 每个用户的平均交互时间发生在 0.05s 内, 换言之, 你可以认为大部分用户交互的电影的时间戳是同一个! 要知道, MovieLens 中每个用户的平均交互次数 \(\ge 150\), 怎么可能同一个时间戳内同时给上百部电影打分? 所以作者认为, MovieLens 的数据集并不是真实的用户观看 (打分) 历史, 而是通过某种特殊的数据收集的方式得到的, 这导致如果我们采用的是序列预测, 我们实际上预测是这种数据收集方式, 而不是用户的兴趣变化.

如上图所示, MovieLens 的用户主页, 其实就是一堆的推荐电影, 然后你可以去打分, 我想 MovieLens 的数据集就是这么收集过来的. 这么一想, 确实如果 MovieLens 去做 next-item predication 的话, 实际上我们是去预测背后的推荐机制, 而不是用户的观影顺序.

实验论证

作者在 SASRec 的基础上, 比较了序列 unshuffled/shuffled 的前后变化情况, 可以发现, 虽然一般来说性能都有下降, 但是 ML-1M 的性能下降是最严重的.
我初看的时候很疑惑, 因为我得到的是和作者相反的结论, 这部恰恰说明 ML-1M 是具有很强的 '序列' 性嘛. 现在想来, 作者可能想要表达的是, 这种序列性, 并非是由用户的行为序列导致的, 而是特殊的数据收集方式导致的.

为了进一步证明这一点, 作者额外做了一个 rating 的预测任务: 不再预测下一个 item, 而是根据序列预测下一个 item 的 rating. 作者认为这种方式能够抵消数据收集方式带来的影响, 事实也的确如此! 在 rating 的预测任务上, 效果下降的很少.

代码

[official]

标签：Datasets,预测,交互,用户,Analysis,MovieLens,Sequential,序列,数据
From： https://www.cnblogs.com/MTandHJ/p/18155154

English Grammar Analysis
目录各种功能词的认识名词（Noun）冠词（Article）代词（Pronoun）动词（Verb）介词（Preposition）形容词（Adjective）副词（Adverb）量词（Quantifier）情态动词（ModalVerb）连词（Conjunction）感叹词（Interjection）数词（Numeral）句型动词不定式动名词分词名词性从句定语从句和关系代词定语从句和关系副词状语从句虚拟语......
有限元分析与应用 | Finite Element Method (FEM) Analysis and Applications
第1讲引论/1.2变形体力学的要点https://learning.edx.org/course/course-v1:TsinghuaX+70120073x+1T2024/block-v1:TsinghuaX+70120073x+1T2024+type@sequential+block@5c00cb7f61af4dc8abb857abadc46151/block-v1:TsinghuaX+70120073x+1T2024+type@vertical+block@579410847......
openGauss Anomaly-analysis-命令参考
命令参考表1命令行参数说明参数参数说明取值范围-h,--help帮助命令--c，--conf配置文件目录--m，--metric指定显示指标名--H,--host指定数据来源地址信息，通过地址信息进行过滤-ip地址或者ip地址加端口号-s,--start-time显示开始时间的......
openGauss Anomaly-analysis-使用指导
使用指导假设指标采集系统运行正常，并且用户已经初始化了配置文件目录confpath，则可以通过下述命令实现本特性的功能：对于某一指标，在特定节点上，分析其他指标与该指标从timestamps1到timestamps1时间段内的数据的相关性：gs_dbmindcomponentanomaly_analysis--confconfpath--met......
openGauss Anomaly-analysis-获取帮助
获取帮助模块命令行说明：gs_dbmindcomponentanomaly_detection--help显示如下帮助信息：usage:anomaly_analysis.py[-h]-cCONF-mMETRIC-sSTART_TIME-eEND_TIME-HHOST[--csv-dump-pathCSV_DUMP_PATH]WorkloadAnomalyanalysis:A......
52 Things: Number 41: Are all side-channels related to power analysis?
52Things:Number41:Areallside-channelsrelatedtopoweranalysis?52件事：第41件：所有的侧通道都与功率分析有关吗？ Thisisthelatestinaseriesofblogpoststoaddressthelistof '52ThingsEveryPhDStudentShouldKnow' todoCryptography:asetof......
读论文-电子商务产品推荐的序列推荐系统综述与分类(A Survey and Taxonomy of Sequent
前言今天读的这篇文章是于2023年发表在"SNComputerScience"上的一篇论文，这篇文章主要对序列推荐系统进行了全面的调查和分类，特别是在电子商务领域的应用。文章首先定义了用户和产品集合，以及用户与产品的交互序列。然后，它解释了序列推荐系统的目标，即生成一个个性化的Top-K排名的......
【论文随笔】多行为序列Transformer推荐(Multi-Behavior Sequential Transformer Reco
前言今天读的论文为一篇于2022年7月发表在第45届国际计算机学会信息检索会议（SIGIR'22）的论文，文章主要为推荐系统领域提供了一个新的视角，特别是在处理用户多行为序列数据方面，提出了一种有效的Transformer模型框架。要引用这篇论文，请使用以下格式：[1]Yuan,Enming,etal."Multi......
读论文-基于序列_会话的推荐_挑战，方法，应用和机遇(Sequential_Session-based Recommend
前言今天读的论文为一篇于2022年7月7日发表在第45届国际ACM信息检索研究与发展会议论文集(Proceedingsofthe45thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.)的论文，文章主要讲述了序列推荐系统（SRSs）和基于会话的推荐系统（SBRSs......
读论文-基于序列模式的电子商务推荐系统综述(A Survey of Sequential Pattern Based E
前言今天读的论文为一篇于2023年10月3日发表在《算法》(Algorithms)的论文，这篇文章综述了基于序列模式的电子商务推荐系统，强调了通过整合用户购买和点击行为的序列模式来提高推荐准确性、减少数据稀疏性、增加推荐新颖性，并改善推荐系统的可扩展性。文章详细分析了现有推荐系统的......

An Analysis of Sequential Recommendation Datasets

概

统计角度论证

实验论证

代码

相关文章

赞助商

阅读排行