A Critical Study on Data Leakage in Recommender System Offline Evaluation

时间：2024-05-05 17:23:56浏览次数：25

标签：Recommender 训练数据 Study 切分测试 Recommendation Evaluation Y5

概
主要内容
理想的切分方式
代码

Ji Y., Sun A., Zhang J. and Li C. A critical study on data leakage in recommender system offline evaluation. TOIS, 2022.

概

本文讨论了现在的推荐系统评价方式 (如 Leave-one-out) 存在的数据泄露的问题, 以及所导致的一些风险.

主要内容

由于大部分的数据切分方法并没有严格遵守 global timeline 进行划分, 如下图所示

所以, 在评估的时候可能会导致:
1. 为某个用户预测下一个他可能感兴趣的商品, 但是预测出来的结果在当前时刻实际上可能还没上架;
2. 由于训练中接触到了一些未来的信息, 这在实际中也是不太可能的.
实验设置:

如上图所示, 将整个数据集按照年份分成 10 份, 选择 Y5, Y7 作为测试集. 然后训练的时候, 比如 Y6, 表示用 Y1-Y6 的数据作为训练集.
需要注意的是, Y5/Y7 作为测试集, 不是指把整个年份的交互作为测试, 是那些 users 的最后一个交互在 Y5/Y7 中的作为测试, 所以训练集和测试集是不会有重叠的.

数据集统计信息

Top-N Recommendation List

如上图所示, 大抵有如下的结论:
1. 一旦未来的训练数据集被使用, 模型的推荐结果就会推荐只有在未来才有可能出现的 items, 这在实际中是不会发生的;
2. 随着未来的训练数据的增加, 这个现象呈现加重的趋势.

Recommendation Accuracy

作者进一步比较在逐步增加未来数据的时候, 模型的精度的变化:

其实仅仅从图中, 似乎感觉整体的精度的变化其实不大, 但是比较相对的排名变化, 其实影响还是很大的:

可以发现, 不同的模型, 同一个数据集, 当未来数据的比例变化的时候, 各自的相对排名往往不是固定的. 这个其实影响很大, 因为这变相说明我们在一般的如 leave-one-out 这种切分下得到的结论可能并不适用于实际的场景. 不过这里我有那么点疑问, 为啥这里 BPR 的效果能这么好, 感觉和具体的数据集也是有关系的.

理想的切分方式

理想的切分方式是采用滑动窗口:

这种方式已经被应用一些在线推荐中去了, 不过这种方式也存在一些技术上的问题:
1. time windows 的长度, 太长了用户兴趣可能会变化很大, 太短了测试样本点又太少;
2. 超参数调节, 应该根据哪部分数据进行参数调节?
3. 如何综合评价模型? 因为完全也有可能出现某一部分测试集上一个方法好, 另一部分另一个方法好, 是平均地看待精度还是仅仅取最后一个测试集来判断, 也是一个问题.

代码

[official]

标签：Recommender,训练,数据,Study,切分,测试,Recommendation,Evaluation,Y5
From： https://www.cnblogs.com/MTandHJ/p/18173654

Do Loyal Users Enjoy Better Recommendations? Understanding Recommender Accuracy
目录概实验设置实验Interaction-basedLoyaltyActiveTimePeriodbasedLoyaltyRecency代码JiY.,SunA.,ZhangJ.andLiC.DoLoyalUsersEnjoyBetterRecommendations?UnderstandingRecommenderAccuracyfromaTimePerspective.ICTIR,2022.概讨论了推荐中一......
启发式评估（Heuristic Evaluation）--转载 [2011.12.13 sina blog]
启发式评估（HeuristicEvaluation） -[一架好书--读书学习的收获]2008年08月07日分类: 一架好书--读书学习的收获版权声明：转载时请以超链接形式标明文章原始出处和作者信息及本声明http://buyantang.blogbus.com/logs/27286224.htmlUsabilityInspectionMethods,Edit......
启发式评估(heuristic evaluation)方法介绍--转[2011.12.23 sina blog]
启发式评估(heuristicevaluation)方法介绍(2008-09-0911:56:52)转载▼标签：it分类：２互联网产品设计什么是启发式评估？启发式评估法就是使用一套简单、通用、有启发性的可用性原则来进行的可用性评估。即几个评审人员根据一些通用的可用性原则和自己的经验来发现......
phpstorm配置xdebug (phpstudy环境下)
phpstorm配置xdebug (phpstudy环境下)点击设置点击扩展组件打开XDebug调试组件点击设置点击配置文件点击配置xdebug的php版本，在最后找到xdebug的配置信息将默认生成的配置的下面两个改成Onxdebug.profiler_enable=Onxdebug.remote_enable=On最后添加idekey，这个在p......
【论文随笔】会话推荐系统综述(A Survey on Conversational Recommender Systems)
前言今天读的论文为一篇于2021年5月发表在《ACM计算机调查》(ACMComputingSurveys)的论文，文章提供了对话式推荐系统（CRS）的全面综述，探讨了CRS的定义、概念架构、交互方式、知识元素、计算任务以及评估方法。文章还讨论了CRS在不同应用环境中的实现，如智能家居助手和聊天机器人，并指......
读论文-电子商务产品推荐的序列推荐系统综述与分类(A Survey and Taxonomy of Sequent
前言今天读的这篇文章是于2023年发表在"SNComputerScience"上的一篇论文，这篇文章主要对序列推荐系统进行了全面的调查和分类，特别是在电子商务领域的应用。文章首先定义了用户和产品集合，以及用户与产品的交互序列。然后，它解释了序列推荐系统的目标，即生成一个个性化的Top-K排名的......
【论文随笔】多行为序列Transformer推荐(Multi-Behavior Sequential Transformer Reco
前言今天读的论文为一篇于2022年7月发表在第45届国际计算机学会信息检索会议（SIGIR'22）的论文，文章主要为推荐系统领域提供了一个新的视角，特别是在处理用户多行为序列数据方面，提出了一种有效的Transformer模型框架。要引用这篇论文，请使用以下格式：[1]Yuan,Enming,etal."Multi......
【论文随笔】基于会话的推荐系统构建方法调查(Survey On Methods For Building Sessio
前言今天读的论文为一篇于2023年发表在国际开放信息技术杂志(InternationalJournalofOpenInformationTechnologies)的论文，文章是关于构建基于会话的推荐系统（Session-basedRecommenderSystems,SBRS）的方法的综述。文章首先介绍了推荐系统在处理大量信息领域（如在线商店、电......
读论文-基于会话的推荐系统综述(A survey on session-based recommender systems)
前言今天读的论文是一篇于2021年发表于"ACMComputingSurveys(CSUR)"的论文，文章写到，推荐系统在信息过载时代和数字化经济中非常重要。基于会话的推荐系统（SBRSs）是新的推荐系统范式，不同于其他模型化长期静态用户偏好的推荐系统，SBRSs专注于捕捉短期动态用户偏好。尽管SBRSs已被深......
【论文随笔】深度推荐系统的自动化_一项调查(Automl for deep recommender systems_ A
前言今天读的论文为一篇于2021年1月发表在ACMTransactionsonInformationSystems的论文，本文是一篇关于深度推荐系统自动化机器学习（AutoML）的综述，由RuiqiZheng、LiangQu、BinCui、YuhuiShi和HongzhiYin共同撰写。文章首先提出了一个抽象概念——AutoMLforDeepRecommende......