首页 > 其他分享 >A Critical Study on Data Leakage in Recommender System Offline Evaluation

A Critical Study on Data Leakage in Recommender System Offline Evaluation

时间:2024-05-05 17:23:56浏览次数:24  
标签:Recommender 训练 数据 Study 切分 测试 Recommendation Evaluation Y5

目录

Ji Y., Sun A., Zhang J. and Li C. A critical study on data leakage in recommender system offline evaluation. TOIS, 2022.

本文讨论了现在的推荐系统评价方式 (如 Leave-one-out) 存在的数据泄露的问题, 以及所导致的一些风险.

主要内容

  • 由于大部分的数据切分方法并没有严格遵守 global timeline 进行划分, 如下图所示

  • 所以, 在评估的时候可能会导致:

    1. 为某个用户预测下一个他可能感兴趣的商品, 但是预测出来的结果在当前时刻实际上可能还没上架;
    2. 由于训练中接触到了一些未来的信息, 这在实际中也是不太可能的.
  • 实验设置:

  • 如上图所示, 将整个数据集按照年份分成 10 份, 选择 Y5, Y7 作为测试集. 然后训练的时候, 比如 Y6, 表示用 Y1-Y6 的数据作为训练集.

  • 需要注意的是, Y5/Y7 作为测试集, 不是指把整个年份的交互作为测试, 是那些 users 的最后一个交互在 Y5/Y7 中的作为测试, 所以训练集和测试集是不会有重叠的.

数据集统计信息

Top-N Recommendation List

  • 如上图所示, 大抵有如下的结论:
    1. 一旦未来的训练数据集被使用, 模型的推荐结果就会推荐只有在未来才有可能出现的 items, 这在实际中是不会发生的;
    2. 随着未来的训练数据的增加, 这个现象呈现加重的趋势.

Recommendation Accuracy

  • 作者进一步比较在逐步增加未来数据的时候, 模型的精度的变化:

  • 其实仅仅从图中, 似乎感觉整体的精度的变化其实不大, 但是比较相对的排名变化, 其实影响还是很大的:

  • 可以发现, 不同的模型, 同一个数据集, 当未来数据的比例变化的时候, 各自的相对排名往往不是固定的. 这个其实影响很大, 因为这变相说明我们在一般的如 leave-one-out 这种切分下得到的结论可能并不适用于实际的场景. 不过这里我有那么点疑问, 为啥这里 BPR 的效果能这么好, 感觉和具体的数据集也是有关系的.

理想的切分方式

  • 理想的切分方式是采用滑动窗口:

  • 这种方式已经被应用一些在线推荐中去了, 不过这种方式也存在一些技术上的问题:
    1. time windows 的长度, 太长了用户兴趣可能会变化很大, 太短了测试样本点又太少;
    2. 超参数调节, 应该根据哪部分数据进行参数调节?
    3. 如何综合评价模型? 因为完全也有可能出现某一部分测试集上一个方法好, 另一部分另一个方法好, 是平均地看待精度还是仅仅取最后一个测试集来判断, 也是一个问题.

代码

[official]

标签:Recommender,训练,数据,Study,切分,测试,Recommendation,Evaluation,Y5
From: https://www.cnblogs.com/MTandHJ/p/18173654

相关文章

  • Do Loyal Users Enjoy Better Recommendations? Understanding Recommender Accuracy
    目录概实验设置实验Interaction-basedLoyaltyActiveTimePeriodbasedLoyaltyRecency代码JiY.,SunA.,ZhangJ.andLiC.DoLoyalUsersEnjoyBetterRecommendations?UnderstandingRecommenderAccuracyfromaTimePerspective.ICTIR,2022.概讨论了推荐中一......
  • 启发式评估(Heuristic Evaluation)--转载 [2011.12.13 sina blog]
    启发式评估(HeuristicEvaluation) -[一架好书--读书学习的收获]2008年08月07日分类: 一架好书--读书学习的收获  版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明http://buyantang.blogbus.com/logs/27286224.htmlUsabilityInspectionMethods,Edit......
  • 启发式评估(heuristic evaluation)方法介绍--转[2011.12.23 sina blog]
    启发式评估(heuristicevaluation)方法介绍(2008-09-0911:56:52)转载▼标签:it分类: 2互联网产品设计什么是启发式评估?启发式评估法就是使用一套简单、通用、有启发性的可用性原则来进行的可用性评估。即几个评审人员根据一些通用的可用性原则和自己的经验来发现......
  • phpstorm配置xdebug (phpstudy环境下)
    phpstorm配置xdebug (phpstudy环境下)点击设置点击扩展组件打开XDebug调试组件点击设置点击配置文件点击配置xdebug的php版本,在最后找到xdebug的配置信息将默认生成的配置的下面两个改成Onxdebug.profiler_enable=Onxdebug.remote_enable=On最后添加idekey,这个在p......
  • 【论文随笔】会话推荐系统综述(A Survey on Conversational Recommender Systems)
    前言今天读的论文为一篇于2021年5月发表在《ACM计算机调查》(ACMComputingSurveys)的论文,文章提供了对话式推荐系统(CRS)的全面综述,探讨了CRS的定义、概念架构、交互方式、知识元素、计算任务以及评估方法。文章还讨论了CRS在不同应用环境中的实现,如智能家居助手和聊天机器人,并指......
  • 读论文-电子商务产品推荐的序列推荐系统综述与分类(A Survey and Taxonomy of Sequent
    前言今天读的这篇文章是于2023年发表在"SNComputerScience"上的一篇论文,这篇文章主要对序列推荐系统进行了全面的调查和分类,特别是在电子商务领域的应用。文章首先定义了用户和产品集合,以及用户与产品的交互序列。然后,它解释了序列推荐系统的目标,即生成一个个性化的Top-K排名的......
  • 【论文随笔】多行为序列Transformer推荐(Multi-Behavior Sequential Transformer Reco
    前言今天读的论文为一篇于2022年7月发表在第45届国际计算机学会信息检索会议(SIGIR'22)的论文,文章主要为推荐系统领域提供了一个新的视角,特别是在处理用户多行为序列数据方面,提出了一种有效的Transformer模型框架。要引用这篇论文,请使用以下格式:[1]Yuan,Enming,etal."Multi......
  • 【论文随笔】基于会话的推荐系统构建方法调查(Survey On Methods For Building Sessio
    前言今天读的论文为一篇于2023年发表在国际开放信息技术杂志(InternationalJournalofOpenInformationTechnologies)的论文,文章是关于构建基于会话的推荐系统(Session-basedRecommenderSystems,SBRS)的方法的综述。文章首先介绍了推荐系统在处理大量信息领域(如在线商店、电......
  • 读论文-基于会话的推荐系统综述(A survey on session-based recommender systems)
    前言今天读的论文是一篇于2021年发表于"ACMComputingSurveys(CSUR)"的论文,文章写到,推荐系统在信息过载时代和数字化经济中非常重要。基于会话的推荐系统(SBRSs)是新的推荐系统范式,不同于其他模型化长期静态用户偏好的推荐系统,SBRSs专注于捕捉短期动态用户偏好。尽管SBRSs已被深......
  • 【论文随笔】深度推荐系统的自动化_一项调查(Automl for deep recommender systems_ A
    前言今天读的论文为一篇于2021年1月发表在ACMTransactionsonInformationSystems的论文,本文是一篇关于深度推荐系统自动化机器学习(AutoML)的综述,由RuiqiZheng、LiangQu、BinCui、YuhuiShi和HongzhiYin共同撰写。文章首先提出了一个抽象概念——AutoMLforDeepRecommende......