Where to Go Next for Recommender Systems? ID- vs. Modality-based Recommender Models Revisited

时间：2024-04-02 16:34:25浏览次数：23

标签：模态 Recommender Models encoder E2E MoRec Next ID IDRec

概
符号/缩写说明
Training details
Datasets
E2E 下 MoRec 是否优于 IDRec?
Regular setting
Warm setting
越好的 encoder 带来越好的推荐效果?
TS versus E2E?
总结
代码

Yuan Z., Yuan F., Song Y., Li Y., Fu J., Yang F., Pan Y. and Ni Y. Where to go next for recommender systems? ID- vs. modality-based recommender models revisited. SIGIR, 2023.

概

ID 信息, 模态信息使用方式的一个综合性的经验验证.

符号/缩写说明

MoRec: modality-based recommendation model
IDRec: pure ID-based model
FM: foundation model
NLP: natural language processing
CV: computer vision
ME: modality encoder
TS: two-stage paradigm
E2E: end-to-end training
\(i \in \mathcal{I}\), items;
\(u \in \mathcal{U}\), users;

Training details

Backbone: SASRec/DSSM, 前者是一个序列模型, 后者是一个双塔模型;
Encoder: (仅对 MoRec 有用): BERT (small/base) | RoBERTa (small/base) | ResNet50 | Swin-T/B;
Loss function: BCE (Binary Cross-Entropy)
Optimizer: AdamW;
dropout rate: 0.1
learning rate for IDRec: \(\{1e-3, 5e-4, 1e-4, 5e-5\}\);
learning rate for MoRec (Encoder): \(\{1e-4, 5e-5, 1e-5\}\);
learning rate for MoRec (Other): \(1e-4\);
Weight decay: \(\{0.1, 0.01, 0\}\);
IDRec embedding/hidden size: \(\{64, 128, 256, 512, 1024, 2048, 4096\}\);
MoRec embedding/hidden size: 512 for DSSM, 64 for SASRec;
Batch size: 1024 for DSSM, 128 for SASRec

注: 默认情况下, MoRec 采用的 E2E 的训练方式, 即除了 Backbone 外, Encoder 也是跟着训练的.

Datasets

MIND: 在训练 MoRec 的时候, 默认仅使用文本模态 (标题);
H&M: 在训练 MoRec 的时候, 默认仅使用图像模态 (Cover image);
Bili: 在训练 MoRec 的时候, 默认仅使用图像模态 (Cover image);
数据的划分依照 leave-one-out 的方式;

E2E 下 MoRec 是否优于 IDRec?

Regular setting

由上图可以发现, 通过比较强大的 encoder (如 RoBERTa/Swin-B), MoRec 是有可能赶上甚至超越 IDRec 的;
有意思的是, 这个结论和 backbone 有关系, DSSM 上无论用哪个 encoder 都是 IDRec 效果好, 而 SASRec 上 MoRec 就有很大机会暂优势, 感觉其实也有可能是 SASRec 和 encoder 在结构上比较一致?
文本信息 (MIND) 比起图片信息 (HM, Bili) 来说似乎效果更好一点, 我感觉是文本信息的噪声更少一点, 故而更容易利用和微调.

Warm setting

一般来说, 冷启动场景下, 都是 MoRec 效果好, 这里我们感兴趣的是, warm-setting 下的情况, 可以发现, 随着 item 的流行度的增加, IDRec 的优势越来越大.

越好的 encoder 带来越好的推荐效果?

如上图所示, 一般情况下, 模型越复杂, 参数量越多, 的确后续的推荐效果会越好, 但是也有例外, 如 BERT-small 的效果会比 BERT-base 的效果稍稍好一点.

TS versus E2E?

除了 E2E 外, 还有一种比较常见的模态信息的利用方式, 即 TS (two-stage), 它首先通过 encoder 提取模态特征, 然后把这些模态特征用到下游任务中 (此时, encoder 不会再进行微调), 这种方式有显著的优点, 就是节约计算资源.
但是如上图所示, TS 一般情况都是显著逊色于 E2E 的, 如果我们在模态特征后添加多层的 MLP 来进行映射, 则可以得到稍好的结果, 但是依然逊色于 E2E.
我个人认为, 这很大程度上取决于 E2E 能够通过微调记忆数据的信息, 其实是不公平的.

总结

总体看下来, 我的感觉是一般的模态特征是有很大的噪声的, 需要通过交互信息通过调整, 一种是通过 ID embedding 去记忆, 另一种是通过微调 encoder 去记忆, 但是显然这两种方式都不那么 scalable.

代码

[official]

标签：模态,Recommender,Models,encoder,E2E,MoRec,Next,ID,IDRec
From： https://www.cnblogs.com/MTandHJ/p/18110881

proxy_next_stream 的学习
proxy_next_stream的学习背景一个项目出现了程序异常的情况.具体表现为,总是会前端爆出.opcache不存在的问题.很奇怪的是业务开发说这个错误是不应该出现的并且只有在负载的情况下才有问题.公司里面负载的环境很多.但是从来没出现过类似的问题.我这边拿过现场......
[转帖]nginx重试机制proxy_next_upstream
https://www.cnblogs.com/cyleon/p/11023229.html nginx作为反向代理服务器，后端RS有多台服务器，上层通过一定机制保证容错和负载均衡。nginx的重试机制就是容错的一种官方链接：http://nginx.org/en/docs/http/ngx_http_proxy_module.html#proxy_next_upstreamproxy_next_......
服务器端渲染Nuxt.js Next.js
传统服务端渲染art-template包是一个模板解析器，其官网会有解析器的语法和使用constexpress=require('express')constfs=require('fs')consttemplate=require('art-template')constapp=express()app.get('/',(req,res)=>{//1.获取页面模......
CentOS7 下 Docker方式部署 nextcloud步骤
本示范站点在操作系统Centos7环境下；根目录设在：/app/dapp/caihcloud/nextcloud/html，根据实际情况自行调整；假设你已经安装启动好mysql80。现在开始，步骤如下：1、执行安装命令yuminstalldocker-ysystemctlstartdocker//启动dockersystemctlenabledocker//设置开机启动......
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques a
本文是LLM系列文章，针对《ASystematicSurveyofPromptEngineeringinLargeLanguageModels:TechniquesandApplications》的翻译。大型语言模型中提示工程的系统综述：技术与应用摘要1引言2提示工程3结论摘要提示工程已经成为扩展大型语言模型（LLM）和视......
Large Language Models As Evolution Strategies
本文是LLM系列文章，针对《LargeLanguageModelsAsEvolutionStrategies》的翻译。作为进化策略的大型语言模型摘要1引言2相关工作3背景4将LLMS转化为ES算法5LLMS作为零样本进化策略6EVOLLM消融研究7EVOLLM与教师微调8讨论摘要大型Transformer模......
Channel-Wise Autoregressive Entropy Models For Learned Image Compression
目录简介创新点模型框架信道条件熵模型实验&结果简介熵约束自动编码器的熵模型同时使用前向适应和后向适应。前向自适应利用边信息，可以被有效加入到深度网络中。后向自适应通常基于每个符号的因果上下文进行预测，这需要串行处理，这妨碍了GPU/TPU的有效利用。创新点本文引......
Large Language Models Based Fuzzing Techniques: A Survey
本文是LLM系列文章，针对《LargeLanguageModelsBasedFuzzingTechniques:ASurvey》的翻译。基于大型语言模型的模糊化技术综述摘要1引言2背景3基于LLM的模糊测试分析4关于未来工作和挑战的讨论5结论摘要在软件发挥关键作用的现代，软件安全和漏洞分析......
Stepwise Self-Consistent Mathematical Reasoning with Large Language Models
本文是LLM系列文章，针对《StepwiseSelf-ConsistentMathematicalReasoningwithLargeLanguageModels》的翻译。基于大型语言模型的逐步自洽数学推理摘要1引言2相关工作3TriMaster100数据集4循序渐进的自洽思维链5实验6结论摘要使用大型语言模型进......
[Paper Reading] LVM: Sequential Modeling Enables Scalable Learning for Large Vis
LVM:SequentialModelingEnablesScalableLearningforLargeVisionModelsLVM:SequentialModelingEnablesScalableLearningforLargeVisionModels时间：23.12机构：UCBerkeley&&JohnsHopkinsUniversityTL;DR本文提出一种称为大视觉模型(LVM)的方法，该方法以"vis......