首页 > 其他分享 >论文速读记录 - 202409

论文速读记录 - 202409

时间:2024-09-29 15:01:37浏览次数:7  
标签:样本 速读 模型 论文 目标 重排 202409 打分

这次是KDD 2024专场。

目录:

  • Deep Bag-of-Words Model: An Efficient and Interpretable Relevance Architecture for Chinese E-Commerce
    【词袋模型和语言模型结合,构建可解释的相关性计算方法】

  • Understanding the Ranking Loss for Recommendation with Sparse User Feedback
    【从梯度的角度分析为什么pairwise损失在反馈稀疏的场景下有效?】

  • Unsupervised Ranking Ensemble Model for Recommendation
    【如何把多个序融合为一个序?】

  • Non-autoregressive Generative Models for Reranking Recommendation
    【如何用非自回归的方式从n个物品中选出m个进行重排?】

  • Multi-objective Learning to Rank by Model Distillation

    【把多个单目标的模型蒸馏到一个模型中】

  • Mitigating Pooling Bias in E-commerce Search via False Negative Estimation
    【一种减轻假阴样本影响的方法】

  • 总结

Deep Bag-of-Words Model: An Efficient and Interpretable Relevance Architecture for Chinese E-Commerce

应用在淘宝电商搜索中的相关性匹配模型,主要解决用户查询和商品之间的文本相关性问题。

BERT类的模型虽然在文本匹配领域应用广泛,但依然存在一些问题:1)性能问题,一些场景下部署BERT还是比较消耗资源的;2)可解释性问题,通过双塔模型计算文本的相似性比较“黑盒”,可解释性较差,难以做出针对性的优化。一些传统精确匹配的方法(如BM25、tf-idf等)则存在文本表述形式差异带来不准确的问题。

因此,本文提出了一个深度词袋模型,一个高效且可解释的可解释架构,基本思路:将用户查询或商品编码成稀疏的词袋表示,即一系列<词,权重>,相似性表示为查询和商品之间匹配上的词的累计权重。具体的,利用预训练语言模型,将查询或商品编码为一个高维的向量,维度大小等于词表的大小,每一维表示词的权重。

以上方法有两个问题:1)如何将表示的每一维与特定的词对应起来;2)维度扩大带来的计算和存储上的问题。如何解决这俩挑战:

  1. 通过模型结构和损失函数的设计,将表示的维度与词对齐。
  2. 在损失函数中增加稀疏约束,降低高维表示中的有效位置。
  3. 对高维表示进行采样降低表示用到的词数。

具体实现:

  1. 训练两个编码器,分别从字符粒度和词粒度对输入文本进行编码,如下图的Character Encoder和Word Encoder。
  2. 扩展了词表(原文是"N-gram Hashing Vocabulary")。
  3. 根据编码的结果,构建BoW表示。如下图的Term-Weighting Bow和Synonym-Expansion Bow表示。Bow表示即将输入的文本进行词袋表示:\(\\\{w_i : p_i\}\)。重点是如何计算每个词的权重,具体细节不赘述。其中Synonym-Expansion Bow即对输入文本进行扩展,避免一些同义、表述不一致的问题。可以看作是补充了词袋模型的语义功能。
  4. 损失函数看起来比较常规,没啥好讲的。此外,还用人工标注数据训练了一个交互式的模型,作为教师模型进行蒸馏。

论文的实验表明,即使使用2层的模型效果依然很好。

看这篇论文的效果倒是挺好的,而且也部署在了淘宝的线上系统,不知道如果用于召回的话可行不。

Understanding the Ranking Loss for Recommendation with Sparse User Feedback

概述:
论文探讨了在稀疏用户反馈情况下,结合排名损失和二元交叉熵损失在推荐系统中的有效性。研究的动机在于:

  • 如何在正样本(如点击)稀疏的情况下优化模型以提高CTR准确性。
  • 为何结合交叉熵和排名损失能够提升CTR预测的性能。

论文揭示了在用户反馈稀疏时:交叉熵损失容易导致负样本的梯度消失问题,而排名损失能够为负样本生成更大的梯度,从而缓解了模型学习过程中的优化问题。论文通过理论分析和在公开数据集上的实验验证了这一观点,并在腾讯在线广告系统中部署了排名损失,取得了显著的商业价值提升。

直接揭晓答案:交叉熵损失的优化曲面相对平缓(如下图),在正样本稀疏的情况下梯度一般都比较小,所以存在收敛速度慢、收敛效果不够好的问题,而结合排名损失后优化曲面更“凸”,正好解决了该问题。

简单说一下理论分析:过求损失函数对正/负样本的logits的梯度,可以看出交叉熵下负样本的梯度的均值与样本集中的CTR接近,而在稀疏场景下CTR一般都很小,具体的分析见论文,不赘述。

另外说一下论文中讨论的排名损失基本是pair形式的。直观地来说,正负样本组pair能够增大梯度是正常的?

Unsupervised Ranking Ensemble Model for Recommendation

  • KDD 2024,Kuaishou.

看题目就知道了,排序继承(融合)模型,即如何把多个序融合成一个序。虽然没找到这篇论文的PDF版本,但是根据摘要和放出的报告视频,感觉还有点意思,还挺符合线上的融合排序的场景的—— 集成多个分进行排序。

实际场景中,通常会有多个打分模型,每个模型通常代表一个指标,如点击、喜欢、收藏等。当然,如果有一个最终序的监督信号,可以直接用这个信号融合这些分,但是往往这种最终的监督信号是缺失的。因此,论文提出了一个无监督的方法集成多个排序模型,来学习多个序的信息。

具体来说,主要学习多个序的两种信息:1)序列信息,衡量两个序之间的距离,使最终的序和输入的多个序之间的距离最小;2)数值信息,使模型能够学习到原来序的打分信息。论文提出的方法内容可以参考下图,应该也是基于变形金刚做的(?),等论文出来再看看细节:

Non-autoregressive Generative Models for Reranking Recommendation

这篇论文提出了一种非自回归生成式的推荐重排模型,NAR4Rec。研究动机主要针对现有自回归模型的以下问题:

  • 只能逐个地生成结果,推理速度慢。
  • 训练与推理之间的不一致性问题。这个乍一看没看明白,原来就是指生成模型训练和推理时不一致的问题。
    训练时:基于已有的序列预测下一个token。
    推理时:基于之前生成的序列预测下一个token。
  • 自左向右地生成顺序忽视了后生成结果的信息,导致次优。

针对这些问题,论文提出了NAR4Rec:

  • 能够同时生成目标序列中的所有项,从而提高效率和有效性。
  • 介绍了一种匹配模型来解决训练样本稀疏和动态候选项对模型收敛性的影响,以及一种序列级非似然训练目标和对比解码方法,以捕捉目标项之间的相关性。

在正式介绍之前,先看下自回归和非自回归的区别:

再看下重排。描述一下重排任务:从n个候选结果中排列出m个物品。重排的两类典型方法:

  • 单阶段方法。就是给定一个结果列表,在此基础上为每个结果打分,再依据打分按照贪心的策略重排这些结果。问题:打分只考虑了初始的序,但是重排过程中序以及发生变化,打分可能已经不准确。
  • 双阶段方法。采用生成器-评估器框架,生成器生成多个可行的序,评估器对序打分以选择最优序列。

这么看,本文的方法应该是双阶段的,NAR4Rec框架如下:

简单介绍一下:

  • 左边的是生成器。由候选物品编码器和位置编码器组成。位置编码器不是位置编码,而是重排输出的每个位置的编码。生成器的输出是一个n*m的矩阵,(i, j)表示把第i个候选物品放在重排输出的第j个位置的概率。关于如何根据输出的矩阵解码得到重排序列,可参考论文(主要是没时间细读

    标签:样本,速读,模型,论文,目标,重排,202409,打分
    From: https://www.cnblogs.com/gzyatcnblogs/p/18439930

相关文章

  • 基于python+flask框架的山西省残疾人就业服务平台的设计与实现(开题+程序+论文) 计算机
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着社会文明的进步与残疾人权益保障政策的不断完善,山西省作为华夏文明的重要发祥地,其残疾人事业的发展日益受到社会各界的关注。然而,当前......
  • 基于python+flask框架的商厦会员管理系统(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着商业竞争的日益激烈,商厦作为集购物、休闲、娱乐为一体的综合性商业体,其管理效率与顾客服务体验成为决定其竞争力的关键因素。传统的人......
  • 基于python+flask框架的少儿编程网站的设计与实现(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展,编程教育在全球范围内日益受到重视,尤其是在基础教育阶段。少儿编程作为培养学生逻辑思维、问题解决能力和创新能力......
  • C语言课程设计:基于C语言的银行管理系统【代码+论文+PPT】
    全文内容包括:1、采用技术;2、系统功能;3、系统截图;4、配套内容。索取方式见文末微信号,欢迎关注收藏!一、采用技术语言:C开发工具:VScode二、系统功能1.客户管理:包括客户信息的增删改查、客户身份验证、客户分组等功能。2.账户管理:包括账户的开户、销户、冻结、解冻、查询、......
  • 史上最详细论文word排版格式指导规范保姆级教学(2024.9.28)!
    前言首先,每个学校的论文排版格式都是不太相同的,但大体上都是相似的。正常来说,论文的排版操作是十分枯燥并且重复的,但是word中的样式工具使得论文排版会变得容易。接下来我将以某个学校论文格式要求为例,进行论文格式排版的操作。全文一共有5500多字,你只需要辛苦一次将这......
  • java计算机毕业设计网上点餐系统的设计与实现(开题+程序+论文)
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展,电子商务已渗透到人们生活的方方面面,极大地改变了人们的消费习惯。餐饮业作为传统服务行业的重要组成部分,也迎来了数字化转......
  • java计算机毕业设计体育科技运动综合信息平台(开题+程序+论文)
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着体育产业的蓬勃发展及科技水平的不断提升,传统体育训练与管理模式正经历着深刻的变革。在竞技体育日益激烈的背景下,如何高效整合运动员数据、优化......
  • 基于nodejs+vue心里咨询与诊断平台系统[开题+源码+程序+论文]计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着社会节奏的加快与生活压力的增大,心理健康问题日益凸显,成为影响公众生活质量的重要因素。传统心理咨询服务受限于地域、时间以及资源分配不均等问题,难以......
  • 基于nodejs+vue鞋类秒杀商城[开题+源码+程序+论文]计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展和电子商务的日益普及,线上购物已成为现代人不可或缺的生活方式之一。在鞋类消费领域,消费者对于时尚、品质与性价比的追求日益增强,......
  • 基于nodejs+vue携手助学助学交流平台[开题+源码+程序+论文]计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景在当今社会,教育资源的不均衡分配问题日益凸显,尤其是在偏远地区及经济欠发达地区,优质教育资源的匮乏成为了制约学生成长与发展的关键因素。随着互联网技术的......