首页 > 其他分享 >快手POSO论文阅读

快手POSO论文阅读

时间:2023-03-06 16:57:29浏览次数:50  
标签:POSO 快手 模型 论文 用户 特征 冷启动 new

背景

我们知道,对于冷启动的用户,由于用户行为数据比较少,预估难度较大。常用的解决方案如采用泛化特征代替id类特征、用泛化特征训练一个辅助tower帮助主tower学校、元学习等方案。这些方法把冷启动问题聚焦在用户行为数据的缺失上。POSO论文提出了冷启动中存在的另外两个问题:

1. 冷启动数据量少(快手中占5%),模型容易被非冷用户主导

2. 冷启动用户的行为分布和非冷用户的行为分布存在很大差异

在上图中可视化了新老用户的分布差异,老用户的完播,点赞率,vv和watch time平均后都缩到了原点,然后把新用户的相对差异画出来。很明显,新用户的watch time和vv小,这个好解释,他们还没有行成粘性,大多数就是上来看看随便逛一下。新用户的点赞率会偏高,因为什么东西他都第一次见,新鲜感还在,而老用户相似的东西见的太多,点赞率就下降了。另外,新用户的完播率会偏高,这是快手在机制上做的处理,给他们推了更多的短视频(这涉及到一个产品的问题,为了让用户更快的积累完成感)。

想象中,一个模型想要hold住两种不一样的分布,至少得有一个特征,比如is-new-user来进行区分。模型响应这个特征,依据其不同取值有不同的feature map。但如果论文作者试一下就会发现并非如此:图中上面的部分是某层feature map的可视化,这里分别计算is-new-user=0和=1两种情况做差(累积多个样本),可以发现影响很小,而下图中是将用户所在的国家这个特征改变得到的差别。可以明显看出模型在响应用户所在国家,而几乎忽略了is-new-user,那么is-new-user就无法发挥出上面我们期望的作用了。产生这个现象的原因是冷启动用户的样本占比太低,is-new-user的特征被非冷用户“淹没”了

 

POSO原理

为了解决在模型中冷启动用户被非冷用户淹没的问题,最简单的想法是给每个用户单独训练一个模型,但是这种方法无论是从数据还是算力成本的角度上看都是不可行的。可以借鉴MMOE的思想,训练一组基底模型,每个用户的输出是这组模型的加权和:

 

那这个想法应用到模型的某一层中,得到:

 

 

POSO的线性模型版本

POSO的MLP版本

POSO的 Multi-Head Attention 版本

待补充

POSO的 MMOE 版本

待补充

 

POSO实践

1. 在实践中C一般设为2

2. 在实践中,embedding层一般采用featurewise(因为embedding层相对于隐层保留了特征的原始信息,featurewise的方式不会改变feature的特征分布,只是对特征加权/降权),非embedding层采用bitwise

 

思考

1. POSO的MLP版本和LHUC有什么不同?

本质上没有什么不同,都可以看作特定slot在模型作用的加强。但是从原论文上看存在以下几个区别:

1. LHUC倾向于选取bias显著的泛化特征(如age,gender,ea等),poso则倾向于选择如uid,gid这种个性化特征

2. LHUC一般只作用在隐层,POSO主要作用在embedding层

参考资料

https://zhuanlan.zhihu.com/p/472726462

https://zhuanlan.zhihu.com/p/534056942

标签:POSO,快手,模型,论文,用户,特征,冷启动,new
From: https://www.cnblogs.com/xumaomao/p/17184452.html

相关文章

  • [论文速览] LayoutLMv3@ Pre-training for Document AI with Unified Text and Image
    Pretitle:LayoutLMv3:Pre-trainingforDocumentAIwithUnifiedTextandImageMaskingaccepted:ACMMM2022paper:https://arxiv.org/abs/2204.08387code:htt......
  • 学术论文插图要求简介
    1.类型位图和矢量图是两种不同的图像类型,它们在存储和处理图像时使用不同的方法。以下是它们之间的详细区别:图像构成方式:位图使用像素(或图像的最小单元)来构建图像,每......
  • Faster RCNN 论文阅读
    1.网络架构VGG16网络anchors:人工放上去的RPN对anchors进行二分类,正样本,负样本RoIP:前面的框框已经圈出目标,但还不知道具体属于哪个类,它就是干这个工作的2.VGG网络V......
  • 论文推荐:ScoreGrad,基于能量模型的时间序列预测
    能量模型(Energy-basedmodel)是一种以自监督方式执行的生成式模型,近年来受到了很多关注。本文将介绍ScoreGrad:基于连续能量生成模型的多变量概率时间序列预测。如果你对时间......
  • 2021年系统架构设计师论文---论微服务架构及其应用
    论微服务架构及其应用*忠旭(石家庄铁道大学河北省石家庄市长安区061600)摘要:随着互联网应用的发展,单体应用架构已经不能满足业务需求,微服务架构应运而生。微服务架构是......
  • 论文阅读笔记(四):AS-MLP AN AXIAL SHIFTED MLP ARCHITECTUREFOR VISION
    1.摘要本文提出了一种轴向移位的MLP体系结构(AS-MLP),更关注局部特征的交互,通过特征图的通道轴移动,AS-MLP能够从不同的轴获取信息,这使得网络能够捕捉局部依赖(可以理解为cn......
  • [3] ScanRefer论文精读 3DVisual Grounding开山之作
    论文名称:ScanRefer:3DObjectLocalizationinRGB-DScansusingNaturalLanguage这篇文章最主要的工作,我觉得是两个,第一,提出了一个问题;第二,比较简单地解决了这个问题......
  • Score-CAM: Score-Weighted Visual Explanations for Convolutional Neural Networks
    摘要作者提出了一种不依赖梯度的类激活图生成方法Score-CAM,其通过前向传播获取每一个激活图的权重。实验证明Score-CAM能在解释决策过程方面实现更好的视觉性能和公平性。......
  • 快手 客户端测开 面经
    一面1.自我介绍2.讲一个项目3.履约系统的业务量是多大4.mq消息怎么测试的5.ssm是什么6.主要负责客户端还是服务端7.测试移动端,你的优缺点是什么8.验证新用户或新设......
  • 毕业设计相关论文学习
    毕业设计相关论文及学习1.基于多元线性回归方法的疫情监测系统研究[1]夏婉玉.基于多元线性回归方法的疫情监测系统研究[D].武汉工程大学,2022.DOI:10.27727/d.cnki.gwh......