快手POSO论文阅读

时间：2023-03-06 16:57:29浏览次数：57

背景

我们知道，对于冷启动的用户，由于用户行为数据比较少，预估难度较大。常用的解决方案如采用泛化特征代替id类特征、用泛化特征训练一个辅助tower帮助主tower学校、元学习等方案。这些方法把冷启动问题聚焦在用户行为数据的缺失上。POSO论文提出了冷启动中存在的另外两个问题：

1. 冷启动数据量少（快手中占5%），模型容易被非冷用户主导

2. 冷启动用户的行为分布和非冷用户的行为分布存在很大差异

在上图中可视化了新老用户的分布差异，老用户的完播，点赞率，vv和watch time平均后都缩到了原点，然后把新用户的相对差异画出来。很明显，新用户的watch time和vv小，这个好解释，他们还没有行成粘性，大多数就是上来看看随便逛一下。新用户的点赞率会偏高，因为什么东西他都第一次见，新鲜感还在，而老用户相似的东西见的太多，点赞率就下降了。另外，新用户的完播率会偏高，这是快手在机制上做的处理，给他们推了更多的短视频（这涉及到一个产品的问题，为了让用户更快的积累完成感）。

想象中，一个模型想要hold住两种不一样的分布，至少得有一个特征，比如is-new-user来进行区分。模型响应这个特征，依据其不同取值有不同的feature map。但如果论文作者试一下就会发现并非如此：图中上面的部分是某层feature map的可视化，这里分别计算is-new-user=0和=1两种情况做差（累积多个样本），可以发现影响很小，而下图中是将用户所在的国家这个特征改变得到的差别。可以明显看出模型在响应用户所在国家，而几乎忽略了is-new-user，那么is-new-user就无法发挥出上面我们期望的作用了。产生这个现象的原因是冷启动用户的样本占比太低，is-new-user的特征被非冷用户“淹没”了

POSO原理

为了解决在模型中冷启动用户被非冷用户淹没的问题，最简单的想法是给每个用户单独训练一个模型，但是这种方法无论是从数据还是算力成本的角度上看都是不可行的。可以借鉴MMOE的思想，训练一组基底模型，每个用户的输出是这组模型的加权和：

那这个想法应用到模型的某一层中，得到：

POSO的线性模型版本

POSO的MLP版本

POSO的 Multi-Head Attention 版本

待补充

POSO的 MMOE 版本

待补充

POSO实践

1. 在实践中C一般设为2

2. 在实践中，embedding层一般采用featurewise（因为embedding层相对于隐层保留了特征的原始信息，featurewise的方式不会改变feature的特征分布，只是对特征加权/降权），非embedding层采用bitwise

思考

1. POSO的MLP版本和LHUC有什么不同？

本质上没有什么不同，都可以看作特定slot在模型作用的加强。但是从原论文上看存在以下几个区别：

1. LHUC倾向于选取bias显著的泛化特征（如age，gender，ea等），poso则倾向于选择如uid，gid这种个性化特征

2. LHUC一般只作用在隐层，POSO主要作用在embedding层

参考资料

https://zhuanlan.zhihu.com/p/472726462

https://zhuanlan.zhihu.com/p/534056942

标签：POSO,快手,模型,论文,用户,特征,冷启动,new
From： https://www.cnblogs.com/xumaomao/p/17184452.html

[论文速览] LayoutLMv3@ Pre-training for Document AI with Unified Text and Image
Pretitle:LayoutLMv3:Pre-trainingforDocumentAIwithUnifiedTextandImageMaskingaccepted:ACMMM2022paper:https://arxiv.org/abs/2204.08387code:htt......
学术论文插图要求简介
1.类型位图和矢量图是两种不同的图像类型，它们在存储和处理图像时使用不同的方法。以下是它们之间的详细区别：图像构成方式：位图使用像素（或图像的最小单元）来构建图像，每......
Faster RCNN 论文阅读
1.网络架构VGG16网络anchors:人工放上去的RPN对anchors进行二分类，正样本，负样本RoIP：前面的框框已经圈出目标，但还不知道具体属于哪个类，它就是干这个工作的2.VGG网络V......
论文推荐：ScoreGrad，基于能量模型的时间序列预测
能量模型（Energy-basedmodel）是一种以自监督方式执行的生成式模型，近年来受到了很多关注。本文将介绍ScoreGrad：基于连续能量生成模型的多变量概率时间序列预测。如果你对时间......
2021年系统架构设计师论文---论微服务架构及其应用
论微服务架构及其应用*忠旭（石家庄铁道大学河北省石家庄市长安区061600）摘要：随着互联网应用的发展，单体应用架构已经不能满足业务需求，微服务架构应运而生。微服务架构是......
论文阅读笔记（四）：AS-MLP AN AXIAL SHIFTED MLP ARCHITECTUREFOR VISION
1.摘要本文提出了一种轴向移位的MLP体系结构(AS-MLP),更关注局部特征的交互，通过特征图的通道轴移动，AS-MLP能够从不同的轴获取信息，这使得网络能够捕捉局部依赖（可以理解为cn......
[3] ScanRefer论文精读 3DVisual Grounding开山之作
论文名称：ScanRefer:3DObjectLocalizationinRGB-DScansusingNaturalLanguage这篇文章最主要的工作，我觉得是两个，第一，提出了一个问题；第二，比较简单地解决了这个问题......
Score-CAM: Score-Weighted Visual Explanations for Convolutional Neural Networks
摘要作者提出了一种不依赖梯度的类激活图生成方法Score-CAM，其通过前向传播获取每一个激活图的权重。实验证明Score-CAM能在解释决策过程方面实现更好的视觉性能和公平性。......
快手客户端测开面经
一面1.自我介绍2.讲一个项目3.履约系统的业务量是多大4.mq消息怎么测试的5.ssm是什么6.主要负责客户端还是服务端7.测试移动端，你的优缺点是什么8.验证新用户或新设......
毕业设计相关论文学习
毕业设计相关论文及学习1.基于多元线性回归方法的疫情监测系统研究[1]夏婉玉.基于多元线性回归方法的疫情监测系统研究[D].武汉工程大学,2022.DOI:10.27727/d.cnki.gwh......