冷启动内容
冷启动分成用户冷起、物品冷起、系统冷启动;用户冷启目的是提升用户留存以及活跃度等指标,帮助用户增长;物品冷启动主要是提升品类多样性以及丰富度,促进内容生态。生态健康才能保持长久广告收益以及成交额。
用户冷启的核心在于数据稀疏,新用户不了解,如何获取更多数据或者更好的刻画用户,譬如使用其他场景的数据,设计标签选项收集用户兴趣等;物品冷启需要寻找种子用户,更好的流量扶持。
冷启常见的问题
- 冷启用户的识别(活跃天数,登录天数等)
- 当前的状态(即时兴趣还是长期稳定兴趣),留存客户
- 物品潜力预估
- 用户冷启,产品和运营发力点,算法如何配合
用户冷启通用做法:
- 规则阶段+简单模型
- 前期通过标签圈选(类目,热点,地域,精品等)
- 简单模型(性别、年龄、交互item个数,登录次数,是否新用户,安装APP列表),筛选新用户友好特征
- E&E模型探索,对用户进行探索
- 模型阶段
- 尽量使用多域的用户数据建模,新老数据一起建模
- 多设计一些对新用户友好特征(bias),bias特征加到浅层网络
- bias特征经过LHUC模块,筛选embedding;新用户样本经过模型时,能够筛选
- 预训练泛化user group emb(先对用户分群)
- 使用新用户的样本w2v,正例:新用户交互过的item,负例:随机筛几个
- 老用户交互item非常多,用户兴趣明显,和新用户当前状态有差异,可能会引入噪声
- 多域模型,模型实时反馈
- MAML(元学习),构造比较合适的emb(个人感觉不靠谱,需要每个用户设计一套梯度下降参数)
- 运营产品层面,多设计一些激励措施,延长用户留存
内容冷启
-
新内容需要单独做一路进行扶持,boosting
-
i2i,u2i等
-
emb初始化(同类的相似的topk的emb平均)
-
冷启资源和热门资源使用不同的塔(双塔学习)
-
内容扶持:
- 通过强插,调权;给定时间,给定分发量
- 作者设置冷启动额度,优质作者助推
-
多分发给老用户(容忍度高)、uplift识别冷启内容不反感的用户;分发给意见领袖,提升成功率
-
优质资源的预估:
- 判别是否领域新热,产品话题讨论和关注度、产品热榜;
- 资源价值评估: 作者的优质、初期表现数据
-
冷启资源曝光尽量和实际曝光曲线接近
- 一种简单的方式,按照24h来小时按照比例来投,确保曝光量