转化延迟
这块研究比较多,但目前还未有比较好的解法,列举一下工业界场景解法以及如何操作实时。见过很多讲理论的,实操好像还没啥人讲。
- DFM(转化延迟建模)
- 将带有延迟的转化分布分解成转化时间和转化率的分布,一个模型拟合延迟时间间隔,一个拟合是否最终转化(a. 观测为负样本的概率 b. 转化延迟di,且观测为正样本概率)
- 延迟的分布需要稳定
- 延迟时间指数分布、高斯混合分布
- PU Learning(positive unlabeled learning)
- 半监督学习,只知道一种标签,需要识别另一种标签
- two step approach
- 先使用分类模型(最好是标签明确的分类模型)对unlabeled 标签打分
- 根据打分对unlabeled打标,继续学习
- 在推荐实战中,最好是根据物料来纠正标签,纠正多少比例的标签需要计算
- Fake Negative Weight 对正负损失函数加权
- 正样本加权(1+p),负样本(1-p)(1+p)
- Fake Negative Calibration
- \(p=b/1-b\) 修正 b观测概率 p真实概率
- 多任务视角,拟合不同天的转化率
- 譬如延迟转化以3天为准,拟合第1天的,第二天的,第三天的转化率
- 实际线上只使用第三天的转化率;第一天,第二天拟合转化率是辅助任务