引言
搜广推类似场景都是retrieval + ranking两阶段方式,前者用从海量候选粗选一轮,后者再用负载模型,是效果、延迟和机器资源的trade-off的产物。
retrieval广泛使用embedding + ANN方案,比起invert index 个性化更强。
embedding
动机,word2vec 用向量表示高维的one-hot编码,向量的距离越近表示词义越相近。推荐系统里的协同过滤,FM/FFM模型都有类似的作用。
-
样本工程
选择样本是一门艺术
如何选正例: click or impr,另一条例子
如何选负例:负例采样(negative sampling 必要性)
hard negative + easy negative, -
模型结构
简单双塔结构
每个塔可以做更多工作,可以上attention之类的 -
特征工程
泛化特征必要的,id类如果正例稀疏,至少多少正例才能拟合好吗?airbnb的场景
- 局限性
模型建模能力:user tower、item tower双塔结构限制效果,没有交叉特征;embedding长度固定,限制表征多兴趣;
很多黑盒,比如样本选择,评估方式(仅仅依赖A/B test效率太低)
ANN
暴力全库计算是效果最好的,不同ann算法有一定效果折损,但消耗更少时间、更少机器。
哪些算法
更进一步
是否能打破对模型结构的限制?阿里的一些工作
graph embedding? 能利用图的结构
标签:Embedding,Introduction,模型,样本,negative,embedding,tower,Retrieval From: https://www.cnblogs.com/lessmore/p/embedding_retrieval.html