目录
倒排
精排
粗排
模型训练
百度基于 GPU 的超大规模离散模型训练框架 PaddleBox 与 FeaBox
https://zhuanlan.zhihu.com/p/613322265
PaddleBox聚焦训练性能、稳定性、成本
存储挑战:实现了分布式的 GPU 稀疏参数服务器、SSD 的超大的稀疏参数服务器
性能挑战:软件上,大小流水线架构,异构硬件最大化并行。硬件上:性能最优的CPU/GPU/SSD/网卡布局设计
通信挑战:升级网卡拓扑,GPU直接高速通信。梯度聚合+量化通信,降低数据量
FeaBox 基于 GPUBox 的一体化特征抽取框架
一体化流式框架,提升性能和易用性。基线复用+列存储,解决IO和重复计算问题。异构特征抽取,支持CPU/GPU混合特征抽取
异构调度策略:
依据 DAG 的拓扑实现分层调度。在同层之内,尽量使得 CPU 和 GPU 去并行。在同一层内,首先异步的调度 GPU 节点,进行GPU 操作。再同步调用 CPU 节点,使得GPU和GPU并行执行。
对于同层的 GPU 节点,我们还又会做 KernelFusion 来减小 Launch 的开销。最后在 GPU 透传之后,将结果列转行,转到 CPU 的内部,最后弹出数据。