背景
MMoE模型从一定程度上解决了多个目标(任务)在训练过程中的相互耦合的问题,即使用门控概念(gate network)降低了因为share-layer部分带来的“特征耦合”。但其实这是不够的,因为在每一个expert内部,与其他的expert不存在联系,这导致每个expert的表达能力不是“那么强”。因此google提出了SNR模型,专家层分为多层,底层的专家会互相融合作为高层专家的输入,并采用了NAS来搜索各个任务网络结构
SNR模型结构
论文根据 SNR 中专家之间连接方式的不同,提出了 SNR-Trans 和 SNR-Aver 两种网络结构,具体的连接公式如下。其中 u 表示低层专家,v 表示高层专家,z∈[0,1] 用来控制专家间的连接,也就代表着网络结构的搜索空间。
SNR-Trans:
SNR-Aver:
参考资料
https://zhuanlan.zhihu.com/p/683017323
https://zhuanlan.zhihu.com/p/150464424
标签:Google,expert,模型,专家,SNR,网络结构,zhihu,multitask From: https://www.cnblogs.com/xumaomao/p/18056189