大语言模型的发展让研究人员专注于建立尽可能大的模型。但是其实较小的模型在某些任务中表现会优于较大的模型时,例如:Llama 3-8B在MMLU任务上的表现优于较大的Llama 2-70B !
这就说明大模型并不是万能的,在一些特定任务中,小模型表现得可能会更出色。所以IBM的研究人员就推出了一个轻量级模型Tiny Time Mixers[1],并且在M4数据集上优于大型SOTA模型(包括MOIRAI),并且它还是开源的!
https://avoid.overfit.cn/post/d7c8ea6e69e94a39930241a7c17059b7
标签:优于,模型,Tiny,Mixers,TTM,Time,轻量级 From: https://www.cnblogs.com/deephub/p/18241740