增量预训练也叫领域自适应预训练(domain-adapter pretraining),即在所属领域数据上继续预训练。
主要问题是在增量预训练后可能发生灾难性遗忘。
避免灾难性遗忘主要从以下几个方面入手:
1 领域相关性
增量数据与所选基座模型的原始训练数据尽量一定的相关性。
2 新数据分布与原始数据尽量相似
领域数据和通用数据的比率,结合具体数据:10%,15%,20%的都有。
度小满的轩辕2.0想到一个办法,让无监督数据和指令数据混合,合并增量预训练和微调两个阶段。
3 降低学习率
增量预训练2e-5;指令微调需要更低1e-6;但是得多跑几轮不然学不到领域知识
4 进行warm up
5 对新任务中参数的变化施加惩罚
6 知识蒸馏(KD),使微调模型的预测结果接近旧模型的预测结果。
标签:训练,模型,微调,领域,增量,数据 From: https://www.cnblogs.com/Revelation/p/17787079.html