首页 > 其他分享 >大模型增量预训练

大模型增量预训练

时间:2023-10-25 14:13:48浏览次数:25  
标签:训练 模型 微调 领域 增量 数据

增量预训练也叫领域自适应预训练(domain-adapter pretraining),即在所属领域数据上继续预训练。

主要问题是在增量预训练后可能发生灾难性遗忘。

避免灾难性遗忘主要从以下几个方面入手:

1 领域相关性

增量数据与所选基座模型的原始训练数据尽量一定的相关性。

2 新数据分布与原始数据尽量相似

领域数据和通用数据的比率,结合具体数据:10%,15%,20%的都有。

度小满的轩辕2.0想到一个办法,让无监督数据和指令数据混合,合并增量预训练和微调两个阶段。

3 降低学习率

增量预训练2e-5;指令微调需要更低1e-6;但是得多跑几轮不然学不到领域知识

4 进行warm up

5 对新任务中参数的变化施加惩罚

6 知识蒸馏(KD),使微调模型的预测结果接近旧模型的预测结果。

标签:训练,模型,微调,领域,增量,数据
From: https://www.cnblogs.com/Revelation/p/17787079.html

相关文章

  • 大模型的幻觉问题
    一什么是幻觉问题大模型的幻觉问题是指大模型生成的答案不基于任何事实数据,简单来说就是杜撰、一本正经的胡说八道。幻觉问题也是影响大模型落地的重要原因之一幻觉问题分类1和用户输入冲突的幻觉2和上下文冲突的幻觉3和事实知识冲突的幻觉(目前重点)例如,大模型在生成医疗......
  • FastAPI学习-11. 请求body - 嵌套模型
    前言使用 FastAPI,你可以定义、校验、记录文档并使用任意深度嵌套的模型(归功于Pydantic)List字段你可以将一个属性定义为拥有子元素的类型。例如Python list:fromtypingimportUnionfromfastapiimportFastAPIfrompydanticimportBaseModelapp=FastAPI()classIte......
  • pydantic学习与使用-16.ORM 模型 orm_mode
    前言pydantic一般是把传入的键值对,转成pydantic对象.我们希望将一个自定义的类对象,转成pydantic模型,需在Config类中,设置属性orm_mode=True。开启from_orm()方法的使用开启orm_modepydantic的orm模型默认是关闭的,需在Config类中,设置属性orm_mode=True。开启from_orm()方......
  • 大模型训练中CPU与GPU使用率的优化策略
    随着深度学习和人工智能的快速发展,训练模型的需求不断增加。然而,在实践中,我们经常遇到一个令人困扰的问题:当训练模型时,CPU经常达到100%的使用率,但GPU使用率却仅仅维持在5%左右。这种不均衡的使用情况导致了训练过程的缓慢,甚至可能影响模型的准确性。在了解这个问题之前,我们需要先了......
  • 《面试1v1》JVM内存模型
    我是javapub,一名Markdown程序员从......
  • 属性很多时如何很清晰的通过充血模型创建数据合法的对象
    原因:在构建充血模型时,为构建合法的对象,对象赋值都在私有的。属性少的时候可以直接写构造函数,属性多时就不太合适了。如何解决这个问题呢?直接上代码Book类:1publicclassBook2{3publiclongId{get;privateset;}4publiclongAuthorId{g......
  • Python贝叶斯MCMC:Metropolis-Hastings、Gibbs抽样、分层模型、收敛性评估
     全文链接:https://tecdat.cn/?p=33961原文出处:拓端数据部落公众号在常规的马尔可夫链模型中,我们通常感兴趣的是找到一个平衡分布。MCMC则是反过来思考——我们将平衡分布固定为后验分布:并寻找一种转移核,使其收敛到该平衡分布。岛屿示例首先提供一个示例,以具体展示Metropo......
  • MLP代码模型--NLP方向
     训练 对于二分类任务,通常使用一个包含两个输出单元的输出层,而不是一个单一的输出单元。这是因为在二分类任务中,每个类别通常对应一个输出单元,一个用于表示类别1(例如正类别),另一个用于表示类别2(例如负类别) 预测是......
  • 模型推理batch inference速度无明显提升、耗时线性增长问题排查
    模型推理batchinference速度无明显提升、耗时线性增长问题排查现象描述当模型在推理阶段使用batchinference时,推理速度并无明显提升,相比单帧多次推理收益不大。如笔者在Xavier上测试某模型结果batchsize推理时间ms折算耗时ms/img111.2311.23220.3910.20......
  • 代码随想训练营第十四天(Python)| 层序遍历 10 、● 226.翻转二叉树 、101.对称二叉树 2
    层序遍历1、迭代法,使用队列classSolution:deflevelOrder(self,root:Optional[TreeNode])->List[List[int]]:res=[]ifrootisNone:returnresqueue=[root]whilequeue:n=len(queue)......