首页 > 其他分享 >模型训练-tips

模型训练-tips

时间:2023-05-29 18:00:47浏览次数:31  
标签:False 训练 grad 模型 param tips requires model

模型冻结部分层的训练方式:

  • 第一步:在训练之前,将除了Embedding之外的层设置为param.requires_grad = False,如下所示:
for name, param in model.named_parameters():
    if "model.embed_tokens" not in name:
        param.requires_grad = False
  • 第二步:在训练的时候,在优化器中添加过滤器filter把requires_grad = False的参数过滤掉,这样在训练的时候,不会更新这些参数,如下所示:
optimizer = AdamW(filter(lambda p: p.requires_grad, model.parameters()))

标签:False,训练,grad,模型,param,tips,requires,model
From: https://www.cnblogs.com/qiaoqifa/p/17441237.html

相关文章

  • 李宏毅语音课程-RNN-T模型
    rnn-tdecoder:给一个输入h,输出多个字符直到输出空字符Φ。接着输入下一个MCCC特征实际会在输出字符的后面会加一个RNN(最上面的蓝色块)。把原来的RNN剔除(中间黄色块)。原因:1.增加的RNN相当于一个语言模型LM,可以提前从text中训练。2.方便RNN-T的训练。  训练时:穷举所......
  • 【2023 · CANN训练营第一季】应用开发深入讲解之AIPP
    应用开发深入讲解之AIPPAIPP(ArtificialIntelligencePre-Processing)人工智能预处理,在AlCore上完成数据预处理。动态&静态AIPP分为静态AIPP和动态AIPP两种,对比如下:2.抠图&填充AIPP改变图片尺寸需要遵守如下图中的顺序,即先Crop再Padding,每个操作仅能执行一次。3.色域转换在执行R......
  • 【2023 · CANN训练营第一季】应用开发深入讲解之模型转换工具
    应用开发深入讲解之模型转换工具1.基本概念昇腾张量编译器(AscendTensorCompiler,简称ATC)是异构计算架构CANN体系下的模型转换工具,它可以将开源框架的网络模型或AscendIR定义的单算子描述文件(json格式)转换为昇腾AI处理器支持的.om格式离线模型。模型转换过程中,ATC会进行算子调度......
  • 【2023 · CANN训练营第一季】应用开发深入讲解之模型离线推理
    应用开发深入讲解之模型离线推理模型离线推理是指使用已经转好的om模型对输入图片进行推理,主要步骤如下图所示:1.Host&Device内存管理与数据传输Host&Device上的内存申请与释放,内存间的相互拷贝。代码中加载输入数据时,需要申请Host内存进行存储,当输入数据处理完毕后,需要将处理完成的......
  • 【2023 · CANN训练营第一季】应用开发深入讲解之DVPP
    应用开发深入讲解之DVPP1.基本概念昇腾Al处理器内置图像处理单元DVPP(DigitalVideoPre-Processor),提供强大的媒体处理硬加速能力。主要功能模块有:2.常见接口a.内存申请与释放b.通道创建与释放c.图片描述信息创建与销毁d.图片描述参数设置3.JPEGD图片解码4.VPC视觉预处理......
  • 通义千问预体验,如何让 AI 模型应用“奔跑”在函数计算上?
    立即体验基于函数计算部署通义千问预体验:https://developer.aliyun.com/topic/aigc_fcAIGC浪潮已来,从文字生成到图片生成,AIGC的创造力让人惊叹,更多人开始探索如何使用AI提高生产效率,激发更多创作潜能,然而在实际应用中,AI技术的高门槛仍然让很多人望而却步,普通开发者或者没......
  • 常用的数字高程模型(DEM)数据介绍,附免费下载
    常用的数字高程模型(DEM)数据:​ETOPO(1.8千米)ETOPO是一种地形高程数据,由NGDC美国地球物理中心发布,与大多数高程数据不同的是,它还包含海底地形数据。SRTM15(450米)SRTM15的空间分辨率为15弧秒,精度相当于0.5km左右,包含了陆地高程和海洋深度数据。GMTED(250米)来自美国地质勘探局USGS......
  • 【2023 · CANN训练营第一季】基于Atlas 200I DK A2的智能小车结构设计和控制原理
    基于Atlas200IDKA2的智能小车结构设计和控制原理一、结构设计基本原则从零开始设计并搭建智能小车,在满足外观要求的基础上,要满足小车运转过程中的运动干涉率为0,并且需要考虑实际安装时的易用性与可行性,以及智能小车的重心位置的控制等。主要模块前中后外壳结构支撑模块。TT减速......
  • 【2023 · CANN训练营第一季】基于Atlas 200I DK A2的智能小车功能实现
    基于Atlas200IDKA2的智能小车功能实现一、地图绘制小车的行驶依赖于模型的训练,因此需要设计一张地图,用于小车行驶的模型训练过程和推理结果验证。开发者可以根据需要使用PhotoShop软件绘制不同的图层,使用可以使小车正常转弯和停车的尺寸,得到场景地图并打印。二、手动控制小车烧......
  • 代码随想录算法训练营第二十天|654. 最大二叉树、617. 合并二叉树、700. 二叉搜索树
    【参考链接】654.最大二叉树【注意】1.构造二叉树,都需要用前序遍历。2.二叉树的根是数组中的最大元素。3.没必要构造新数组,通过下标控制左右区间。运行效率会高很多。【代码】1#Definitionforabinarytreenode.2#classTreeNode(object):3#def__init......