首页 > 其他分享 >多分类模型训练使用交叉熵损失的一个注意的点

多分类模型训练使用交叉熵损失的一个注意的点

时间:2023-06-25 10:57:47浏览次数:69  
标签:loss 训练 交叉 模型 损失 softmax fun

使用交叉熵损失的网络模型最后一层不要用softmax,交叉熵损失函数会在计算的时候做softmax,如果用了会导致模型训练异常,

如果模型最后一层有softmax,则损失函数要写成

loss_fun = nn.NLLLoss()
x = model(data)
loss = loss_fun(torch.log(x), label)

 

标签:loss,训练,交叉,模型,损失,softmax,fun
From: https://www.cnblogs.com/Liang-ml/p/17502383.html

相关文章

  • Dora AI:支持3D模型的网站生成工具
    DoraAI有什么魔力能在竞争激烈的ProductHunt月榜上强势登顶?我尝试从产品和运营两个方面分析下DoraAI这次的成功。产品Dora的本体乍看像一款3D网站编辑器,主页面和Webflow等传统设计或建站工具有点类似,都由一块空白画布和四周的功能区组成,可以在画布上添加各种图片、文字等内......
  • 原型模型
    瀑布模型是1需求分析、2软件设计、3程序设计、4编码实现、5单元测试、6集成测试、7系统测试、8运行维护原型模型通过瀑布模型的123过程构建一个原型来获取需求。让客户体验,然后对原型进行更改从而得到需求。所以原型模型一般用来获取需求,弥补了瀑布模型的缺陷1:需求不明确原型......
  • MaskFormer:将语义分割和实例分割作为同一任务进行训练
    目标检测和实例分割是计算机视觉的基本任务,在从自动驾驶到医学成像的无数应用中发挥着关键作用。目标检测的传统方法中通常利用边界框技术进行对象定位,然后利用逐像素分类为这些本地化实例分配类。但是当处理同一类的重叠对象时,或者在每个图像的对象数量不同的情况下,这些方法通常......
  • 软件过程模型概况
    软件过程模型就是软件开发过程中遵循的流程、方法、标准、规范、思想等等所形成的模板。目前的常用的软件过程模型有以下几种:瀑布模型V模型(瀑布模型的变种)原型模型螺旋模型(原型+瀑布)构件组装模型/基于构件的开发方法快速应用开发RAD(瀑布+构件组装)统一过程/统一开发方法敏......
  • 安装新版VS2022之后,添加EF实体模型没有生成对于的表格
    1)找到vs2022安装路径中的EF6.Utility.CS.ttinclude.tt文件,需要去掉.tt后缀,然后再做以下修改【部分版本直接是EF6.Utility.CS.ttinclude则直接进入第二步】2)修改EF6的实用程序EF6.Utility.CS.ttinclude文件,它默认的位置在:C:\ProgramFiles\MicrosoftVisualStudio\2022\Profes......
  • HBase数据模型
    HBase是一个稀疏的多维度的映射表列族(支持动态扩展,保留旧的版本)做不到对数据进行修改,只能生成新的,标注时间。(不考虑冗余,追求分析效率,牺牲空间,来换取时间)列限定符时间戳:数据坐标概念:四个维度(行键,列族,列限定符,时间戳)确定唯一的值概念视图行式存储和列式存储面向......
  • Kubernetes CNI 网络模型及常见开源组件
    随着容器技术在企业生产系统中的逐步落地,用户对容器云的网络特性要求也越来越高。跨主机容器间的网络互通已经成为基本要求,更高的要求包括容器固定IP地址、一个容器多个IP地址、多个子网隔离、ACL控制策略、与SDN集成等。目前主流的容器网络模型是CoreOS公司推出的Contai......
  • choices参数,MTV与MCV模型,多对多三种创建方式
    choices参数(数据库字段设计常见)"""用户表 性别 学历 工作经验 是否结婚 是否生子 客户来源 ...针对某个可以列举完全的可能性字段,我们应该如何存储只要某个字段的可能性是可以列举完全的,那么一般情况下都会采用choices参数"""classUser(models.Model):us......
  • 2023.25 大模型和小模型
    大模型通常指参数较多、层数较深的模型,它们具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间来训练和推理。常见的大型模型包括深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等。这些模型适用于数据量较大、计算资源充足的场景,例如云端计算、高性能计算、人工......
  • deepspeed ZeRO-Inference 可在1-GPU上推理~100B的大模型
    原理:......