首页 > 其他分享 >多分类模型训练使用交叉熵损失的一个注意的点

多分类模型训练使用交叉熵损失的一个注意的点

时间：2023-06-25 10:57:47浏览次数：69

使用交叉熵损失的网络模型最后一层不要用softmax，交叉熵损失函数会在计算的时候做softmax，如果用了会导致模型训练异常，

如果模型最后一层有softmax，则损失函数要写成

loss_fun = nn.NLLLoss()
x = model(data)
loss = loss_fun(torch.log(x), label)

标签：loss,训练,交叉,模型,损失,softmax,fun
From： https://www.cnblogs.com/Liang-ml/p/17502383.html

Dora AI：支持3D模型的网站生成工具
DoraAI有什么魔力能在竞争激烈的ProductHunt月榜上强势登顶？我尝试从产品和运营两个方面分析下DoraAI这次的成功。产品Dora的本体乍看像一款3D网站编辑器，主页面和Webflow等传统设计或建站工具有点类似，都由一块空白画布和四周的功能区组成，可以在画布上添加各种图片、文字等内......
原型模型
瀑布模型是1需求分析、2软件设计、3程序设计、4编码实现、5单元测试、6集成测试、7系统测试、8运行维护原型模型通过瀑布模型的123过程构建一个原型来获取需求。让客户体验，然后对原型进行更改从而得到需求。所以原型模型一般用来获取需求，弥补了瀑布模型的缺陷1：需求不明确原型......
MaskFormer：将语义分割和实例分割作为同一任务进行训练
目标检测和实例分割是计算机视觉的基本任务，在从自动驾驶到医学成像的无数应用中发挥着关键作用。目标检测的传统方法中通常利用边界框技术进行对象定位，然后利用逐像素分类为这些本地化实例分配类。但是当处理同一类的重叠对象时，或者在每个图像的对象数量不同的情况下，这些方法通常......
软件过程模型概况
软件过程模型就是软件开发过程中遵循的流程、方法、标准、规范、思想等等所形成的模板。目前的常用的软件过程模型有以下几种：瀑布模型V模型（瀑布模型的变种）原型模型螺旋模型（原型+瀑布）构件组装模型/基于构件的开发方法快速应用开发RAD（瀑布+构件组装）统一过程/统一开发方法敏......
安装新版VS2022之后，添加EF实体模型没有生成对于的表格
1）找到vs2022安装路径中的EF6.Utility.CS.ttinclude.tt文件,需要去掉.tt后缀,然后再做以下修改【部分版本直接是EF6.Utility.CS.ttinclude则直接进入第二步】2）修改EF6的实用程序EF6.Utility.CS.ttinclude文件,它默认的位置在:C：\ProgramFiles\MicrosoftVisualStudio\2022\Profes......
HBase数据模型
HBase是一个稀疏的多维度的映射表列族（支持动态扩展，保留旧的版本）做不到对数据进行修改，只能生成新的，标注时间。（不考虑冗余，追求分析效率，牺牲空间，来换取时间）列限定符时间戳：数据坐标概念：四个维度（行键，列族，列限定符，时间戳）确定唯一的值概念视图行式存储和列式存储面向......
Kubernetes CNI 网络模型及常见开源组件
随着容器技术在企业生产系统中的逐步落地，用户对容器云的网络特性要求也越来越高。跨主机容器间的网络互通已经成为基本要求，更高的要求包括容器固定IP地址、一个容器多个IP地址、多个子网隔离、ACL控制策略、与SDN集成等。目前主流的容器网络模型是CoreOS公司推出的Contai......
choices参数,MTV与MCV模型，多对多三种创建方式
choices参数(数据库字段设计常见)"""用户表性别学历工作经验是否结婚是否生子客户来源 ...针对某个可以列举完全的可能性字段，我们应该如何存储只要某个字段的可能性是可以列举完全的，那么一般情况下都会采用choices参数"""classUser(models.Model):us......
2023.25 大模型和小模型
大模型通常指参数较多、层数较深的模型，它们具有更强的表达能力和更高的准确度，但也需要更多的计算资源和时间来训练和推理。常见的大型模型包括深度神经网络（DNN）、卷积神经网络（CNN）、循环神经网络（RNN）等。这些模型适用于数据量较大、计算资源充足的场景，例如云端计算、高性能计算、人工......
deepspeed ZeRO-Inference 可在1-GPU上推理～100B的大模型
原理：......

多分类模型训练使用交叉熵损失的一个注意的点

相关文章

赞助商

阅读排行