1. classification 与 regression 的区别

1.1 classification 与 regression 输出的区别

classification中，我们用 one-hot 向量表示不同的类别(一个向量中只有1 个 1 ，其余都为 0，1 在不同的位置代表不同类别).在regression中的神经网络输出只有一个，而classification则有多个输出.

如何由一个输出变成多个输出呢：在最后一层乘上不同的 w ，加上不同的 b。将下图中的数值y1、y2、y3组合在一起形成新的向量 y。

1.2 classification 与 regression 计算 loss 的处理区别

在regression中，直接拿输出数值 y和真实数值计算接近度；而在 classification中,是将多个输出数值组成一个向量,向量经过 softmax 后形成新的向量,再拿新的向量去和不同类别计算接近度.softmax的含义可以简单理解成将含有各种各样数值的向量y 转变成只含有 0 和 1 的向量$y^{'}$

1.2.1 softmax的运作机制

下面式子就是softmax,分子是用来将 y都变成正值！分母是用来归一化,保证输出 y′ 在0 与 1之间!

我们在多分类问题常常在最后一层套softmax,但在二分类问题使用sigmoid比较多.但实际上这两个可以看作是一样的.sigmoid为什么可以视为概率是从条件概率的公式推导而来,而softmax的公式可以由多类问题的条件概率推导而来.具体参考Click.还有为什么两者可以看作相同可以看这个Click.

1.3 classification 与 regression 计算 loss 的方法不同

regression采用 MSE 和 MAE的方法计算loss函数;而classification则采用cross entropy(交叉熵)的方法计算loss函数,最小交叉熵等价于maximizing likelihood(最大似然),两者没有区别!!

1.3.1 为什么交叉熵适用于分类问题

我们举一例子说明,我们将$y_3$的值设定很小,以此避免对$loss$有大影响.下面两幅图是$y_1$和$y_2$对Loss的影响.图上红色表示$Loss$很大,蓝色则表示很小.所以在training时,我们希望$loss$可以走到右下角的地方.如果我们从左上角开始,$MSE$在红色处梯度很小不易变化,而$ cross\quad entropy$却很容易梯度下降.

所以即使是loss function的定义,都可能影响training的效果.

标签：Loss,classification,loss,softmax,输出,向量,regression,网路,2.4
From： https://www.cnblogs.com/newblg/p/17472901.html

linux学习笔记：网路诊断工具-mtr命令
网络诊断工具-mtr命令最近在面试的过程中，被问到了mtr命令，一脸懵逼，据面试官了解，该命令在公司里是经常使用的，借此我也来学习一下！网络诊断的背景网络诊断工具包括ping，traceroute和mtr，它们使用Internet控制消息协议（ICMP）数据包来测试Internet上两点之间的连接和传输。当用户在Intern......
算法刷题记录：P1518 [USACO2.4]两只塔姆沃斯牛 The Tamworth Two
题目链接：https://www.luogu.com.cn/problem/P1518题目分析这道模拟题很典型了，给定了一个固定的移动方式，去模拟即可，该题说：如果牛和农夫永远不会相遇输出0，我没想到很好的方法，不推荐我这样的写法。算勉强AC吧。AC代码//Problem:P1518[USACO2.4]两只塔姆沃斯牛TheTamwort......
2.3标识符、关键字、保留字 2.4 常量、变量、数据类型
2.3标识符、关键字、保留字2.3.1标识符标识符只能由字母、下划线"_"、数字、美元符号"$"组成并且首字母不能是数字。区分大小写、且不能插入空格。以下举例：合法：Dog、class_3、_price、$123、$123bay、abc_123、￥123非法：3_class、&class、class、NO.1（关键字）、.com、#myname2.3.2......
2.3类神经网路训练不起来怎么办 (三):自动调整学习速率 (Learning Rate)
1.自适应学习率调整(AdaptiveLearningRate)1.1为什么需要调整学习率首先认识一个现象.Trainingstuck≠SmallGradient 训练卡住的原因不一定是因为gradient太小,即criticalpoint，也有可能是因为振荡. 怎么看出是因为振荡导致训练loss降不下去呢:在训练过......
apache2.4禁止IP访问
如果在apache2.4想禁止使用ip访问，只能通过域名访问https是改这个配置文件conf/extra/httpd-ssl.confhttp是改这个conf/extra/httpd-vhosts.conf将下面这个配置的111.111.111.111修改为你对应的服务器IP复制到配置文件最尾部重启apache服务即可http的根据需要修改端口<Vir......
2.2类神经网路训练不起来怎么办 (二)：批次 (batch) 与动量 (momentum)
1.Batch(批次)对抗临界点的两个方法就是batch和momentum 将一笔大型资料分若干批次计算loss和梯度,从而更新参数.每看完一个epoch就把这笔大型资料打乱(shuffle),然后重新分批次.这样能保证每个epoch中的batch资料不同,避免偶然性.epoch是指将数据集分成batch后,......
Yolov5训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法
问题：train训练得出的P\R\map全部为0上网寻找寻找答案，大部分给出的原因解释如下：①文件夹格式（名称和架构）有问题，这属于基本内容，不应该出错的。②pytorch和cuda版本不对应。关于这部分可以参考链接：https://blog.csdn.net/jhsignal/article/details/111401628 和 https://www......
2.1类神经网路训练不起来怎么办 (一):局部最小值 (local minima) 与鞍点 (saddle poin
1.Whengradientissmall 本小节主要讨论优化器造成的训练问题.1.1CriticalPoint（临界点）如果训练过程中经过很多个epoch后,loss还是不下降,那么可能是因为梯度(斜率)接近于0,导致参数更新的步伐接近于0,所以参数无法进一步更新,loss也就降不下去. 这时或许有很......
2.4 Transform
通常而言，数据不会以处理好的形式出现，所以我们需要在训练前对数据进行预处理，以适应训练所有TorchVision的Dataset都会有两个参数——transform用于修改特征，target_transform用于修改标签——它们接受包含转换逻辑的可调用对象（其实就是接受函数对象）。torchvision.transform......
每日记录(2.4线性表的应用)
有序表的合并已知线性表La和Lb中的数据元素按值非递减有序排列,现要求将La和Lb归并为一个新的线性表Lc,且Lc中的数据元素仍按值非递减有序排列。La=(1,7,8)Lb=(2,4,6,8,10,11)Lc=(1,2,4,6,7,8,8,10,11)0.新建一个链表新建一个空表C，直接在A和B中每次选取最小值......

2.4类神经网路训练不起来怎么办 (四):损失函数 (Loss) 也可能有影响