全连接层详解

该博客仅是笔者对于全连接层的浅薄理解。如果存在问题，请务必告知我，谢谢。

前言

全连接层是常见的神经网络层，可以作为模型的分类器（可理解为将特征维度映射到类别维度上），也可以作为特征提取。不过，对于初学者，可以直接认为全连接层是模型的分类器。毕竟大多数情况下，全连接层都是扮演的分类器的角色。

全连接层中的每一个结点都会与前一层的全部结点相连，因此全连接层的可学习参数非常多，可能会占该模型参数量的80%（数据为经验值，不准确），会消耗大量的计算资源，所以如果希望模型训练得更快，可考虑精简全连接层，比如使用卷积代替全连接层。常见的全连接层的结构如下图，但笔者认为该图仅能清晰地展示全连接层的每一个结点都与前一层结点，不过不能揭示全连接层的本质——矩阵Matrix。

全连接层计算

计算公式：\(y = x \cdot w + b\)，其中\(w\)和\(b\)是可学习参数。模型训练其实就是更新模型中的可学习参数。

从公式里可以看出，全连接层其实跟MLP（多层感知机）、卷积层类似，都是在做多项式求和。注意：整个神经网络本质上其实都是在做多项式求和。

在Pytorch中，全连接层的使用是nn.Linear(input_features, output_features)，即输入维度和输出维度，全连接层的作用可理解为维度映射。

示例

假设\(input_features = 3\)，\(output_features = 2\)相当于一个二分类问题。输入特征\(x\)的形状为\(5 \times 3\)，则权重矩阵\(w\)的形状为\(3 \times 2\)，偏置\(b\)的形状为\(5 \times 1\)。输入特征可以理解为5个样本，每个样本有3个特征；权重矩阵可理解为将输入特征的三维映射到二维。

\[\begin{align} \begin{pmatrix} y_1 \\ y_2 \\ y_3 \\ y_4 \\ y_5 \end{pmatrix} & = \begin{pmatrix} x_{1,1} & x_{1,2} & x_{1,3} \\ x_{2,1} & x_{2,2} & x_{2,3} \\ x_{3,1} & x_{3,2} & x_{3,3} \\ x_{4,1} & x_{4,2} & x_{4,3} \\ x_{5,1} & x_{5,2} & x_{5,3} \end{pmatrix} \cdot \begin{pmatrix} w_{1,1} & w_{1,2} \\ w_{2,1} & w_{2,2} \\ w_{3,1} & w_{3,2} \end{pmatrix} + \begin{pmatrix} b_1 \\ b_2 \\ b_3 \\ b_4 \\ b_5 \end{pmatrix} \\ & = \begin{pmatrix} x_{1,1} \cdot w_{1,1} + x_{1,2} \cdot w_{2,1} + x_{1,3} \cdot w_{3,1} + b_1 & x_{1,1} \cdot w_{1,2} + x_{1,2} \cdot w_{2,2} + x_{1,3} \cdot w_{3,2} + b_1 \\ x_{2,1} \cdot w_{1,1} + x_{2,2} \cdot w_{2,1} + x_{2,3} \cdot w_{3,1} + b_2 & x_{2,1} \cdot w_{1,2} + x_{2,2} \cdot w_{2,2} + x_{2,3} \cdot w_{3,2} + b_2 \\ x_{3,1} \cdot w_{1,1} + x_{3,2} \cdot w_{2,1} + x_{3,3} \cdot w_{3,1} + b_3 & x_{3,1} \cdot w_{1,2} + x_{3,2} \cdot w_{2,2} + x_{3,3} \cdot w_{3,2} + b_3 \\ x_{4,1} \cdot w_{1,1} + x_{4,2} \cdot w_{2,1} + x_{4,3} \cdot w_{3,1} + b_4 & x_{4,1} \cdot w_{1,2} + x_{4,2} \cdot w_{2,2} + x_{4,3} \cdot w_{3,2} + b_4\\ x_{5,1} \cdot w_{1,1} + x_{5,2} \cdot w_{2,1} + x_{5,3} \cdot w_{3,1} + b_5 & x_{5,1} \cdot w_{1,2} + x_{5,2} \cdot w_{2,2} + x_{5,3} \cdot w_{3,2} + b_5 \\ \end{pmatrix} \end{align} \]

在模型输出的时候，选择概率大的一个作为最终输出。由上述例子可以看出，\(y_i\)中对应的每一个\(x_{i,j}\)都参与到了最终结果计算中，每一个\(x_{i,j}\)都会对结果产生影响，体现了全连接的“全”，即全连接结构图中的每一个结点都与前一层的每一个结点相连。

换个角度理解，提取特征——> 对特征进行多项式求和，给特征确定权重，以表示该特征在此任务中的重要性。那是否可以将全连接层也看作是特征提取呢？\(w_{i,j}\)就是输入数据\(x_{i,j}\)的权重。笔者认为可以，在有的论文中也确实是这样做的。

标签：begin,end,cdot,结点,详解,pmatrix,连接
From： https://www.cnblogs.com/coder-shane/p/18355096

JVM参数详解：优化应用程序性能的关键
Java虚拟机（JVM）是Java程序的运行环境，它负责将Java字节码转换为机器码，并在实际计算机上执行。为了优化应用程序的性能，我们需要了解JVM的参数设置。本文将详细介绍JVM的常见参数及其作用，帮助您更好地理解和配置JVM。JVM参数分类JVM参数分为两大类：启动参数和系统属性。1.启......
使用orcale数据库的springboot项目打war包部署到tomcat后启动报错解决办法（缺少UCP数据
我将在我本丢运行ok的springboot项目打成war包后部署到tomcat后，启动tomcat的时候一直显示：由于之前的错误，Context[/ruoyi]启动失败......，查看tomcat的日志文件发现报错：12-Aug-202410:20:35.183严重[main]org.apache.catalina.core.StandardContext.listenerStart配置应用......
科普文：Java基础系列之【你必须知道的框架基础-代理详解】
概叙科普文：Java基础系列之【你必须知道的框架基础-反射/代理】-CSDN博客前面我们详细讲解了反射，反射作用在类加载后创建对象这个期间，再来看看代理。反射是基础，通过反射获取对象及其属性和操作；代理则可以将反射出来的类包装成目标类，然后构建一个代理类，通过代理类来操控目......
s和t权限详解
s，表示setUID或setGID。位于user或group权限组的第三位置。如果在user权限组中设置了s位，则当文件被执行时，该文件是以文件所有者UID而不是用户UID执行程序。如果在group权限组中设置了s位，当文件被执行时，该文件是以文件所有者GID而不是用户GID执行程序。s权限位是一个敏感的权......
C语言编译和链接超详解
文章目录1.翻译环境和运行环境2.翻译环境2.1预处理(预编译)2.2编译2.2.1词法分析2.2.2语法分析2.2.3语义分析2.3汇编2.4链接3.运行环境1.翻译环境和运行环境在ANSIC的任何一种实现中，存在两个不同的环境。第1种是翻译环境，在这个环境中源代......
Transformer系列：图文详解Decoder解码器原理
Encoder-Decoder框架简介理解Transformer的解码器首先要了解Encoder-Decoder框架。在原论文中Transformer用于解决机器翻译任务，机器翻译这种Seq2Seq问题通常以Encoder-Decoder框架来解决，Transformer的网络结构也是基于encoder-decoder框架设计的。这种框架的模型分为两部......
记录JSch连接SFTP Exception:Algorithm negotiation fail问题解决
问题描述：关于正式环境访问外网连接不成功 1、首先检查是否开放防火墙（已确认开放），策略开放后，通过命令连接是否畅通：通过telnet命令，可以得出，访问畅通。telnet192.168.1.122 2、查看生产环境日志，观察生产环境访问外网服务器异常：抛出异常，提示：算法协商失败com.jcraft.j......
Profibus DP主站转Modbus RTU协议网关（通讯配置详解）
作者的许多朋友均对如何实现ProfibusDP网络和ModbusRTU网络的连接互通感到十分困扰，现在为大家统一作出解释。事实上，远创智控YC-DPM-RTU此款设备能够完美地解决这一问题。接下来，作者将会给各位全面且详尽地阐述该设备的功能、参数以及配置的方法。一，产品主要功能远创智控YC-......
Profibus DP(主站)转EtherNet/IP协议转换网关（通讯配置详解）
作者的许多朋友均对如何实现ProfibusDP网络和EtherNet/IP网络的连接互通感到十分困扰，现在为大家统一作出解释。事实上，远创智控YC-DPM-EIP此款设备能够完美地解决这一问题。接下来，作者将会给各位全面且详尽地阐述该设备的功能、参数以及配置的方法。产品介绍本产品实现PROFIB......
机器人正运动学DH参数详解
机器人正运动学DH参数详解一、连杆描述1连杆长度a与连杆转角α连杆长度a：两轴之间公垂线的长度连杆转角α：假设作一个平面，并使该平面与两关节轴之间的公垂线垂直，然后把关节轴i-1和关节轴i投影到该平面上，在平面内轴i-1按照右手法则绕ai-1转向轴i2连杆偏距d与关节角θ......

全连接层详解

全连接层详解

前言

全连接层计算

示例

相关文章

赞助商

阅读排行