山东大学2023-2024深度学习期末回忆及参考答案

标签：训练模型测试数据 2024 神经网络参数 2023 数据参考答案

文章目录

考试并不难，就是背多分。只要你在平时的学习中认真复习，掌握好每一个知识点，考试时就能游刃有余。

名词解释（3*8=24分）

分布式表示

分布式表示（Distributed Representation）是一种表示方法，在这种方法中，信息是通过多个神经元的激活模式来表示的，而不是通过单个神经元的激活。它在自然语言处理和机器学习中广泛应用，特别是在词嵌入（word embeddings）中，每个词被表示为一个高维向量。

超参数

超参数（Hyperparameter）是指在机器学习模型训练之前设置的参数，这些参数的值不能通过训练数据直接学习到，而是需要通过实验或经验来确定。常见的超参数包括学习率、批量大小、网络层数等。

共现矩阵

共现矩阵（Co-occurrence Matrix）是一种矩阵，用于表示词语在一定窗口大小内的共现频率。在自然语言处理中，共现矩阵可以帮助捕捉词语之间的语义关系，是构建词嵌入的一种方法。

截断BPTT

截断BPTT（Truncated Backpropagation Through Time）是一种训练循环神经网络（RNN）的技术。由于RNN在处理长序列时会遇到梯度消失或爆炸的问题，截断BPTT通过限制反向传播的时间步数来缓解这些问题，从而提高训练效率和稳定性。

attention机制

Attention机制（Attention Mechanism）是一种在神经网络中用于提高模型性能的方法。它通过为输入序列中的每个元素分配不同的权重，使模型能够更好地关注重要的信息。Attention机制在机器翻译、图像描述生成等任务中取得了显著效果。

梯度确认

梯度确认（Gradient Checking）是一种验证反向传播算法正确性的方法。通过数值计算梯度并与反向传播计算的梯度进行比较，可以检查模型的梯度计算是否正确，从而确保模型的训练过程是可靠的。

疑惑度

疑惑度（Perplexity）是衡量语言模型性能的一种指标。它表示模型对测试数据的困惑程度，数值越低表示模型越好。具体来说，疑惑度是模型预测测试集上每个词的平均概率的倒数的指数。

还有一个忘了

名词解释基本不难，就是贝多芬

简答（6题）

1、说出训练数据测试数据验证数据的作用，为什么要分训练数据和测试数据？

训练数据、测试数据、验证数据的作用

训练数据：用于训练机器学习模型，通过不断调整模型参数，使模型能够从数据中学习到规律。
测试数据：用于评估模型的性能，测试数据是模型在训练过程中未见过的数据，能够反映模型的泛化能力。
验证数据：用于调参和选择模型，帮助确定最佳的超参数和模型结构，避免过拟合。

为什么要分训练数据和测试数据

分开训练数据和测试数据是为了评估模型的泛化能力。训练数据用于模型学习，而测试数据用于评估模型在未见过的数据上的表现。如果不分开，模型可能会过拟合训练数据，无法在实际应用中表现良好。

2、为什么激活函数要非线性函数？

1. 引入非线性特性

如果没有非线性激活函数，神经网络的每一层实际上只是对输入进行线性变换。多个线性变换的组合仍然是线性变换，这样的网络无法表示复杂的非线性关系。非线性激活函数使得神经网络能够学习和表示复杂的非线性模式，从而解决更复杂的问题。

2. 增加模型的表达能力

非线性激活函数使得神经网络能够近似任何函数（根据通用近似定理），从而大大增加了模型的表达能力。这样，神经网络可以更好地拟合训练数据，并在实际应用中表现得更好。

3. 允许层间的相互作用

非线性激活函数使得每一层的输出不仅仅是前一层输入的线性组合，而是通过非线性变换后得到的结果。这种非线性变换使得不同层之间可以进行复杂的相互作用，从而捕捉到数据中的复杂模式和特征。

常见的非线性激活函数

Sigmoid：将输入映射到0到1之间，适用于输出概率的情况。
Tanh：将输入映射到-1到1之间，常用于隐藏层。
ReLU（Rectified Linear Unit）：将负值映射为0，正值保持不变，计算简单且在实践中效果良好。

3、说出神经网络的学习过程

1. 初始化

权重初始化：随机初始化网络的权重参数，通常使用小的随机值。
偏置初始化：初始化偏置参数，通常为零或小的随机值。

2. 前向传播（Forward Propagation）

输入数据：将训练数据输入到网络的输入层。
计算激活值：通过每一层的神经元，计算加权和并应用激活函数，逐层传递直到输出层。
输出结果：得到网络的预测输出。

3. 计算损失（Loss Calculation）

损失函数：使用损失函数（如均方误差、交叉熵等）计算预测输出与真实标签之间的误差。
损失值：得到一个标量值，表示当前网络预测的误差大小。

4. 反向传播（Backpropagation）

计算梯度：从输出层开始，逐层向后计算损失函数对每个参数的梯度。
链式法则：利用链式法则（链规则）计算每一层的梯度，传播误差到每一层。

5. 参数更新（Parameter Update）

优化算法：使用优化算法（如梯度下降、Adam等）更新网络的权重和偏置参数。
学习率：根据学习率调整参数，减小损失函数的值。

6. 迭代训练（Iteration）

重复步骤2-5：对所有训练数据进行多次迭代（称为epoch），不断调整网络参数，直到损失函数收敛或达到预设的训练轮数。

7. 验证和测试（Validation and Testing）

验证集：在训练过程中使用验证集评估模型性能，调整超参数，防止过拟合。
测试集：在训练完成后，使用测试集评估模型的泛化能力，得到最终的性能指标。

8. 模型保存和部署（Model Saving and Deployment）

保存模型：将训练好的模型参数保存，以便后续使用。
部署模型：将模型部署到实际应用环境中，进行预测和推理。

7到8应该可以不答

4、说出batch normolization的优点

可以使学习快速进行(可以增大学习率)
不那么依赖初始值(对于初始值不用那么神经质)
抑制过拟合(降低Dropout等的必要性)

5、dropout

Dropout是一种正则化技术，用于防止神经网络过拟合。在训练过程中，Dropout随机地将一部分神经元的输出设为零，从而使得网络在每次训练迭代中使用不同的子网络进行训练。这种方法可以有效地减少神经元之间的相互依赖，提高模型的泛化能力。

Dropout的作用

防止过拟合：
- Dropout通过随机丢弃神经元，减少了神经元之间的相互依赖，从而防止模型过拟合训练数据，提高了模型在测试数据上的表现。
提高泛化能力：
- 由于每次训练迭代中使用不同的子网络，Dropout使得模型在不同的训练数据上表现更加鲁棒，从而提高了模型的泛化能力。
简化模型集成：
- Dropout可以看作是对多个子网络进行集成的过程。训练过程中不同的子网络相当于多个不同的模型，最终的模型相当于这些子网络的集成，从而提高了模型的性能。
减少训练时间：
- 虽然Dropout增加了每次训练迭代的计算量，但由于它有效地防止了过拟合，减少了对复杂模型和长时间训练的需求，从而在整体上减少了训练时间。

6、说出word2vec的瓶颈，提出改进方法

word2vec存在的问题

随着词汇量的增大，输入层的one-hot表示的向量大小会增大，此外，还计算one-hot表示和权重矩阵Win的
乘积也要花费人量的计算资源。
- 引入embedding层
随着词汇量的增加，中间层和权重矩阵Wout的乘积以及Softmax层均需要大量的计算。
- 引入负采样Negative Sampling

embedding
a.正向传播:将矩阵的某个特定行抽出来，将该行的神经元原样传给下一层;
b.反向传播:从上一层传过来的梯度将原样传给下一层
负采样:就是从一堆负样本中采样出一部分负样本,用于模型的训练。
a.将多分类转换为二分类问题—负采样的关键
b.选择正例及一部分负例，将二者的损失加起来作为最终的损失。
c.进行负采样?根据语料库中各个单词的出现次数求出概率分布，然后根据概率分布进行采样。

大题（两大题，三小题）

1、一个全连接层，输入是256*256的RBG图像，中间层10，输出1000，计算除偏置外的参数数量，写出计算过程。

2、写出卷积神经网络的三个特征

稀疏连接、权重共亨、平等表达。

1. 稀疏连接（Sparse Connectivity）

在卷积神经网络中，每个神经元只与上一层的局部区域（称为感受野）连接，而不是与所有神经元连接。这种稀疏连接减少了参数数量，提高了计算效率，并且有助于捕捉局部特征。

2. 权重共享（Weight Sharing）

在卷积层中，同一个卷积核（滤波器）在整个输入图像上滑动，应用于不同的位置。这意味着同一个卷积核的权重在不同位置共享，从而大大减少了参数数量。这种权重共享使得卷积神经网络能够有效地检测图像中的局部模式，无论它们出现在图像的哪个位置。

3. 平移不变性（Translation Invariance）

由于卷积操作和池化操作的特性，卷积神经网络对输入图像的平移具有一定的鲁棒性。即使图像中的特征发生了平移，卷积神经网络仍然能够有效地识别这些特征。这种平移不变性使得卷积神经网络在处理图像数据时具有很强的适应性。

3、SGD慢的根本原因，给出其他三个更新权重的方法

根本原因是梯度方向并没有指问最小值的方问。

Momentum、AdaGrad、Adam

1、LSTM画图

2、三个不同门的作用

输出门:管理下一个隐藏状态ht的输出的门
遗忘门:忘记不必要记忆的门
输入门:判断新增信息 g的各个元素的价值有多大。输入门不会不经考虑就添加新信息，而是会对要添加的信息进行取舍。

3、RNNLM的优化方法

LSTM层的多层化:鲁加多个LSTM层
使用Dropout抑制过拟合(由于加深层会过拟合):增加训练数据;降低模型复杂度;正则化
权重共享:在embedding层和Affine层实现权重共享

希望每一位同学都能在考试中发挥出色，取得理想的成绩。

答案生成基于chatgpt与学长笔记深度学习期末复习 (flowus.cn)

标签：训练,模型,测试数据,2024,神经网络,参数,2023,数据,参考答案
From： https://blog.csdn.net/Ban_Xiang/article/details/139740602