hiddens

2024-09-22BERT的代码实现
目录1.BERT的理论2.代码实现 2.1构建输入数据格式 2.2定义BERT编码器的类 2.3BERT的两个任务2.3.1任务一：MaskedLanguageModelingMLM掩蔽语言模型任务 2.3.2 任务二：nextsentenceprediction3.整合代码 4.知识点个人理解 1.BERT的理论BERT全称叫做
2024-09-05在深度学习中的“维度”
在深度学习中，“维度”指的是数据的结构或数组的每个轴的长度。每个维度表示数据的不同特征或轴。为了更好地理解维度，我们可以通过一些示例来说明。1.一维数据示例:向量[2,4,6,8]维度:1（这是一个一维数组）长度:4（数组中有4个元素）2.二维数据示例:矩阵[[1,2,3],[4,5,6
2023-10-25《动手学深度学习 Pytorch版》 10.5 多头注意力
多头注意力（multiheadattention）:用独立学习得到的h组不同的线性投影（linearprojections）来变换查询、键和值，然后并行地送到注意力汇聚中。最后，将这h个注意力汇聚的输出拼接在一起，并且通过另一个可以学习的线性投影进行变换，以产生最终输出。对于h个注意力汇聚输出，每一个注意
2023-10-17《动手学深度学习 Pytorch版》 9.1 门控循环单元（GRU）
我们可能会遇到这样的情况：早期观测值对预测所有未来观测值具有非常重要的意义。考虑一个极端情况，其中第一个观测值包含一个校验和，目标是在序列的末尾辨别校验和是否正确。在这种情况下，第一个词元的影响至关重要。我们希望有某些机制能够在一个记忆元里存储重要的早期信息。如
2023-10-10Transformer
importmathimporttorchfromtorchimportnnimportmatplotlib.pyplotaspltfromd2limporttorchasd2ldefsequence_mask(X,valid_len,value=0):"""在序列中屏蔽不相关的项"""max_len=X.size(1)mask=torch.arange((max
2023-06-294.2 多层感知机的从零开始实现
本节实现一个单隐藏层的，具有256个隐藏单元的多层感知机，并且隐藏层使用ralu函数激活。注意，我们通常选择2的若干次幂作为层的隐藏单元数，因为内存在硬件中的分配和寻址方式，这么做往往可以在计算上更高效。1.参数初始化我们用几个张量来表示我们的参数。注意，对于每一层我们都要记
2023-03-07Vision Transformer学习
TransformerTransformer模型完全依赖于注意力机制，是编码器-解码器架构的一个实例。下面是整体架构图。它最重要的是自注意力层，为每两个token分配一个注意力值。在transfor
2023-01-12【Dive into Deep Learning / 动手学深度学习】第十章 - 第五节：多头注意力
目录简介10.5.多头注意力10.5.1.模型10.5.2.实现10.5.3.小结读后总结2022/08/23第一次阅读结语简
2022-08-1767自注意力和位置编码
点击查看代码importmathimporttorchfromtorchimportnnfromd2limporttorchasd2l#自注意力num_hiddens,num_heads=100,5attention=d2l.MultiHead
2022-08-1768多头注意力
点击查看代码importmathimporttorchfromtorchimportnnfromd2limporttorchasd2l#选择缩放点积注意力作为每一个注意力头#
2022-08-1768transformer
点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""
2022-08-1769BERT
点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""