• 2024-09-22BERT的代码实现
    目录1.BERT的理论2.代码实现  2.1构建输入数据格式 2.2定义BERT编码器的类 2.3BERT的两个任务2.3.1任务一:MaskedLanguageModelingMLM掩蔽语言模型任务 2.3.2 任务二:nextsentenceprediction3.整合代码  4.知识点个人理解 1.BERT的理论BERT全称叫做
  • 2024-09-05在深度学习中的“维度”
    在深度学习中,“维度”指的是数据的结构或数组的每个轴的长度。每个维度表示数据的不同特征或轴。为了更好地理解维度,我们可以通过一些示例来说明。1.一维数据示例:向量[2,4,6,8]维度:1(这是一个一维数组)长度:4(数组中有4个元素)2.二维数据示例:矩阵[[1,2,3],[4,5,6
  • 2023-10-25《动手学深度学习 Pytorch版》 10.5 多头注意力
    多头注意力(multiheadattention):用独立学习得到的h组不同的线性投影(linearprojections)来变换查询、键和值,然后并行地送到注意力汇聚中。最后,将这h个注意力汇聚的输出拼接在一起,并且通过另一个可以学习的线性投影进行变换,以产生最终输出。对于h个注意力汇聚输出,每一个注意
  • 2023-10-17《动手学深度学习 Pytorch版》 9.1 门控循环单元(GRU)
    我们可能会遇到这样的情况:早期观测值对预测所有未来观测值具有非常重要的意义。考虑一个极端情况,其中第一个观测值包含一个校验和,目标是在序列的末尾辨别校验和是否正确。在这种情况下,第一个词元的影响至关重要。我们希望有某些机制能够在一个记忆元里存储重要的早期信息。如
  • 2023-10-10Transformer
    importmathimporttorchfromtorchimportnnimportmatplotlib.pyplotaspltfromd2limporttorchasd2ldefsequence_mask(X,valid_len,value=0):"""在序列中屏蔽不相关的项"""max_len=X.size(1)mask=torch.arange((max
  • 2023-06-294.2 多层感知机的从零开始实现
    本节实现一个单隐藏层的,具有256个隐藏单元的多层感知机,并且隐藏层使用ralu函数激活。注意,我们通常选择2的若干次幂作为层的隐藏单元数,因为内存在硬件中的分配和寻址方式,这么做往往可以在计算上更高效。1.参数初始化我们用几个张量来表示我们的参数。注意,对于每一层我们都要记
  • 2023-03-07Vision Transformer学习
    TransformerTransformer模型完全依赖于注意力机制,是编码器-解码器架构的一个实例。下面是整体架构图。它最重要的是自注意力层,为每两个token分配一个注意力值。在transfor
  • 2023-01-12【Dive into Deep Learning / 动手学深度学习】第十章 - 第五节:多头注意力
    目录​​简介​​​​10.5.多头注意力​​​​10.5.1.模型​​​​10.5.2.实现​​​​10.5.3.小结​​​​读后总结​​​​2022/08/23第一次阅读​​​​结语​​简
  • 2022-08-1767自注意力和位置编码
    点击查看代码importmathimporttorchfromtorchimportnnfromd2limporttorchasd2l#自注意力num_hiddens,num_heads=100,5attention=d2l.MultiHead
  • 2022-08-1768多头注意力
    点击查看代码importmathimporttorchfromtorchimportnnfromd2limporttorchasd2l#选择缩放点积注意力作为每一个注意力头#
  • 2022-08-1768transformer
    点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""
  • 2022-08-1769BERT
    点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""