Bert PyTorch 源码分析：一、嵌入层

时间：2023-06-25 17:22:36浏览次数：38

标签：__ Bert self init PyTorch 源码 pe embed size

# 标记嵌入就是最普通的嵌入层
# 接受单词ID输出单词向量
# 直接转发给了`nn.Embedding`
class TokenEmbedding(nn.Embedding):
    def __init__(self, vocab_size, embed_size=512):
        super().__init__(vocab_size, embed_size, padding_idx=0)
		
		
# 片段嵌入实际上是句子嵌入
# 接受单词所属句子的 ID，例如 [0, ..., 0, 1, ..., 1, 2, ..., 2]
# 输出句子向量，句子最多有三个（实际上只有两个？）
class SegmentEmbedding(nn.Embedding):
    def __init__(self, embed_size=512):
        super().__init__(3, embed_size, padding_idx=0)

# 位置嵌入接受单词ID，输出位置向量
class PositionalEmbedding(nn.Module):

    def __init__(self, d_model, max_len=512):
        super().__init__()

        # 将嵌入矩阵初始化为 ML * ES 的全零矩阵
        pe = torch.zeros(max_len, d_model).float()
        # 不更新它的梯度
        pe.require_grad = False

        # 位置项，0 到 ML-1 的向量，并转型为 ML * 1
        position = torch.arange(0, max_len).float().unsqueeze(1)
        # 除法项
        div_term = (torch.arange(0, d_model, 2).float() * -(math.log(10000.0) / d_model)).exp()

        # 将偶数列设为二者乘积的正弦值，奇数列设置为余弦值
        # 设计原理略过，见搜索引擎【*】
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)

        # 转型为 1 * ML * ES，因为位置对于每个句子都是一样的，便于它针对每个句子广播
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)

    def forward(self, x):
        # 输入形状为 BS * ML
        # 返回前 ML 个位置向量
        return self.pe[:, :x.size(1)]

# 整体嵌入层，包含以上三部分
class BERTEmbedding(nn.Module):
    """
    BERT Embedding which is consisted with under features
        1. TokenEmbedding : normal embedding matrix
        2. PositionalEmbedding : adding positional information using sin, cos
        2. SegmentEmbedding : adding sentence segment info, (sent_A:1, sent_B:2)

        sum of all these features are output of BERTEmbedding
    """

    def __init__(self, vocab_size, embed_size, dropout=0.1):
        """
        :param vocab_size: total vocab size
        :param embed_size: embedding size of token embedding
        :param dropout: dropout rate
        """
        super().__init__()
		# 初始化三个嵌入子模块和 dropout
        self.token = TokenEmbedding(vocab_size=vocab_size, embed_size=embed_size)
        self.position = PositionalEmbedding(d_model=self.token.embedding_dim)
        self.segment = SegmentEmbedding(embed_size=self.token.embedding_dim)
        self.dropout = nn.Dropout(p=dropout)
        self.embed_size = embed_size

    def forward(self, sequence, segment_label):
        # `sequence`是单词 ID 的序列
        # `segment_label`是句子 ID 的序列，形状都是 BS * ML
        # 计算三个向量并相加，然后添加 dropout
        x = self.token(sequence) + self.position(sequence) + self.segment(segment_label)
        return self.dropout(x)

标签：__,Bert,self,init,PyTorch,源码,pe,embed,size
From： https://www.cnblogs.com/apachecn/p/17503450.html

谁与争锋！手机直播源码知识分享之主播PK功能
今天我要分享的知识与PK有关，PK是指某些人分成几方进行对决、对抗，直到分出胜负。PK的方式有很多，在现实生活中，人们可以通过智力、力量等进行PK，方式可以是搏斗、扳手腕、现场智力问答等；而在网络中，人们可以通过游戏、网络智力问答的方式进行PK。我今天要讲的这个功能也是网络中的PK，这个......
2.nacos-client源码及查看
nacos-client.2.2.1-RC.SDK查看源码官网JAVASDK链接主要内容<dependency><groupId>com.alibaba.nacos</groupId><artifactId>nacos-client</artifactId><version>${version}</version></dependency>问题：1.获取配置api是获取快照......
k8s驱逐篇(7)-kube-controller-manager驱逐-taintManager源码分析
概述taintManager的主要功能为：当某个node被打上NoExecute污点后，其上面的pod如果不能容忍该污点，则taintManager将会驱逐这些pod，而新建的pod也需要容忍该污点才能调度到该node上；通过kcm启动参数--enable-taint-manager来确定是否启动taintManager，true时启动（启动参数默认值为true）；k......
spring源码笔记
Bean创建流程获取对象的BeanDefinition通过反射创建空对象填充属性调用init方法 Bean创建关键方法（按顺序）getBeandoGetBeancreateBeandoCreateBeancreateBeanInstancepopulateBean 解决循环依赖：三级缓存循环依赖原因单例，每个类只有一个对象。A引用B，B又......
SPI的插件化设计-->JDK的SPI(ServiceLoader)实现拓展、实现Dubbo的SPI(ExtensionLoade
(目录)1.什么是SPI？SPI的全称是ServiceProviderInterface,直译过来就是"服务提供接口"，为了降低耦合，实现在模块装配的时候动态指定具体实现类的一种服务发现机制。动态地为接口寻找服务实现。它的核心来自于ServiceLoader这个类。javaSPI应用场景很广泛，在Java底层和一些......
基于springboot+vue的漫画之家管理系统，附源码+数据库+论文+PPT，适合课程设计、毕业设计
1、项目介绍随着信息技术和网络技术的飞速发展，人类已进入全新信息化时代，传统管理技术已无法高效，便捷地管理信息。为了迎合时代需求，优化管理效率，各种各样的管理系统应运而生，各行各业相继进入信息管理时代，“漫画之家”系统就是信息时代变革中的产物之一。任何系统都要遵循系统设计......
TVM 源码阅读PASS — VectorizeLoop
本文地址：https://www.cnblogs.com/wanger-sjtu/p/17501119.htmlVectorizeLoop这个PASS就是对标记为ForKind::kVectorized的For循环做向量化处理，并对For循环中的语句涉及到的变量，替换为Ramp，以便于在Codegen的过程中生成相关的向量化运算的指令。VectorizeLoop这个PASS的入口函数......
ASP.NET DotnetLIMS系统全套源码
LIMS系统功能包括：检测管理（合同管理、样品管理、样品收发管理、工作任务分配、检测结果登记、复核及审核、留样管理等）、报告管理（报告编制、审核、签发、打印等）、原始记录管理、仪器设备管理、消耗品管理、文件管理、组织人员管理、标准管理、客户供应商管理、查询统计、基础数据管理......
[C/C++] Visual Stdio Code中多线程多源码文件编译、运行和调试
搞了很久，记录一下：一.环境OS：Ubuntu20.04VSCode：1.77.0g++：g++(Ubuntu9.4.0-1ubuntu1~20.04.1)9.4.0二.配置文件下面两个文件先不要手动创建，下面第三章会讲到：task.json：编译程序的配置文件；launch.json：运行程序的配置文件.三.编译&运行1.打开main函数所在的cpp文......
k8s驱逐篇(6)-kube-controller-manager驱逐-NodeLifecycleController源码分析
概述k8sv1.16版本中NodeController已经分为了NodeIpamController与NodeLifecycleController，本文主要介绍NodeLifecycleController。NodeLifecycleController主要功能有：（1）定期检查node的心跳上报，某个node间隔一定时间都没有心跳上报时，更新node的readycondition值为false或unkno......

Bert PyTorch 源码分析：一、嵌入层

相关文章

赞助商

阅读排行