vit中的生成分类标识符介绍

时间：2024-08-10 21:55:01浏览次数：14

标签：nn self 分类生成 vit 图像标识符 cls

Vision Transformer (ViT) 分类标识符

1. 初始化分类标识符

在ViT中，分类标识符是一个可学习的向量，通常在模型初始化时随机初始化。这个标识符的维度与图像块的嵌入向量维度相同，通常记作 z_cls，其大小为 D（与每个图像块的嵌入向量维度一致）。

2. 与图像块嵌入一起作为输入

将这个分类标识符 z_cls 附加在所有图像块的嵌入向量之前，形成一个扩展后的输入序列。

假设原始图像块嵌入的序列表示为 [z₁, z₂, …, z_N]，其中 N 是图像块的数量，那么完整的输入序列将是：

[z_cls, z₁, z₂, …, z_N]

这里，输入序列的维度为 (N+1) × D。

3. 在Transformer中处理

这个包含分类标识符的输入序列会传递给Transformer的多层编码器，经过多层自注意力机制和前馈神经网络的处理。分类标识符在每一层都会被更新，并最终聚合整个图像的信息。

4. 提取最终分类标识符

当输入序列经过所有Transformer层的处理后，提取出最终的分类标识符 z_cls^final。

这个分类标识符是一个综合了整个图像信息的嵌入向量。

5. 传递给分类头

最终的分类标识符 z_cls^final 会被传递给一个分类头（通常是一个全连接层）进行图像的分类任务。分类头输出的向量用于预测图像属于哪个类别。

6. 代码示例（假设使用Python和PyTorch）

import torch
import torch.nn as nn

class VisionTransformer(nn.Module):
    def __init__(self, num_patches, embed_dim, num_classes):
        super(VisionTransformer, self).__init__()
        # 初始化分类标识符 (CLS token)
        self.cls_token = nn.Parameter(torch.zeros(1, 1, embed_dim))
        self.position_embeddings = nn.Parameter(torch.zeros(1, num_patches + 1, embed_dim))
        self.transformer = nn.TransformerEncoder(
            nn.TransformerEncoderLayer(embed_dim, nhead=8),
            num_layers=12
        )
        self.classifier = nn.Linear(embed_dim, num_classes)

    def forward(self, x):
        batch_size = x.size(0)
        # 复制分类标识符，使其适应批处理大小
        cls_tokens = self.cls_token.expand(batch_size, -1, -1)
        # 将分类标识符添加到图像块的嵌入向量之前
        x = torch.cat((cls_tokens, x), dim=1)
        # 添加位置编码
        x = x + self.position_embeddings
        # 输入Transformer
        x = self.transformer(x)
        # 提取最终的分类标识符
        cls_token_final = x[:, 0, :]
        # 传递给分类头进行分类
        out = self.classifier(cls_token_final)
        return out

标签：nn,self,分类,生成,vit,图像,标识符,cls
From： https://www.cnblogs.com/chentiao/p/18352837

使用go+gin编写日志中间，实现自动化收集http访问信息，错误信息等，自动化生成日志文件
1.首先在logger包下点击查看代码packageloggerimport( "fmt" "io" "net/http" "os" "path" "runtime/debug" "time" "github.com/gin-gonic/gin" "github.com/sirupsen/logrus&q......
免费好用！用AI做海报太高效了！阿里ModelScope这款AI创意海报生成工具，连专业设计都在用！（附
大家好，我是程序员X小鹿，前互联网大厂程序员，自由职业2年+，也一名AIGC爱好者，持续分享更多前沿的「AI工具」和「AI副业玩法」，欢迎一起交流~今天是七夕，大家都怎么过呢？（画了张图，送给单身的朋友）今天分享一个免费的、可以快速制作七夕等各种节日海报AI工具——它就是魔搭......
Ai绘画｜如何安装使用最简单的秋叶版ComfyUI 整合包，万字长文手把手详细教你安装部署，快速
大家好，我是灵魂画师向阳AI绘画界的国内开源大神——B站的秋叶大佬在1月份就已经发布了AI绘画工具ComfyUI的整合包。用户将压缩包下载后，能够一键启动comfyui。其便利性与之前的webui整合包如出一辙。然而在整合包下载完成后，新手或许会遭遇插件以及模型缺失的情况，同......
词云图大师全新推出 GIF 生成功能！
我们很高兴宣布，词云图大师（WordCloudMaster）现在支持GIF动画生成功能！这一全新功能将为您的词云设计带来更多活力与创意，让您的作品动起来，生动展现！https://apps.apple.com/cn/app/wordcloudmaster-word-clouds/id6465173621为什么您会爱上GIF生成功能?生动展示：通过......
基于AI的图像生成技术：商汤科技的SenseMirage平台
摘要：本文介绍了商汤科技推出的AI内容创作社区平台SenseMirage，该平台利用自研的AIGC大模型，实现了快速、高质量的图像生成技术。**关键词：**人工智能，图像生成，内容创作，风格模型1.引言随着人工智能技术的不断进步，AI在艺术创作领域的应用日益广泛。商汤科技作为AI领域的先行者，......
下载量10w+！大型语言模型：语言理解和生成
近年来，人工智能在新语言能力方面取得了显著进展，深度学习技术的快速发展推动了语言AI系统在文本编写和理解方面的表现。免费获取：下载量10w+！大型语言模型：语言理解和生成......
java 生成二维码
ZXing是一个开放源码的，用Java实现的多种格式的1D/2D条码图像处理库，它包含了联系到其他语言的端口。Zxing可以实现使用手机的内置的摄像头完成条形码的扫描及解码。导入对应的jar包<dependency> <groupId>com.google.zxing</groupId> <artifactId>core</artifactId> <v......
vit的图像预处理过程
在VisionTransformer(ViT)中，图像的预处理过程主要包括将图像转换为适合Transformer模型输入的格式。以下是从原始图像到模型输入所进行的主要操作步骤：1.图像尺寸调整(Resize)将输入图像调整为固定大小，通常是正方形（例如，224x224像素）。这是为了统一所有输入图像的尺寸，使得后......
常用的ViT模型
常用的ViT模型有许多版本和变种，它们在不同的任务和数据规模上表现出色。以下是一些常见的ViT模型及其变种：1.ViT-B/16,ViT-B/32ViT-B/16和ViT-B/32是VisionTransformer的基本版本，"B"代表Base模型，数字16和32代表图像块的大小（如16x16或32x32）。ViT-B/16通常表现优于ViT-B/32，因......
vit的线性映射过程
VisionTransformer线性映射VisionTransformer(ViT):线性映射1.展平图像块假设输入的图像块大小为P×P像素，并且图像有C个通道（对于RGB图像，通常C=3）。每个图像块被展平成一个向量，向量的维度为P×P×C。例如，对于一个16x16像素的RGB图像块，展平后的向量长度为......