首页 > 其他分享 >深度学习中,图像和文本的输入区别

深度学习中,图像和文本的输入区别

时间:2024-08-08 22:39:29浏览次数:24  
标签:输出 Layer 形状 图像 维度 文本 输入

图像输入

1. 数据预处理

  • 尺寸调整(Resizing): 将图像调整到统一的尺寸,如 224 × 224 或 256 × 256。
  • 归一化(Normalization): 对每个像素值进行归一化,像素值通常归一化到 [0, 1] 或 [-1, 1] 范围。
  • 数据增强(Data Augmentation): 包括随机裁剪、翻转、旋转等操作,以增加模型的泛化能力。

2. 输入形状

典型输入形状: 图像输入通常为四维张量,形状为 (N, C, H, W),其中:

  • N: 批量大小(Batch Size)
  • C: 通道数(通常是 3,代表 RGB 三个颜色通道)
  • H: 图像的高度(Height)
  • W: 图像的宽度(Width)

3. 常见各层的维度

  • 卷积层(Convolutional Layer):
    • 输入形状:(N, C, H, W)
    • 输出形状:(N, C', H', W'),其中 C' 是卷积核的数量(即输出通道数),H' 和 W' 由卷积核大小、步幅、填充方式等决定。
  • 池化层(Pooling Layer):
    • 输入形状:(N, C', H', W')
    • 输出形状:(N, C', H'', W''),池化层通常减少空间维度 H'' < H' 且 W'' < W'。
  • 全连接层(Fully Connected Layer):
    • 展平后形状:(N, F),其中 F 是展平后的特征维度。
    • 输出形状:(N, K),其中 K 是输出类别数(在分类任务中)。

文本输入

1. 数据预处理

  • 分词(Tokenization): 将文本拆分为词或子词,并将每个词映射到一个整数索引。
  • 序列填充(Padding): 文本长度不一,需要填充或截断到统一的长度 T。
  • 嵌入表示(Embedding): 将整数索引转换为密集向量(词向量或嵌入向量),通常通过查找嵌入矩阵完成。

2. 输入形状

典型输入形状: 文本输入通常为二维张量,形状为 (N, T),其中:

  • N: 批量大小(Batch Size)
  • T: 序列长度(Token 的数量)

3. 常见各层的维度

  • 嵌入层(Embedding Layer):
    • 输入形状:(N, T)
    • 输出形状:(N, T, D),其中 D 是嵌入维度(每个词的向量维度)。
  • 循环层(RNN/LSTM/GRU Layer):
    • 输入形状:(N, T, D)
    • 输出形状:(N, T, H),其中 H 是隐藏层状态的维度。
  • 自注意力层(Self-Attention Layer):
    • 输入形状:(N, T, D)
    • 输出形状:(N, T, D)(通常输入与输出的形状保持一致,但可以调整特征维度)。
  • 全连接层(Fully Connected Layer):
    • 输入形状:(N, T, D) 或展平为 (N, T × D)
    • 输出形状:(N, K)(在分类任务中,K 是输出类别数)。

对比总结

  • 数据预处理: 图像需要进行尺寸调整和归一化,而文本需要分词、填充和嵌入表示。
  • 输入形状:
    • 图像:四维张量 (N, C, H, W)
    • 文本:二维张量 (N, T)
  • 常见各层的维度变化:
    • 图像处理多涉及空间维度的卷积运算。
    • 文本处理更多依赖序列处理和注意力机制。

标签:输出,Layer,形状,图像,维度,文本,输入
From: https://www.cnblogs.com/chentiao/p/18349878

相关文章

  • Linux标准输入输出与重定向、管道技术
    Linux标准输入输出与重定向、管道技术1.标准输入输出1.1概念每个Linux程序执行时,默认打开三个标准文件描述符:标准输入(STDIN):文件描述符为0,通常对应终端键盘。标准输出(STDOUT):文件描述符为1,默认输出到屏幕。错误输出(STDERR):文件描述符为2,默认输出到屏幕。1.2示例cat......
  • 循环神经网络和自然语言处理二-文本情感分类
    一.案例介绍为了练习一下wordembedding,现在有一个经典的数据集IMDB数据集,其中包含了5完条流行电影的评价,训练集25000条,测试集25000条,根据这些数据,通过pytorch完成模型,实现对评论情感进行预测二.思路首先可以把上述问题定义为分类问题,情感评分分为1-10分。十个类别,那么怎样......
  • qt 输入一张图片,在图片上绘制后,再另存为图片
    boolDdrawCircleOnImage(constQString&inputImagePath,constQString&outputImagePath,QVector<QPoint>dotData){if(inputImagePath.isEmpty()||outputImagePath.isEmpty()){qWarning("输入图片路径无效!");retur......
  • AI绘画 Stable Diffusion后期处理—无需ControlNet也能轻松高清放大图像与老旧照片修
    大家好,我是设计师阿威分享了这么多期AI绘画StableDIffusion的入门教程和一些常用的插件玩法后,不知道大家有没有发现,SD还有一个功能,似乎没怎么用到过,它就是—后期处理。今天就给大家分享一下SD中的“后期处理”的常用玩法。后期处理可以选择「单张照片」、「批量处理......
  • 点云_图像--坐标中心和角点
    图像2D框boundingbox目标框(boundingbox)来描述目标的位置,目标框是矩形的。由矩形左上角的坐标(x1,y1)以及右下角的坐标(x2,y2)进行表示。另外,还可以采用边界框矩形的中心坐标(xc,yc)以及宽高(w,h)进行表示(1)"左上-右下"转换为"中心-宽高"defbox_corner_to_center(boxes):......
  • 用Manim实现函数图像的的绘制【FunctionGraph】
    一,介绍在这个上下文中,函数是指变量之间的数学关系。当我们可视化这些函数时,我们使用对象来表示这些函数的图形。函数FunctionGraph(函数图)这个类表示一个由显式方程  定义的函数图。它是 ParametricFunction 的一种特殊类型,默认情况下会跨越整个场景的长度。这意味着......
  • AP8854 输入10-120V 外置MOS 10A 降压恒压型 DC-DC电源管理芯片 控制器方案
    产品描述AP8854一款宽电压范围降压型DC-DC电源管理芯片,内部集成使能开关控制、基准电源、误差放大器、过热保护、限流保护、短路保护等功能,非常适合宽电压输入降压使用。AP8854带使能控制,可以大大节省外围器件,更加适合电池场合使用,具有很高的方案性价比。特点◆电压......
  • 在python中将二维数组转换为彩色图像
    我有像这样的2d整数列表:list1=[[1,30,50],[21,45,9],[97,321,100]]下一步我要将其转换为numpy数组:myarr=np.asarray(list1)下一步我将使用PIL将其转换为图像,如下所示:img=Image.fromarray(myarr,"I")img.save("my.png")问题是我不想要灰......
  • HiDream引领图像文字嵌入技术新革命,助力多领域创意升级
    近日,HiDream“智象大模型2.0”正式上线!据官方信息显示,"智象大模型2.0"在处理文本、图像、视频以及3D内容的多模态能力上取得了显著进展。特别是在"文生图"领域,该模型实现了对长文本复杂逻辑的深入理解、图片与文字的精准嵌入,以及画面艺术感的充分展现,从而在三个关键维度上提升......
  • ValueError:层“dense_2”需要 1 个输入,但它收到了 2 个输入张量
    我无法加载我的模型,它一直显示错误ValueError:层“dense_2”需要1个输入,但它收到了2个输入张量。收到的输入:[<KerasTensorshape=(None,7,7,1280),dtype=float32,稀疏=False,name=keras_tensor_2896>,<KerasTensorshape=(None,7,7,1280),dtype=float32,稀疏=F......