首页 > 其他分享 >【高光谱遥感分类论文解读1】Hyperspectral Image Classification Using Group-Aware Hierarchical Transformer(GAHT)

【高光谱遥感分类论文解读1】Hyperspectral Image Classification Using Group-Aware Hierarchical Transformer(GAHT)

时间:2024-06-13 18:01:18浏览次数:23  
标签:Transformer Group Classification 卷积 GPE patch 分组 模块

目录

一、论文基本信息

二、研究背景

三、研究方法

1. GAHT总体框架

2. GPE模块

3. Transformer编码模块

四、实验


本文是博主对原论文的解读,仅代表博主个人观点,欢迎在评论区和我交流~其中,本博文中的图片和公式均来源于原论文,如需进一步了解,请查看原论文。

一、论文基本信息

       1. 期刊:TGRS(IEEE Transactions on Geoscience and Remote Sensing)

       2. 发表年份:2022年

       3. 研究方向:高光谱遥感影像分类——Transformer流派

       4. 引用格式:Mei S, Song C, Ma M, et al. Hyperspectral image classification using group-aware hierarchical transformer[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-14.

二、研究背景

       在高光谱影像分类中:

       (1)CNN感受野有限,难以捕捉长距离依赖关系;

       (2)Transformer类的方法能够弥补CNN的缺点,提取长距离的位置信息和波段信息,然而,也存在多头注意力机制(multi-head self-attention, MHSA)提取特征过度分散的问题。

       因此,文章提出层次化分组Transformer理念,提出像素组嵌入模块(grouped pixel embedding, GPE),将MHSA限制在局部的空谱上下文内,克服(2)中的缺点。

三、研究方法

1. GAHT总体框架

       GAHT是一个端到端的基于斑块(patch-wise)的空谱信息提取框架,其总体结构为:

       GAMT的核心部分由3个相似的阶段组成,每个阶段包括:GPE模块和若干Transformer编码器模块(三个阶段的个数分别为n1、n2、n3)。其中,GPE模块更加关注高光谱影像中空谱特征的局部关系,而含MHSA的Transformer编码器模块用于对位置和波段建模长距离依赖关系。两者对于局部和全局关系的关注侧重有利于在最后分类时得到全方位的信息以辅助决策。同时,每一阶段的GPE还有减少光谱维度的作用,从而形成层级形式的Transformer,不同阶段Transormer模块提取的特征分别代表低级、中级、高级特征(图中米色部分)。

       之后,全局平均池化层(global average pooling)用于压缩空间维度,形成一维向量。最后,通过全连接层实现对斑块中心像素的最终分类。

2. GPE模块

       Vision Transformer中的patch embedding模块将图像分成一系列不重叠的patches,然而,这种方法难以直接应用到高光谱遥感影像分类中。HSI分类模型的输入已经是一个小patch(3D-patch),且其在空间维通常是奇数(如7×7,9×9),难以再将其分割为相同大小的不重叠部分。

       为解决上述问题,文章提出了pixel embedding模块替代传统的patch embedding模块(如下图)。pixel embedding模块将高光谱分类网络的输入(3D-patch)使用1×1大小的卷积进行逐像素分割,形成像素序列。由此,奇数大小的空间维能够被分割,同时,不同像素之间的关系可以被充分学习。

       下图是(a)常规卷积和(b)分组卷积的对比。分组卷积将输入特征在通道上分为n组,每组通道个数为C/n,在每组内分别进行卷积操作,之后,对卷积输出特征图进行拼接。相较于普通卷积方式,分组卷积参数量小且不容易过拟合,能够提取连续子通道共享的判别信息,善于捕捉局部信息。论文在1×1分组卷积后加入BN和ReLU激活函数,最终得到GPE模块的输出。关于分组卷积更详细的介绍,参见【深度学习】Group Convolution分组卷积、Depthwise Convolution和Global Depthwise Convolution-CSDN博客

       GPE模块用公式可表达为:

       最后,为实现层次化的分类框架,各阶段输出通道个数设置为输入通道数的一半,即,总体框架图中的C3 = 1/2C2 = 1/4C1。将Transformer以层级方式搭建,在使用较少参数时即能有效地提升分类精度。

3. Transformer编码模块

       Transformer编码模块包含MHSA模块的交替层以及MLP(multilayer perceptron)层:

四、实验

       文章分别在Salinas、Pavia University、WHU-LongKou、HyRANK-Loukia四个数据集上进行实验,与M3D-DCNN、3D-CNN、DFFN、RSSAN、AB-LSTM、SF、SSFTT网络相比,GAHT均取得了较好的结果。同时,文章还探究了不同3D-patch大小、分组卷积数、Transformer Block数量等对实验的影响,并完成了消融实验。具体实验结果精度表格和可视化结果参见原论文。

标签:Transformer,Group,Classification,卷积,GPE,patch,分组,模块
From: https://blog.csdn.net/qq_52868077/article/details/139635721

相关文章

  • MySQL The instance is already part of another Replication Group
    MySQLInnoDBCluster(测试环境为MySQL8.0.35)将一个实例重新加入集群时,遇到了下面这个错误"Theinstance'dbu03:3306'isalreadypartofanotherReplicationGroup"MySQL  10.160.2.55:3306 ssl  JS > cluster.addInstance('[email protected]:3306')ERROR: Ru......
  • mysql中group by 的用法解析
    1.groupby的常规用法groupby的常规用法是配合聚合函数,利用分组信息进行统计,常见的是配合max等聚合函数筛选数据后分析,以及配合having进行筛选后过滤。假设现有数据库表如下:表user_info,id主键,user_id唯一键CREATETABLE`user_info`(`id`INT(11)NOTNULLAUTO......
  • 过滤条件之分组 group by、having、distinct、order by、limit、正则、多表查询和子查
    【一】过滤条件之分组groupby【1】引入--按照指定条件对所有数据进行分组--对员工进行分组按照年龄/部门--...select*from*where*groupby*;【2】按照部门分组(1)查询数据select*fromempgroupbypost;#第一次使用部门分组会报错mysql>select*f......
  • 《鞋匠的AI之旅》- 5. Transformer【上】
    5.Transformer鞋匠回顾了这一路走来形成的成果:人工神经网络提供了一种模拟现实世界或者学习现实世界处理问题模式的一种方法;人类通过对这个世界的观察,体验到了支配这个世界运行的自然规律,并把这些规律及自身体会表达出来,最后通过语言符号物化下来,这些符号堆积在一起就是人类......
  • 机器学习课程设计,人工智能课程设计,深度学习课程设计--基于Transformer的家庭暴力情绪
    文章目录摘要第一章背景与意义1.1背景1.1.1家庭暴力发展现状1.1.2家庭暴力的危害1.2意义与目的第二章关键技术与方法2.1文本模态特征提取法2.2视频模态特征提取法2.3音频模态特征提取法2.4注意力机制(Attention)2.5多头注意力机制(Multi-Attention)2.6Transfor......
  • 【FreeRTOS】事件组 event group(附源码)
    引言:事件组是一种用于同步多个任务之间的状态和行为的机制。在操作系统中,事件组通常由操作系统提供,用于实现任务间的通信和同步。事件组通常包含一组独立的事件或标志,每个事件或标志都可以表示一种特定的状态或条件。任务可以等待事件组中的一个或多个事件被设置,也可以设置、......
  • Summary:《Adversarial Machine Learning in Image Classification: A Survey Towards
    Note“TaxonomyofAdversarialImages”(Machado等,2023,p.5)(pdf)扰动范围(PerturbationScope):个体扰动(Individual-scopedperturbations):为每个输入图像单独生成的扰动。通用扰动(Universal-scopedperturbations):独立于任何输入样本生成的扰动,可应用于任何合......
  • 基于 Transformer 的大语言模型
    语言建模作为语言模型(LMs)的基本功能,涉及对单词序列的建模以及预测后续单词的分布。近年来,研究人员发现,扩大语言模型的规模不仅增强了它们的语言建模能力,而且还产生了处理传统NLP任务之外更复杂任务的新兴能力。这些扩大规模的语言模型被称为大型语言模型(LLMs)。主流的LLMs基......
  • Transformer的知识在哪里:从FFN出发
    前情提要:前阵子,或许更早之前,笔者关于MoE的一些研究——如果称得上是研究,而非民科的话——让人不禁思考Transformer的知识到底存在哪里?这个问题的价值不言而喻,用来打发时间也是个不错的选择。可惜的是,目前我关于它的思考仍旧十分细碎,或许也称不上有什么新意,这里只是做下暂且......
  • 【YOLOv8改进】HAT(Hybrid Attention Transformer,)混合注意力机制 (论文笔记+引入代
    YOLO目标检测创新改进与实战案例专栏专栏目录:YOLO有效改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例摘要基于Transformer的方法在低级视觉任务中表现出色,例如图像超分辨率。......