【SAM模型应用于遥感影像|论文解读2】突破边界与一致性:SAM模型革新遥感影像语义分割
【SAM模型应用于遥感影像|论文解读2】突破边界与一致性:SAM模型革新遥感影像语义分割
文章目录
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz
论文链接:https://arxiv.org/abs/2312.02464
代码连接:https://github.com/sstary/SSRS
二、RELATED WORKS
A. Segment Anything Model
Segment Anything Model (SAM) [43] 是由Meta AI推出的基于大规模视觉Transformer [12] 的模型,经过庞大的视觉语料库训练,作为一个基础模型,旨在解决特定的下游图像分割任务。在实际语义分割应用中,深度神经网络的一个主要挑战是需要大量标注良好的训练数据。SAM通过基于用户提供的提示,实现对未见图像和对象的零样本泛化,有效解决了这一问题。
SAM的框架包括三个主要组件:图像编码器、提示编码器和掩码解码器,如图2(a)所示。图像编码器利用基于视觉Transformer的方法提取图像特征。提示编码器结合用户交互用于分割任务,支持多种类型的提示,包括掩码、点、框和文本提示。掩码解码器由具有动态掩码预测头的Transformer层和一个交并比(IoU)得分回归头组成,它将编码器嵌入、提示嵌入和输出令牌映射到掩码。为方便用户,SAM提供了一系列API,只需几行代码即可获得分割掩码。API支持不同的分割模式选项,如全自动、边界框和点模式等。
目前,SAM在多个领域取得了显著进展。在医学图像处理领域,[44] 提出了通过将SAM生成的掩码与原始图像结合的简便图像增强方法。此外,**nnSAM [45] 将UNet的编码器与预训练的SAM编码器集成,利用这一大规模基础视觉模型的特征提取能力。**进一步地,[46, 47] 探索了SAM生成伪标签的能力。通过这些不同的技术方法,这些研究推动了SAM在各个领域中的应用和发展。
B. Segment Anything Model in Remote Sensing
自然图像与遥感图像的根本区别在于它们的获取方式和环境背景,涉及获取方法、光谱和空间分辨率、目标尺度与覆盖范围以及内容复杂性等因素 [48, 49, 23]。SAMRS [35] 引入了一种名为旋转边界框(R-Box)的提示来指导SAM进行分割,随后生成了一个全面的遥感图像分割数据集。这一开创性的工作为大规模模型的整合和大数据在遥感领域的应用奠定了基础。
与此同时,Text2Seg [36] 提出了一种框架,利用多个基础模型通过文本提示引导遥感图像的语义分割。然而,文献 [34, 35, 36, 37, 38] 中探索的提示学习技术需要根据特定数据集的特性进行精心选择,这限制了SAM的通用适用性。另一方面,少样本或零样本方法 [31, 32, 33] 在遥感任务中表现出有前景的适应性,但它们对额外微调技术的敏感性仍需重点考虑 [30]。
更重要的是,SGO(SAM-Generated Object)缺乏语义信息,使现有方法仅限于二元分类任务 [31, 28, 37],或者通过类别特定的提示进行多类别分类预测 [27, 26, 31],这无疑限制了SAM在遥感中的进展。基于上述讨论,设计一个可访问且用户友好的框架,以利用SGO和SGB(SAM-Generated Boundary)在多类别遥感语义分割任务中的潜力显得至关重要。
C. Object-based methods in Remote Sensing
遥感影像的语义分割通常围绕两种主要方法展开:基于像素的方法和基于对象的方法 [50],它们利用不同尺度进行特征学习和最终类别预测。许多研究将基于对象的概念整合到各种遥感任务中 [51, 52, 53, 54, 55]。特别是,OCNN [51] 提出了第一个基于对象的卷积神经网络(CNN)框架,用于在复杂场景中执行土地利用分类。
SDNF [56] 和 ESCNet [57] 基于超像素构建了语义分割网络。前者引入了一个超像素增强的区域模块,用于减轻噪声并强化地物边缘,而后者提出了一个自适应超像素合并模块,通过处理高维特征使模型朝向对象优化。OBIC-GCN [58] 利用图卷积网络 [59] 深入探讨了对象之间的关系。
然而,这些方法的一个显著问题是,它们主要侧重于提取基于对象的特征。这种方法需要创建专门的可学习模块,以辅助实现精确的语义分割,从而增加了实现过程的复杂性和潜在的不稳定性 [60]。相比之下,所提出的方法能够与现有的语义分割模型无缝集成,允许简单的优化。该方法有效地利用了SAM的原始输出,其中包含详细的对象信息,进而提升了整体模型的性能。
标签:分割,SAM,模型,语义,遥感,掩码,影像 From: https://blog.csdn.net/gaoxiaoxiao1209/article/details/142904806