SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺

标签：box 分割 prompt SAM 弱点作者图像填补空缺

前言最近，SAM向通用人工智能迈出了重要的一步。同时，它的可靠性和公平性也引起了人们的极大关注，尤其是在医疗保健领域。在这项研究中，作者提出了SAM线索的 Multi-box 即时触发不确定性估计，以证明分割病变或组织的可靠性。作者使用具有先验分布参数的蒙特卡罗来估计SAM预测的分布，使用不同的prompt作为测试时间增加的公式。

本文转载自集智书童

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班全面上线!!

1、简介

大规模基础模型在人工智能研究人员中越来越受欢迎。在自然语言处理（NLP）领域，OpenAI开发的生成预训练转换器（GPT）和ChatGPT由于其卓越的泛化能力而快速增长。这些模型在自动驾驶和医疗保健等不同领域都有应用。大模型显著的泛化能力往往会在用户中灌输信任感；然而，它们的公平性和可靠性也受到了一定程度的审查。

如今，由于Meta AI发布了Segment Anything Model（SAM），人们对计算机视觉的热情与日俱增。SAM是在一个庞大的SA-1B数据集上训练的，该数据集由1100多万张图像和10亿个Mask组成，使其成为一个出色的工具。它擅长从各种类型的prompt中生成准确的分割结果，包括前景/背景点、thick boxes 或Mask以及自由格式文本。

SAM的引入让许多研究人员相信，通用人工智能终于到来了。然而，一些研究人员对SAM的性能表示担忧。具体而言，他们已经确定了医学图像中需要进一步改进的领域，如工业缺陷检测、伪装目标检测以及肿瘤和病变分割。此外，SAM的可靠性仍需进一步研究。

不确定性估计是为SAM提供可靠性的方法之一。此前，不确定性估计已在几个医学分割任务中证明了其可靠性和稳健性，包括皮肤病变和脑肿瘤等。目前的不确定性估计方法大致可分为基于确定性的方法、Bayesian Neural Network-based的方法、Ensemble-based的方法、Dropout-based的方法和Test-time augmentation-based的方法。本文的重点是在实现像素级不确定性估计的同时，保持SAM的简单性和原始结构。

在图1中，作者给出了不同条件下高质量和低质量眼底图像的视盘分割结果。SAM为高质量图像展示了更好的分割结果，并且包含不同的条件会带来一定的性能改进。然而，SAM对低质量图像的分割结果并不令人满意。尽管如此，包含不同条件大大提高了它的性能，尤其是使用更准确的方框prompt。

此外，作者观察到一种现象，即不同级别的框prompt往往会产生不同的结果。这一观察结果促使作者为医学图像引入一种新的方法，即 Multi-box prompt诱导的不确定性估计。因此，本文的主要关注点是通过使用多个框prompt来提高分割精度。这种方法使作者能够通过不确定性估计来建立像素级的可靠性。

具体来说，作者使用SAM来预测使用不同 Multi-box prompt的输出分布。带有 Multi-box prompt的SAM从预测分布中生成大量样本。随后，这些样本被用于计算方差，这为医学图像分割提供了不确定性估计。作者的实验表明， Multi-box prompt不仅提高了低质量医学图像的性能，而且为它们提供了不确定性估计。

2、本文方法

作者提出的方法的总体框架如图2所示。作者的主要重点是在零样本学习的背景下提高SAM的可靠性和准确性。为了提高SAM的准确性，作者引入了 Multi-box prompt，这使作者能够从分布中获得更精确的医学图像分割结果。具体而言，作者使用具有先验分布参数的蒙特卡罗模拟来估计SAM预测的分布。这种方法允许作者的方法通过考虑单个医学图像的多个预测来估计任意不确定性。

2.1、Mask选择策略

在未经prompt的设置下，SAM生成多个二进制Mask，并可以在一个输入中弹出几个潜在对象。为了在特定的分割任务中公平地评估感兴趣的区域，作者遵循[SAM Struggles in Concealed Scenes – Empirical Study on “Segment Anything”]的策略，根据其 GT Mask选择最合适的Mask。

形式上，给定输入图像的N个二进制预测和 GT G，作者计算每对的Dice分数，以生成一组评估分数。作者最后从这一组中选出Dice得分最高的面具。

2.2、Multi-box prompts SAM

prompt由于其固有的不精确性，可能会在模型的推断中引入错误。为了减少prompt变化的影响。作者随机化M个框prompt ＝。每个框prompt引导SAM生成不同的分割结果。

通过该策略，作者获得了不同先验线索下SAM的预测，将它们结合起来可以提高SAM的分割精度，减少不确定性。组合预测计算如下：

2.3、使用multi-box prompts对SAM的不确定度进行估计

不同的框prompt会导致SAM分割的差异，即使它们指的是人类视野中的一个对象。受此启发，作者提出的 Multi-box prompt（MNP）算法模拟了多个临床专家的注释，以生成最终预测和不确定性估计。量化由 Multi-box prompt触发的不确定性。

假设M框prompt，所有这些都指的是 GT 。在M框prompt和输入图像I的情况下，SAM生成一组预测。如图3所示，作者提出了一个 Multi-box prompt的不确定性估计程序。

作者首先通过熵描述来自单个给定图像I的任意不确定性：

估计图像i的预测的多样性。然后，作者使用 Multi-box prompt进行蒙特卡罗模拟，以获得一组预测。因此，不确定性分布近似如下：

3、实验

3.1、定量分析

如表1所示，作者使用高质量的医学图像给出了SAM模式的不同分割结果。首先，作者比较了SAM在“everything”模式下和SAM在“box”模式下对正常医学图像的分割结果。

研究发现，在“box”模式下使用SAM的结果是优越的。此外，随着作者算法的引入，SAM的性能进一步提高。

表2和表3展示了在高斯噪声和退化医学图像下SAM模式的各种分割结果。作者比较了从上述SAM模式获得的结果。SAM在“everything”模式和“box”模式下的性能有所下降，而“multi-box”模式的性能保持在一定水平，ECE指数较低。因此，可以得出结论， Multi-box prompt的加入提高了SAM的准确性和可靠性。

3.2、定性比较

如图4所示，作者首先展示了multi-box模式SAM下的不确定性估计结果。从中可以看出，眼盘的周边被清楚地标记为不确定区域。

此外，作者比较了正常和退化医学图像下不同SAM模式的分割结果，如图5所示。在SAM with everything模式中，很难分割眼盘。在框prompt下，正常情况下可以对视盘进行分割，但在高斯噪声和退化图像下的分割结果并不令人满意。而作者的方法也在退化图像中获得了更好的分割结果，并为不确定的像素提供了权重。这为SAM开辟了一个新的范式，以实现稳健可靠的医学图像分割。