首页 > 其他分享 >SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺

SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺

时间:2023-08-13 12:44:24浏览次数:45  
标签:box 分割 prompt SAM 弱点 作者 图像 填补空缺

前言 最近,SAM向通用人工智能迈出了重要的一步。同时,它的可靠性和公平性也引起了人们的极大关注,尤其是在医疗保健领域。在这项研究中,作者提出了SAM线索的 Multi-box 即时触发不确定性估计,以证明分割病变或组织的可靠性。作者使用具有先验分布参数的蒙特卡罗来估计SAM预测的分布,使用不同的prompt作为测试时间增加的公式。

本文转载自集智书童

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

1、简介

大规模基础模型在人工智能研究人员中越来越受欢迎。在自然语言处理(NLP)领域,OpenAI开发的生成预训练转换器(GPT)和ChatGPT由于其卓越的泛化能力而快速增长。这些模型在自动驾驶和医疗保健等不同领域都有应用。大模型显著的泛化能力往往会在用户中灌输信任感;然而,它们的公平性和可靠性也受到了一定程度的审查。

如今,由于Meta AI发布了Segment Anything Model(SAM),人们对计算机视觉的热情与日俱增。SAM是在一个庞大的SA-1B数据集上训练的,该数据集由1100多万张图像和10亿个Mask组成,使其成为一个出色的工具。它擅长从各种类型的prompt中生成准确的分割结果,包括前景/背景点、thick boxes 或Mask以及自由格式文本。

SAM的引入让许多研究人员相信,通用人工智能终于到来了。然而,一些研究人员对SAM的性能表示担忧。具体而言,他们已经确定了医学图像中需要进一步改进的领域,如工业缺陷检测、伪装目标检测以及肿瘤和病变分割。此外,SAM的可靠性仍需进一步研究。

不确定性估计是为SAM提供可靠性的方法之一。此前,不确定性估计已在几个医学分割任务中证明了其可靠性和稳健性,包括皮肤病变和脑肿瘤等。目前的不确定性估计方法大致可分为基于确定性的方法、Bayesian Neural Network-based的方法、Ensemble-based的方法、Dropout-based的方法和Test-time augmentation-based的方法。本文的重点是在实现像素级不确定性估计的同时,保持SAM的简单性和原始结构。

在图1中,作者给出了不同条件下高质量和低质量眼底图像的视盘分割结果。SAM为高质量图像展示了更好的分割结果,并且包含不同的条件会带来一定的性能改进。然而,SAM对低质量图像的分割结果并不令人满意。尽管如此,包含不同条件大大提高了它的性能,尤其是使用更准确的方框prompt。

此外,作者观察到一种现象,即不同级别的框prompt往往会产生不同的结果。这一观察结果促使作者为医学图像引入一种新的方法,即 Multi-box prompt诱导的不确定性估计。因此,本文的主要关注点是通过使用多个框prompt来提高分割精度。这种方法使作者能够通过不确定性估计来建立像素级的可靠性。

具体来说,作者使用SAM来预测使用不同 Multi-box prompt的输出分布。带有 Multi-box prompt的SAM从预测分布中生成大量样本。随后,这些样本被用于计算方差,这为医学图像分割提供了不确定性估计。作者的实验表明, Multi-box prompt不仅提高了低质量医学图像的性能,而且为它们提供了不确定性估计。

2、本文方法

作者提出的方法的总体框架如图2所示。作者的主要重点是在零样本学习的背景下提高SAM的可靠性和准确性。为了提高SAM的准确性,作者引入了 Multi-box prompt,这使作者能够从分布中获得更精确的医学图像分割结果。具体而言,作者使用具有先验分布参数的蒙特卡罗模拟来估计SAM预测的分布。这种方法允许作者的方法通过考虑单个医学图像的多个预测来估计任意不确定性。

2.1、Mask选择策略

在未经prompt的设置下,SAM生成多个二进制Mask,并可以在一个输入中弹出几个潜在对象。为了在特定的分割任务中公平地评估感兴趣的区域,作者遵循[SAM Struggles in Concealed Scenes – Empirical Study on “Segment Anything”]的策略,根据其 GT Mask选择最合适的Mask。

形式上,给定输入图像的N个二进制预测和 GT G,作者计算每对的Dice分数,以生成一组评估分数。作者最后从这一组中选出Dice得分最高的面具。

2.2、Multi-box prompts SAM

prompt由于其固有的不精确性,可能会在模型的推断中引入错误。为了减少prompt变化的影响。作者随机化M个框prompt =。每个框prompt引导SAM生成不同的分割结果。

通过该策略,作者获得了不同先验线索下SAM的预测,将它们结合起来可以提高SAM的分割精度,减少不确定性。组合预测计算如下:

2.3、使用multi-box prompts对SAM的不确定度进行估计

不同的框prompt会导致SAM分割的差异,即使它们指的是人类视野中的一个对象。受此启发,作者提出的 Multi-box prompt(MNP)算法模拟了多个临床专家的注释,以生成最终预测和不确定性估计。量化由 Multi-box prompt触发的不确定性。

假设M框prompt,所有这些都指的是 GT 。在M框prompt和输入图像I的情况下,SAM生成一组预测。如图3所示,作者提出了一个 Multi-box prompt的不确定性估计程序。

作者首先通过熵描述来自单个给定图像I的任意不确定性:

估计图像i的预测的多样性。然后,作者使用 Multi-box prompt进行蒙特卡罗模拟,以获得一组预测。因此,不确定性分布近似如下:

3、实验

3.1、定量分析

如表1所示,作者使用高质量的医学图像给出了SAM模式的不同分割结果。首先,作者比较了SAM在“everything”模式下和SAM在“box”模式下对正常医学图像的分割结果。

研究发现,在“box”模式下使用SAM的结果是优越的。此外,随着作者算法的引入,SAM的性能进一步提高。

表2和表3展示了在高斯噪声和退化医学图像下SAM模式的各种分割结果。作者比较了从上述SAM模式获得的结果。SAM在“everything”模式和“box”模式下的性能有所下降,而“multi-box”模式的性能保持在一定水平,ECE指数较低。因此,可以得出结论, Multi-box prompt的加入提高了SAM的准确性和可靠性。

3.2、定性比较

如图4所示,作者首先展示了multi-box模式SAM下的不确定性估计结果。从中可以看出,眼盘的周边被清楚地标记为不确定区域。

此外,作者比较了正常和退化医学图像下不同SAM模式的分割结果,如图5所示。在SAM with everything模式中,很难分割眼盘。在框prompt下,正常情况下可以对视盘进行分割,但在高斯噪声和退化图像下的分割结果并不令人满意。而作者的方法也在退化图像中获得了更好的分割结果,并为不确定的像素提供了权重。这为SAM开辟了一个新的范式,以实现稳健可靠的医学图像分割。

4、讨论与总结

在本文中,作者研究了SAM对眼底图像的分割性能。结果表明,框prompt显著提高了分割效果,但不同的框prompt会导致预测的变化。本文提出的主要方法,即快速增强,可以帮助估计任意不确定性的变化,并生成一个不确定性分布图,突出分割的挑战区域。

不确定性图不仅改进了分割过程和最终结果,而且能够开发出更先进的眼底图像分割方法。此外,不确定性图在需要手动注释的领域提供了宝贵的指导。使用不确定性分布图来指导分割并提高精度的特点值得注意。此外,不确定性图可以帮助识别潜在的分割错误并支持进一步的分析,为临床医生提供有用的信息。

5、参考

[1].SAM-U: Multi-box prompts triggered uncertainty estimation for reliable SAM in medical image.

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

新认识了几位专注AI的大佬!

如何看待稚晖君的时间管理水平?

重新思考 视频超分辨 Transformers 中的对齐

RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光

ICCV 2023 | ReDB:可靠、多样、类平衡的域自适应3D检测新方案!

大厂必考深度学习面试题及参考答案

ICCV2023 | 清华大学提出FLatten Transformer,兼顾低计算复杂度和高性能

ICCV'23 | MetaBEV:传感器故障如何解决?港大&诺亚新方案!

ICCV 2023 | 旷视研究院入选论文亮点解读

RCS-YOLO | 比YOLOv7精度提高了2.6%,推理速度提高了60%

国产130亿参数大模型免费商用!性能超Llama2-13B支持8k上下文,哈工大已用上

KDD 2023奖项出炉!港中文港科大等获最佳论文奖,GNN大牛Leskovec获创新奖

大连理工联合阿里达摩院发布HQTrack | 高精度视频多目标跟踪大模型

ICCV 2023 | Actformer:从单人到多人,迈向更加通用的3D人体动作生成

ReID专栏(二)多尺度设计与应用

ReID专栏(一) 任务与数据集概述

libtorch教程(三)简单模型搭建

libtorch教程(二)张量的常规操作

libtorch教程(一)开发环境搭建:VS+libtorch和Qt+libtorch

NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子使用

NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型

NeRF与三维重建专栏(一)领域背景、难点与数据集介绍

异常检测专栏(三)传统的异常检测算法——上

异常检测专栏(二):评价指标及常用数据集

异常检测专栏(一)异常检测概述

BEV专栏(二)从BEVFormer看BEV流程(下篇)

BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)

可见光遥感图像目标检测(三)文字场景检测之Arbitrary

可见光遥感目标检测(二)主要难点与研究方法概述

可见光遥感目标检测(一)任务概要介绍

TensorRT教程(三)TensorRT的安装教程

TensorRT教程(二)TensorRT进阶介绍

TensorRT教程(一)初次介绍TensorRT

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

标签:box,分割,prompt,SAM,弱点,作者,图像,填补空缺
From: https://www.cnblogs.com/wxkang/p/17626402.html

相关文章

  • 拓端tecdat|R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人
    最近我们被客户要求撰写关于k-means聚类的研究报告,包括一些图形和统计输出。简介假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。如果我们的样本设计是分层的,我们需要选择如何在总体中形成分层,以便从现有的辅助信息中获得最大的优势。换句话......
  • Striving for Simplicity and Performance in Off-Policy DRL: Output Normalization
    发表时间:2020(ICML2020)文章要点:这篇文章基于SAC做简单并且有效的改进来提升效果。作者首先认为SAC里面的entropy是为了解决actionsaturationduetotheboundednatureoftheactionspaces,这个意思就是说动作空间假如约束到[0-1],动作通常会在0和1两个端点处,而加了entropy可......
  • 假期总结TABLESAMPLE函数
    进行随机抽样,本质上就是用TABLESAMPLE函数语法1,基于随机分桶抽样:SELECT...FROMtblTABLESAMPLE(BUCKETxOUTOFyON(colname|rand()))y表示将表数据随机划分成y份(y个桶)x表示从y里面随机抽取x份数据作为取样colname表示随机的依据基于某个列的值rand()表示随机的依据......
  • 拓端tecdat|R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人
    原文链接:http://tecdat.cn/?p=23038原文出处:拓端数据部落公众号最近我们被客户要求撰写关于k-means聚类的研究报告,包括一些图形和统计输出。简介假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。如果我们的样本设计是分层的,我们需要选择......
  • 遇到问题---hadoop--Remote App Log Directory does not have same value for the 4 N
    情况因为我们的某台服务器空间不足,暂时清理不出来,所以需要修改一些存放数据的日志目录等。修改完毕之后发现报错错误的配置RemoteAppLogDirectorydoesnothavesamevalueforthe4NodeManagers。原因一般来说不同的主机不要求配置的目录一致,但是yarn.nodemanager.remote......
  • 实现无限存储:基于JuiceFS 创建 Samba 和 NFS 共享
    随着企业数据量的持续增长,存储容量需求日益增大。如何采用没有容量上限的云存储替换本容量有限的本地磁盘,已成为广泛的需求和共识。特别是在企业中常用的Samba和NFS共享,如果能够使用云存储作为底层存储,就能有效解决存储扩容和本地磁盘损坏导致的数据丢失问题。本文将以Linux......
  • vue报错 Multiple assets emit different content to the same filename index.html
    vue-cli版本:@vue/[email protected]报错现象:想把css和script全部内嵌到html文件中,就用了"HtmlInlineScriptPlugin"插件,打包后js代码被嵌到了head里,导致代码提前执行找不到#app,再配置HtmlWebpackPlugin插件通过inject:"body"指定代码内嵌到body,打包报错"Multipleassetsemitdiff......
  • open3d -- voxel_down_sample
    官网文档parameter:Input:open3d.geometry.Pointcloud点云类voxel_size:体素单位长度Return:处理后的点云类Description:体素降采样使用常规的体素网格从输入点云创建统一降采样的点云。它通常用作许多点云处理任务的预处理步骤。 就是将点云分块(这里为体素),然后逐......
  • 在线帮助中心 HelpLook 的致命弱点!!!
    您可以使用Helplook搭建一个高效的企业知识库。利用这个知识库,您的团队成员将能够更好地管理、共享和获取内部知识,提高工作效率和协作能力。但是也得看清楚其中的有些功能需求是否满足!!!HelpLook的功能欠缺还有很多,但是最重要的是产品的年限问题,API接口问题、数据安全问题以及团队协......
  • 配置samba-解决samba没有写权限的问题
    其他配置过程不重复写了,用户名添加好后,添加如下配置到/etc/samba/smb.conf可解决没有写权限的问题[usr_name]path=/home/usr_nameavailable=yesvalidusers=usr_namewriteable=yesguestok=yesbrowseable=yescreatemask=0664directorymask=......