首页 > 其他分享 >GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models

GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models

时间:2023-12-07 21:14:45浏览次数:51  
标签:EM Segmentation Mixture Semantic GMM textbf 分类器 算法 高斯分布

前置知识:【EM算法深度解析 - CSDN App】http://t.csdnimg.cn/r6TXM

Motivation

目前的语义分割通常采用判别式分类器,然而这存在三个问题:这种方式仅仅学习了决策边界,而没有对数据分布进行建模;每个类仅学习一个向量,没有考虑到类内差异;OOD数据效果不好。生成式分类器通过对联合分布建模,可以很好地解决这些问题。
为此,本文提出了基于GMM的分割框架GMMSeg,从而建模每个类的数据分布\(p(\textbf{x}|c)\),借助(Sinkhorn) EM算法优化分类器,能够做到对大多数分割方法即插即用。

Method

不同于对后验概率\(p(c|\textbf{x})\)进行建模,生成式分类器通过贝叶斯定理预测标签,通过估计类别条件分布\(p(\textbf{x}|c)\)以及类别先验\(p(c)\)对联合分布\(p(\textbf{x}, c)\)进行建模。后验概率可以表示为:\(p(c|\textbf{x})=\frac{p(c)p(\textbf{x}|c)}{\sum_{c'}p(c')p(\textbf{x}|c')}\)。\(p(c)\)通常设置为均匀分布,因此核心在于估计\(p(\textbf{x}|c)\)。通过逼近数据分布\(\Pi_{x,c}\in\mathcal{D} p(\textbf{x}|c)\)优化生成式分类器的方式也叫做生成式训练。
本文提出的GMMSeg使用了M个多变量高斯分布加权去近似D维编码空间的每个类别:
截屏2023-12-07 15.02.51.png
其中\(m|c\sim Multinomial(\textbf{π}_c)\)是先验概率(\(\sum_m π_{cm}=1\)),最右侧就是GMM的形式。\({\phi}_c=\{ \textbf{π}_c,\textbf{μ}_c,\textbf{Σ}_c \}\)为高斯分布的参数。
优化GMM的标准做法是使用EM算法,最大化训练集中特征-标签集合的对数似然:
截屏2023-12-07 15.25.36.png

EM算法:
截屏2023-12-07 17.05.30.png
其中\(q_c[m]=p(m|\textbf{x},c;\phi_c)\)表示数据\(\textbf{x}\)分到第m个高斯分量的概率,也就是EM算法中的Q函数。
F:
截屏2023-12-07 17.10.35.png

参数更新过程:
截屏2023-12-07 17.11.19.png
其中\(N_c\)为标签c的训练样本数,\(N_{cm}=\sum_{n:c_n=c}q_{cn}[m]\)。

作者发现标准的EM算法收敛较慢且效果不好,可能的原因为EM算法对于参数的初始值敏感。考虑到基于最优传输的聚类算法,作者将均匀分布先验引入高GMM的权重:\(\forall c,m:\pi_{cm}=\frac{1}{M}\)。这可以直观地看成是一个等分约束引导的聚类过程:在每个类别 c 中,我们希望 \(N_c\) 个像素样本被平均分配到 \(M\) 个高斯分布中。这样E step可以看做熵正则最优传输问题:
截屏2023-12-07 20.18.47.png

截屏2023-12-07 20.18.58.png
其中传输矩阵\(Q\)可以视作\(N_c\)个样本对于\(M\)个高斯分布的后验分布\(q_c\)(\(\textbf{Q}_c(n,m)=q_{cn}[m]\))。这种优化的方式被称为Sinkhorn EM,能够更好地避开local minima。
训练:分为两部分,分别优化GMM分类器以及特征提取器,
截屏2023-12-07 20.29.26.png

具体的细节见论文。

推理:将提取的特征带入GMM,计算该像素属于当前类别分布的似然,取最大值对应的类别作为结果。

标签:EM,Segmentation,Mixture,Semantic,GMM,textbf,分类器,算法,高斯分布
From: https://www.cnblogs.com/lipoicyclic/p/17883945.html

相关文章

  • Semantic Kernel 将成为通向Assistants的门户
    在OpenAI和Semantickernel之上构建代理将更快、更容易。SK团队正在博客里推出系列文章与大家分享我们将Assistants整合到Semantickernel中的计划,以及它们如何融入我们的v1提案中。OpenAI也推出了让开发者更容易使用OpenAIAPI的开发方式——Assi......
  • 论文阅读:Few-shot 3D Point Cloud Semantic Segmentation
    摘要许多现有的3D点云语义分割方法是完全监督的。这些完全监督的方法严重依赖难以获得的大量标记的训练数据,并且在训练后不能分割新的类别。为了缓解这些局限性,我们提出了一种新颖的注意力感知的多原型过渡性小样本点云语义分割方法,以分割给定的少数标记的例子的新类别。具体来说,每......
  • Semantic Kernel
    认识Semantic-kernel-腾讯云开发者社区-腾讯云(tencent.com)SemanticKernel-知乎(zhihu.com)AzureOpenAI-知乎(zhihu.com)https://www.bilibili.com/video/BV1pk4y177sD/https://www.bilibili.com/video/BV1Qw411v7Xw/......
  • 《A Survey on Deep Learning-based Fine-grained Object Classification and Semanti
    论文标题《ASurveyonDeepLearning-basedFine-grainedObjectClassificationandSemanticSegmentation》基于深度学习的细粒度对象分类和语义分割的综述为什么是“Object”而不是“image”作者西南交通大学和新加坡国立大学2016年7月1日received;2016年9月30日......
  • 文章《Semantic Kernel -- LangChain 的替代品?》的错误和疑问 探讨
    微信公众号文章SemanticKernel——LangChain的替代品?[1],它使用的示例代码是Python,他却发了这么一个疑问:支持的语言对比(因为SemanticKernel是用C#开发的,所以它对C#比较支持)如上所示。不清楚SemanticKernel为什么要用C#来开发,C#相比Python和JavaScript来说使用......
  • 论文阅读:Active Learning for Point Cloud Semantic Segmentation via Spatial-Struct
    ActiveLearningforPointCloudSemanticSegmentation viaSpatial-StructuralDiversityReasoning通过空间结构多样性推理进行点云语义分割的主动学习摘要众所周知,昂贵的注释成本是点云语义分割技术发展的一个主要制约因素。在本文中,我们提出了一种新的基于主动学习的方法来......
  • 论文阅读:Local and Global Structure for Urban ALS Point Cloud Semantic Segmentati
    LocalandGlobalStructureforUrbanALSPoint CloudSemanticSegmentationWith Ground-AwareAttention利用地面感知注意力对城市ALS点云进行局部和全局结构的语义分割摘要机载激光扫描(ALS)点云的解释在地理信息生产中起着显著的作用。作为解释的关键步骤,准确的语义分割可以......
  • dotnet 探究 SemanticKernel 的 planner 的原理
    在使用SemanticKernel时,我着迷于SemanticKernel强大的plan能力,通过plan功能可以让AI自动调度拼装多个模块实现复杂的功能。我特别好奇SemanticKernel里的planner的原理,好奇底层具体是如何实现的。好在SemanticKernel是完全开源的,通过阅读源代码,我理解了SemanticK......
  • 编译报错 internal compiler error: Segmentation fault 解决方法
    问题描述最近在使用虚拟机ubuntu20.04编译muslgcc工具链时,遇到一个奇怪的问题,编译过程中异常退出,清理了多次重新编译,发现编译报错提示的信息是internalcompilererror:Segmentationfault由于之前是可以正常编译的,所以怀疑编译环境造成的解决方法初步重启ubuntu可以解决......
  • 【论文阅读笔记】【OCR-文本识别】 Towards Accurate Scene Text Recognition with Se
    SRNCVPR2020读论文思考的问题论文试图解决什么问题?如何利用文本的上下文语义信息来辅助文本识别任务RNN能部分利用语义信息,但它的利用方式是串行的,极大地限制了语义信息的帮助,会造成错误累积以及效率缓慢等问题文章提出了什么样的解决方法?提出全局语义理解......