- C3: Cross-instance guided Contrastive Clustering https://arxiv.org/pdf/2211.07136v4
提出了一种新颖的对比聚类方法,跨实例引导的对比聚类(C3),它考虑了跨样本关系以增加正对的数量,并减轻假负、噪声和异常样本对数据学习表示的影响。特别是,我们定义了一个新的损失函数,该函数使用实例级表示来识别相似的实例,并鼓励它们聚集在一起。此外,我们提出了一种新颖的加权方法,以更有效的方式选择负样本。 - 《Deep Clustering with Diffused Sampling and Hardness-aware Self-distillation》扩散采样与难度感知自蒸馏
- 《Nearest Neighbor Matching for Deep Clustering》 https://openaccess.thecvf.com/content/CVPR2021/papers/Dang_Nearest_Neighbor_Matching_for_Deep_Clustering_CVPR_2021_paper.pdf
提出了一种称为最近邻匹配(NNM)的方法,从局部(批次)和全局(整体)层面匹配样本与其最近邻。具体来说,对于局部层面,我们基于批次嵌入特征匹配最近邻,对于全局层面,我们从整体嵌入特征中匹配邻居。为了保持邻居和类别在聚类分配中的一致性,我们为局部和全局层面都构建了一致性损失和类别对比损失。 - 《SPICE: Semantic Pseudo-Labeling for Image Clustering》 https://arxiv.org/pdf/2103.09382v3
提出了一个基于语义伪标签的图像聚类框架(简称SPICE),该框架将聚类网络分为用于测量实例级相似性的特征模型和用于识别聚类级差异的聚类头。我们设计了两种语义感知的伪标签算法,原型伪标签和可靠伪标签,它们能够在聚类上实现准确和可靠的自监督。 - 《You Never Cluster Alone》 https://arxiv.org/pdf/2106.01908v3
在本文中,我们将主流的对比学习范式扩展到聚类级方案,其中所有受到相同聚类影响的数据都有助于统一表示,该表示编码了每个数据组的上下文。使用这种表示的对比学习随后奖励每个数据点的分配。 - 《Twin Contrastive Learning for Online Clustering》 https://link.springer.com/content/pdf/10.1007/s11263-022-01639-z.pdf
本文提出了通过在实例和聚类级别进行双对比学习(TCL)来执行在线聚类的方法。具体来说,我们发现当数据被投影到目标聚类数量的维度特征空间时,其特征矩阵的行和列分别对应于实例和聚类表示。基于这一观察,对于给定的数据集,所提出的TCL首先通过数据增强构建正负对。此后,在特征矩阵的行和列空间中,实例级和聚类级对比学习分别通过拉近正对和推开负对来进行。为了减轻内在假负对的影响并纠正聚类分配,我们采用了基于置信度的标准来选择伪标签,以增强实例级和聚类级对比学习。
- 《Contrastive Hierarchical Clustering》
在本文中,我们介绍了CoHiClust,这是一款基于深度神经网络的对比分层聚类模型,可以应用于典型的图像数据。通过采用自监督学习方法,CoHiClust能够在不访问任何标记数据的情况下将基础网络蒸馏成二叉树。 - 《Semantic-enhanced Image Clustering》 https://ojs.aaai.org/index.php/AAAI/article/view/25841
只是根据图像特征探索图像并揭示聚类,因此无法区分视觉上相似但语义上不同的图像。在本文中,我们提出在视觉-语言预训练模型的帮助下研究图像聚类任务。与零样本设置(其中已知类别名称)不同,在这种设置中,我们只知道聚类的数量。因此,如何将图像映射到适当的语义空间,以及如何从图像和语义空间对图像进行聚类,是两个关键问题。为了解决上述问题,我们提出了一种由视觉-语言预训练模型CLIP指导的新颖图像聚类方法,名为语义增强图像聚类(Semantic-Enhanced Image Clustering,简称SIC)。在这种新方法中,我们首先提出了一种将给定图像映射到适当语义空间的方法,并根据图像与语义之间的关系高效生成伪标签的方法。最后,我们提出在图像空间和语义空间中都进行一致性学习的聚类,以自监督学习的方式进行。 - 《Deep Semantic Clustering by Partition Confidence Maximisation》 https://openaccess.thecvf.com/content_CVPR_2020/papers/Huang_Deep_Semantic_Clustering_by_Partition_Confidence_Maximisation_CVPR_2020_paper.pdf
现有的深度聚类方法通常依赖于基于样本间关系和/或自估计伪标签的局部学习约束。这容易受到邻域中不可避免的错误的影响,并在训练过程中遭受错误传播的困扰。在这项工作中,我们提出通过从所有可能的分离中学习最有信心的聚类解决方案来解决这个问题,这是基于将来自相同语义类别的样本分配到不同聚类会降低聚类内紧凑性和聚类间多样性,即降低分割信心的观察。具体来说,我们引入了一种名为PartItion Confidence mAximisation(PICA)的新型深度聚类方法。它建立在学习最语义上合理的数据分离的想法之上,通过最大化聚类解决方案的“全局”分割信心,将所有聚类映射到一对一的地面真实类别。 - 《Clustering by Maximizing Mutual Information Across Views》 https://openaccess.thecvf.com/content/ICCV2021/papers/Do_Clustering_by_Maximizing_Mutual_Information_Across_Views_ICCV_2021_paper.pdf
我们的方法由两个共享相同主干网络的头组成——一个“表示学习”头和一个“聚类”头。“表示学习”头捕获实例级别物体的细粒度模式,这些模式作为“聚类”头的线索,以提取将物体分离成簇的粗粒度信息。整个模型通过最小化两个面向样本的对比损失的加权和来端到端训练,这两个对比损失应用于两个头的输出。为确保与“聚类”头对应的对比损失是最优的,我们引入了一种名为“log-of-dot-product”的新颖批评函数。 - 《Towards Efficient and Effective Deep Clustering with Dynamic Grouping and Prototype Aggregation》
https://arxiv.org/pdf/2401.13581v1
以前的对比性深度聚类方法大多关注实例级信息,而忽略了组/集群内的成员关系,这可能会严重破坏它们的表示学习和聚类能力。最近,已经开发了一些组对比方法,然而,这些方法通常依赖于整个数据集的样本来获得伪标签,并且缺乏以批量方式有效地更新组分配的能力。为了解决这些关键问题,我们提出了一种新颖的端到端深度集群框架,该框架具有动态分组和原型聚合功能,称为 DigPro。具体来说,所提出的动态分组将对比学习从实例级别扩展到组级别,这对于及时更新组是有效的。同时,我们在球形特征空间中对原型进行对比学习,称为原型聚合,旨在最大化集群间距离。 - 《Towards Efficient and Effective Deep Clustering with Dynamic Grouping and Prototype Aggregation》 https://arxiv.org/pdf/2105.01899
提出了对比专家混合(MiCE),这是一个统一的概率聚类框架,它同时利用了对比学习学到的区分性表示和潜在混合模型捕获的语义结构。受专家混合的启发,MiCE使用一个门控函数根据潜在语义将未标记的数据集划分为子集,并且使用多个专家以对比学习的方式区分分配给他们的不同实例子集。 - 《RPSC: Robust Pseudo-Labeling for Semantic Clustering》 https://ojs.aaai.org/index.php/AAAI/article/view/29309
他们没有考虑伪标签的置信度,伪标签不是最优的监督信息,导致错误积累。为了解决这个问题,我们提出了一种用于语义聚类的稳健伪标记 (RPSC) 方法,该方法包括两个阶段。在第一阶段 (RPSC-Self),我们利用样本的一致性设计了一个语义伪标记方案,即具有相同语义的样本在嵌入空间中应该彼此靠近。为了利用稳健的语义伪标签进行自我监督学习,我们提出了一种软对比损失 (SCL),它鼓励模型相信高置信度的语义伪标签,并减少受低置信度伪标签的驱动。在第二阶段 (RPSC-Semi),我们首先根据样本自身与聚类中心之间的距离来确定样本的语义伪标签,然后利用一致性筛选出可靠的语义伪标签。这些可靠的伪标签在伪半监督学习算法中用作监督信息,以进一步提高性能。 - 《Dual Mutual Information Constraints for Discriminative Clustering》 https://ojs.aaai.org/index.php/AAAI/article/view/26032
在以往的研究中,大多数深度聚类方法都遵循自监督表示学习的理念,通过最大化所有相似实例对的一致性来实现,同时忽略了特征冗余对聚类性能的影响。为了解决上述问题,我们设计了一种名为DMICC的双重互信息约束聚类方法,该方法基于深度对比聚类架构,特别采用了具有坚实理论保证和实验验证的双重互信息约束。具体来说,在特征层面,我们通过最小化所有维度间的互信息来减少特征间的冗余,鼓励神经网络提取更具辨识力的特征。在实例层面,我们最大化相似实例对的互信息,以获得更无偏和鲁棒的表示。双重互信息约束同时发生,因此相互补充,共同优化更适合聚类任务的特征。