首页 > 其他分享 >Cross-stitch Networks for Multi-task Learning译文_

Cross-stitch Networks for Multi-task Learning译文_

时间:2024-11-30 14:31:08浏览次数:8  
标签:Multi task stitch 网络 任务 共享 十字绣 我们 单元

                                                       

目录

1.简介

1.1多任务共享:一项实证研究

2.相关工作

3十字绣网络

3.1.分割架构 

3.2.统一拆分架构

 3.3.十字绣单元

4.十字拼接的设计决策

5.消融分析

5.1.初始化十字绣单元的参数

  5.2.十字绣单元的学习率

5.3.网络A和B的初始化

  5.4.学习组合的可视化

6.实验

6.1基线

6.2语义分割和表面法线预测

6.3用于分割的数据匮乏类别

6.4对象检测和属性预测

6.5属性预测的数据匮乏类别

7.结论


                                                                          摘要

      卷积网络中的多任务学习在识别领域取得了显着的成功。这种成功很大程度上归功于从多个监督任务中学习共享表示。然而,现有的多任务方法依赖于枚举特定于当前任务的多个网络架构,而这些网络架构不能概括。在本文中,我们提出了一种使用多任务学习来学习卷积网络中共享表示的原则方法。具体来说,我们提出了一个新的共享单元:“十字绣”单元。这些单元结合了多个网络的激活,可以进行端到端的训练。具有十字绣单元的网络可以学习共享表示和特定于任务表示的最佳组合。我们提出的方法可以推广到多个任务,并且对于训练示例很少的类别,其性能比基线方法显着提高。

1.简介

      在过去的几年里,ConvNets 在识别任务中取得了巨大的性能提升,从分类和检测到分割,甚至表面法线估计。这一成功的原因之一归功于内置的共享机制,它允许 ConvNet 学习跨不同类别共享的表示。这种见解自然会扩展到任务之间的共享(见图 1),并带来进一步的性能改进,例如分割 [26] 和检测 [19, 21] 方面的收益。这些工作的一个关键要点是,多个任务以及多种类型的监督有助于在相同的输入下实现更好的性能。但不幸的是,它们用于多任务学习的网络架构明显不同。对于如何选择用于多任务学习的 ConvNet 架构,没有任何见解或原则。 

补充ConvNet :

                                                 《A ConvNet for the 2020s》

  • 探索动机:在2020年,视觉Transformers,尤其是Swin Transformers等分层Transformers开始取代ConvNets,成为通用视觉主干的首选。人们普遍认为,视觉Transformers比ConvNets更准确、更高效、更易扩展。但是大量的工作其实是将之前运用在CNN网络结构上的思路改进到Transformers结构当中去。而且现在有更多的数据,更好的数据增强,以及更加合理的优化器等但所以vision Transformers之所以能够取得SOTA的效果,会不会是这些其他因素影响了网络。Transformers到底是厉害在哪了?
  • 工作目标:如果把这些用在transformer上的技巧用在CNN上之后,进而重新设计ConvNet,卷积能达到的效果的极限是在哪里?是否也能得到相似的结果呢?
  • 核心思想:ConvNeXt在ResNet50模型的基础上,仿照Swin Transformers的结构进行改进而得到的纯卷积模型。      模型改进可以分为:整体结构改变、层结构改变和细节改变三大部分。

补充表面法线估计:

             表面法线估计(Surface Normal Estimation),主要用于分析和理解物体的三维形状和结构。在许多应用中,表面法线估计能帮助我们推断物体的几何信息,从而实现物体识别、三维重建、增强现实等功能。 表面法线估计的核心在于利用二维图像中的信息去推断三维表面的方向。

1.1多任务共享:一项实证研究

      应该如何为多任务学习选择正确的架构?这取决于最终的任务吗?任务之间是否应该有一个完全共享的表示?或我们是否应该将共享和特定任务结合起来表示吗?有原则性的回答方式吗这些问题吗?

      为了研究这些问题,我们首先进行广泛的实验分析,以了解共享表示和特定任务表示的不同组合之间的性能权衡。考虑一个简单的实验,我们在两个相关任务(例如语义分割和表面法线估计)上训练 ConvNet。根据想要实施的共享量,有一系列可能的网络架构。图 2(a) 显示了基于 AlexNet [32] 创建此类网络架构的不同方法。频谱的一端是完全共享的表示,其中从第一个卷积(conv2)到最后一个全连接(fc7)的所有层都是共享的,并且只有最后一层(两个 fc8)是特定于任务的。这种共享的一个例子是[21],其中单独的 fc8 层用于分类和边界框回归(微调窗口)。在共享频谱的另一端,我们可以为每个任务单独训练两个网络,并且它们之间没有串扰。在实践中,不同数量的共享往往最适合不同的任务。

      那么,给定一对任务,应该如何选择网络架构?为了实证研究这个问题,我们选择了两对不同的任务:

• 我们首先将语义分割(SemSeg)和表面法线预测(SN)配对。我们认为这两个任务彼此密切相关,因为分割边界也对应于表面法线边界。对于这对任务,我们使用 NYU-v2 [47] 数据集。  

• 对于我们的第二对任务,我们使用检测(Det) 和属性预测(Attr)。我们再次相信两个任务是相关的:例如,标记为“汽车”的盒子也将是“有轮子”属性的正例。在本实验中,我们使用属性 PASCAL 数据集 [12, 16]。  

      我们详尽地列举了这两对任务的所有可能的分割架构,如图 2(a) 所示,并在图 2(b) 中显示了它们各自的性能。 SemSeg 和 SN 任务的最佳性能是使用“Split conv4”架构(在 conv4 处分割),而对于 Det 任务,它使用 Split conv2,对于 Attr 则使用 Split fc6。这些结果表明两件事:1)以多任务方式学习的网络比用一项任务训练的网络具有优势; 2)多任务学习的最佳分割架构取决于手头的任务。

      虽然多任务学习的增益令人鼓舞,但在实践中充分利用它仍然很麻烦。这主要是由于选择架构的任务依赖性质以及缺乏探索它们的原则性方法。此外,为每组任务枚举所有可能的架构是不切实际的。本文提出了十字绣单元,使用它单个网络可以捕获所有这些分割架构(以及更多)。它自动学习共享表示和特定任务表示的最佳组合。我们证明,这样的十字缝合网络可以比通过暴力枚举和搜索找到的网络获得更好的性能。

2.相关工作

       通用多任务学习[5, 48]在机器学习领域有着丰富的历史。多任务学习 (MTL) 一词本身已被广泛使用 [2, 14, 28, 42, 54, 55] 作为一个涵盖性术语,包括表示学习和选择 [4, 13, 31, 37],迁移学习 [ 39,41,56]等及其在其他领域的广泛应用,例如基因组学[38]、自然语言处理[7,8,35]和计算机视觉[3, 10、30、31、40、51、53、58]。事实上,很多时候多任务学习是在没有参考的情况下隐式使用的;一个很好的例子是微调或迁移学习[41],现在是计算机视觉的支柱,可以被视为顺序多任务学习[5]。鉴于范围广泛,在本节中我们仅关注计算机视觉中使用的卷积网络背景下的多任务学习。

        多任务学习通常与计算机视觉中的 ConvNet 一起使用来联合建模相关任务,例如姿势估计和动作识别 [22]、表面法线和边缘标签 [52]、人脸标志检测和人脸检测 [57, 59]、检测中的辅助任务 [21]、相关图像分类的类[50]等。通常这些方法在任务之间共享一些特征(ConvNet 中的层)并具有一些特定于任务的特征。这种共享或拆分架构(如第 1.1 节中所述)是在尝试多层拆分并选择最佳层后决定的。当然,根据手头的任务,不同的拆分架构往往效果最好,因此给定新任务,需要探索新的拆分架构。在本文中,我们提出十字绣单元作为探索和体现此类拆分架构的原则方法,而无需训练所有这些单元。

        为了证明十字绣单元在多任务学习中的鲁棒性和有效性,我们在多个数据集上选择不同的任务。特别是,我们在不同类型的图像数据集上选择了四个完善且多样化的任务:1)我们将语义分割[27,45,46]和表面法线估计[11,18,52]配对,两者都需要对所有数据进行预测像素,在 NYU-v2 室内数据集上 [47]。这两个任务捕获有关场景的语义和几何信息。 2)我们选择 PASCAL 数据集 [12, 16] 中网络图像的对象检测 [17, 20, 21, 44] 和属性预测 [1, 15, 33] 任务。这些任务对图像的局部区域进行预测。

3十字绣网络

      在本文中,我们通过提出十字绣单元,陈述了一个新奇的方法到多任务学习为了ConvNets。十字绣单元试图找到多任务学习的最佳共享表示。他们对这些共享表示进行建模,并学习给定任务集的最佳线性组合。我们将这些十字绣单元集成到ConvNet中,并提供端到端的学习框架。我们使用详细的消融研究来更好地了解这些单元及其训练程序。此外,我们还证明了这些单元对于两对不同任务的有效性。为了限制本文的范围,我们只考虑采用相同单个输入的任务,例如图像,而不是图像和深度图[25]。  

3.1.分割架构 

      给定具有多个标签的单个输入图像,可以设计“分割架构”,如图 2 所示。这些架构既有共享表示又有特定于任务的表示。在较低层“拆分”网络可以实现更多特定于任务的层和更少的共享层。分割架构的一个极端是在最低卷积层进行分割,这会产生两个独立的网络,因此只有特定于任务的表示。另一个极端是使用“兄弟”预测层(如[21]中),它允许更多共享的表示。因此,分割架构允许不同数量的共享和特定于任务的表示。  

3.2.统一拆分架构

      鉴于拆分架构有望实现多任务学习,一个明显的问题是——应该在网络的哪一层进行拆分?该决定高度依赖于输入数据和手头的任务。我们提出了一种简单的架构,可以学习要使用多少共享和特定于任务的表示,而不是枚举每个新输入任务的拆分架构的可能性。

 3.3.十字绣单元

      考虑多任务学习的情况,在同一输入图像上有两个任务 A 和 B。为了便于解释,请考虑为这些任务单独训练的两个网络。我们提出了一个新的单元,十字绣单元,它将这两个网络组合成一个多任务网络,以便任务监督需要多少共享,如图 3 所示。在网络的每一层,我们通过使用十字绣单元学习激活图 [4, 31] 的线性组合来建模共享表示。给定两个任务的第 l 层的两个激活映射 xA、xB,我们学习两个输入激活的线性组合 x ̃A、x ̃B (Eq 1),并将这些组合作为输入提供给下一层的过滤器。该线性组合使用 α 进行参数化。具体来说,在激活图中的位置 (i, j),

    我们将其称为十字绣操作,并将每层 l 对其进行建模的单元称为十字绣单元。网络可以通过将 αAB 或 αBA 设置为零来决定使某些层任务特定,或者通过为它们分配更高的值来选择更共享的表示。

通过十字绣单元反向传播。由于十字绣单元被建模为线性组合,因此它们对任务 A、B 的损失 L 的偏导数计算为:

    我们用 αD 表示 αAB、αBA,并将它们称为不同的任务值,因为它们权衡另一个任务的激活。同样,αAA、αBB 用 αS 表示,即相同任务值,因为它们权衡相同任务的激活。通过改变 αD 和 αS 值,该单元可以在共享表示和特定于任务的表示之间自由移动,并在需要时选择中间立场。

4.十字拼接的设计决策

        我们使用十字拼接单元在ConvNets中进行多任务学习。为了简单起见,我们假设有两个任务的多任务学习。图 4 显示了两个任务 A 和 B 的架构。图 4(上)中的子网络从任务 A 获得直接监督,从任务 B 获得间接监督(通过十字绣单元)。我们称获得直接监督的子网络十字绣单元通过组合激活(特征)图来学习和强制共享表示,从而帮助规范这两个任务。正如我们在实验中所示,在一个任务的标签少于另一个任务的情况下,这种正则化有助于“数据匮乏”的任务。

        接下来,我们列举了将十字绣单元与网络结合使用时的设计决策,并在后面的部分中对每个单元进行消融研究。  

十字绣单元初始化和学习率:十字绣单元模型特征图线性组合的 α 值。它们在 [0, 1] 范围内的初始化对于稳定学习很重要,因为它确保输出激活图中的值(在十字绣单元之后)与线性组合之前的输入值具有相同的数量级。我们在第 5 节中研究了不同初始化和学习率对十字绣单元的影响。

网络初始化:十字绣单元将两个网络组合在一起,如图 4 所示。然而,一个明显的问题是——应该如何初始化网络 A和B?我们可以通过分别针对这些任务进行训练的网络来初始化网络 A 和 B,或者具有相同的初始化并联合训练它们。

图 4:使用十字缝合单元缝合两个 AlexNet [32] 网络。在这种情况下,我们仅在池化层和全连接层之后应用十字绣单元。十字绣单元可以将共享表示建模为输入激活图的线性组合。该网络尝试学习有助于完成任务 A 和 B 的表示。我们将从任务 A 直接监督的子网络称为网络 A(顶部),将另一个子网络称为网络 B(底部)。

5.消融分析

我们现在详细描述实验设置,这在消融研究中很常见。

数据集和任务:对于消融分析,我们考虑 NYU-v2 [47] 数据集上的语义分割 (SemSeg) 和表面法线预测 (SN) 任务。我们使用[18]中的标准训练/测试分割。对于语义分割,我们遵循 [24] 中的设置,并使用其工作中的标准指标对 40 个类别进行评估。

表面法线预测设置:按照 [52],我们将表面法线预测问题转化为 20 个分类之一类别。为了进行评估,我们将模型预测转换为 3D 表面法线,并按照[52]中的方法应用曼哈顿世界后处理。我们使用[18]中的指标评估我们所有的方法。这些指标根据角距离(以度为单位测量)来测量地面实况法线和预测法线的误差。具体来说,它们测量角距离的平均误差和中值误差,在这种情况下,误差越低越好(用“平均”和“中值”误差表示)。他们还报告角距离低于阈值的像素百分比(在阈值 11.25°、22.5°、30° 处用“t° 以内”表示),在这种情况下,数字越大表示性能越好。

网络:对于语义分割(SemSeg)和表面法线(SN)预测,我们使用[36]中基于CaffeNet [29](本质上是AlexNet [32])的全卷积网络(FCN 32-s)架构。对于 SemSeg 和 SN 的任务,我们都使用全分辨率的 RGB 图像,并使用镜像和颜色数据增强。然后,我们使用超参数对 ImageNet [9] 中的每个任务的网络(称为单任务网络)进行微调在[36]中报道过。我们使用 SGD(小批量大小 20)对网络进行 25k 次迭代的语义分割和 15k 次迭代(小批量大小 20)的表面法线预测进行微调,因为它们提供了最佳性能,并进一步训练(最多 40k)迭代)没有显示出任何改进。这些单任务网络在适用时用作十字缝合的基线和初始化。

十字绣:我们使用十字绣单元组合了两个 AlexNet 架构,如图 4 所示。我们尝试在每个卷积激活图和每个池化激活图之后应用十字绣单元,发现后者表现更好。因此,AlexNet 的十字绣单元应用于 pool1、pool2、pool5、fc6 和 fc7 的激活图上。我们在激活图的每个“通道”保持一个十字绣单元,例如,对于 pool1,我们有 96 个十字绣单元。  

5.1.初始化十字绣单元的参数

       十字绣单元捕捉到共享表示可以通过线性组合建模的直觉[31]。为了保证十字绣操作后的值与输入值具有相同的数量级,该单元的一个明显的初始化是α值形成凸线性组合,即不同任务的αD和同任务的αS 的总和为 1。请注意,该凸性并未强制作用于等式 1 或 2 中的 α 值,而是作为合理的初始化。在本实验中,我们使用单任务网络初始化网络 A 和 B,并针对各自的任务进行了微调。表 1 显示了针对不同的 α 值初始化评估十字绣网络的结果。

  5.2.十字绣单元的学习率

        我们将十字绣单元的 α 值初始化在 [0.1, 0.9] 范围内,这比 AlexNet [32] 中层参数的典型范围大大约一到两个数量级。在训练时,我们发现各个层的梯度更新的幅度是真实的适合更新图层参数,但对于十字绣单元来说太小。因此,我们对十字绣单元使用比基础网络更高的学习率。在实践中,这会带来更快的收敛和更好的性能。为了研究不同学习率的影响,我们再次使用由两个单任务网络初始化的十字缝合网络。我们将十字绣单元的学习率(即网络的学习率)缩放为 10 的幂(通过在 Caffe [29] 中设置 lr 多层参数)。表 2 显示了在训练 10k 次迭代后对十字绣单元使用不同学习率的结果。设置更高的学习率范围可以提高性能,范围的最佳范围是 102 - 103。我们观察到,将范围设置为更高的值会导致损失发散。

5.3.网络A和B的初始化

      在十字拼接两个网络时,网络A和B应该如何初始化?是否应该从特定于任务的单任务网络(仅针对一项任务进行微调)开始并添加十字绣单元?或者应该从尚未针对任务进行微调的网络开始?我们通过使用两个单任务网络和两个在 ImageNet 上训练的网络进行初始化来探索这两种选择的效果 [9, 43]。我们对单任务初始化的十字缝合网络进行 10k 次迭代训练,对 ImageNet 初始化的十字缝合网络进行 30k 次迭代训练(考虑到单任务网络的 20k 次微调迭代),并在表 3 中报告结果。对于这两个任务,特定初始化的性能均优于 ImageNet 初始化,这表明在训练特定任务网络后应使用十字拼接。

  5.4.学习组合的可视化

    我们在图 4 中可视化了不同初始化的十字绣单元的权重 αS 和 αD。在本实验中,我们使用单任务网络初始化子网络 A 和 B,并训练十字绣网络直到收敛。每个图显示(按排序顺序)层中所有十字绣单元的 α 值(每个通道一个)。

     我们展示了三个层的图:pool1、pool5 和 fc7。十字绣单元的初始化使网络偏向于开始训练,更喜欢某种类型的共享表示,例如,(αS, αD) = (0.9, 0.1) 使网络偏向于学习更多特定于任务的特征,而 (0.5, 0.5)偏向于共享表征。图 4(第二行)显示,在所有初始化中,这两个任务都更喜欢 pool5 的更特定于任务的表示,如较高的 αS 值所示。这与 1.1 节中的观察一致,即 Split conv4 在这两个任务上表现最好。我们还注意到,表面法线任务更喜欢共享表示,如图 4(b) 所示,其中 αS 和 αD 值处于相似的范围内。

6.实验

        我们现在针对两对任务使用十字绣网络进行实验:NYU-v2 [47] 上的语义分割和表面法线预测,以及 PASCAL VOC 2008 [12, 16] 上的对象检测和属性预测。我们使用第 5 节中的实验设置进行语义分割和表面法线预测,并在下面描述检测和属性预测的设置。  

数据集、指标和网络:我们考虑用于对象检测的 PASCAL VOC 20 类,以及来自 [16] 的 64 个属性类别数据。我们使用 PASCAL VOC 2008 [12, 16] 数据集进行实验,并使用标准平均精度 (AP) 指标报告结果。我们从最近使用 AlexNet [32] 架构进行对象检测的 Fast-RCNN [21] 方法开始。

训练:对于目标检测,Fast-RCNN 使用 21 路 1-vs-all 分类(20 个前景类和 1 个背景类)进行训练。然而,前景和背景数据点(框)存在严重的数据不平衡。为了避免这个问题,Fast-RCNN 仔细构建了前景与背景比为 1:3 的小批量,即小批量中最多有 25% 的前景样本。另一方面,属性预测是一个具有 64 个属性的多标签分类问题,仅使用前景边界框进行训练。为了在 Fast R-CNN 框架中实现这两个任务,我们使用相同的小批量采样策略;并且在每个小批量中,只有前景样本对属性损失有贡献(背景样本被忽略)。

缩放损失:SemSeg 和 SN 都使用相同的分类损失进行训练,因此我们将它们的损失权重设置为相等(= 1)。然而,由于对象检测被表述为 1-vs-all 分类,而属性分类被表述为多标签分类,因此我们通过将属性损失缩放 1/64 来平衡损失。

十字绣:我们在每个池化层之后使用十字绣单元组合两个 AlexNet 架构,如图 4 所示。在对象检测和属性预测的情况下,我们每层激活图使用一个十字绣单元。我们发现,像语义分割一样,每个通道维护一个单元会导致这些任务的学习不稳定。

6.1基线

    我们将两对任务的四个强基线进行比较,并在表 5 和表 6 中报告结果。

 单任务基线:这些作为没有多任务学习优势的基线。首先,我们评估仅在一项任务(由“单任务”表示)上训练的单个网络,如第 5 节所述。由于我们的方法交叉缝合两个网络,因此使用 2× 参数,因此我们还考虑两个一元组的集成任务网络(用“Ensemble”表示)。然而,请注意,集成仅针对一项任务具有 2× 网络参数,而十字绣网络针对两项任务大约具有 2× 参数。因此,对于一对任务,集成基线使用 ∼ 2× 十字绣参数。

多任务基线:十字绣单元使网络能够选择共享和特定任务表示的最佳组合。我们证明这些单元消除了通过穷举蛮力搜索(来自第 1.1 节)找到这种组合的需要。因此,作为基线,我们为每对任务训练所有可能的“拆分架构”,并报告每对任务的最佳拆分数字。

        在计算机视觉和深度学习社区之外,多任务学习方面已经开展了大量工作。然而,大多数此类工作使用公开的代码,在优化框架中制定多任务学习,需要内存中的所有数据点[6,14,23,34,49,60,61]。这样的要求对于我们考虑的视觉任务来说是不切实际的。

        因此,作为我们的最终基线,我们通过将其方法适应我们的设置来与 [1, 62] 的变体进行比较,并将其报告为“MTL 共享”。原始方法将每个类别视为一个单独的“任务”,每个类别都需要一个单独的网络,并且所有这些网络都是联合训练的。直接应用于我们的设置,这将需要联合训练 100 个卷积网络,这是不切实际的。因此,我们不是将每个类别视为一个独立的任务,而是使他们的方法适应我们的两项任务设置。我们使用端到端学习来联合训练这两个网络,而不是通过双重优化来减少超参数搜索。

6.2语义分割和表面法线预测

        表 5 显示了 NYUv2 数据集上的语义分割和表面法线预测的结果 [47]。我们与两个单任务网络、两个网络的集合以及最佳的分割架构(使用强力枚举发现)进行比较。我们十字绣网络中的子网络 A、B(图 4)是从 onetask 网络初始化的。我们在每个池化层和全连接层(每个通道一个)之后使用十字绣单元。我们提出的十字缝合网络改进了基线单任务网络和集成的结果。请注意,尽管与十字缝合网络相比,集成具有 2× 参数,但后者的性能更好。最后,我们的性能优于使用暴力搜索找到的最佳分割架构网络。这表明十字绣单元可以有效地搜索多任务网络中的最佳共享量。  

6.3用于分割的数据匮乏类别

        多个任务对于正则共享表示的学习特别有帮助[5,14,50]。这种正则化在经验上体现在“数据匮乏”(很少有例子)类别和任务的改进中。对于语义分割,每个类别的标签数量存在高度不匹配(见图6中的黑线) .一些类(如墙壁、地板)比其他类(如包、白板等)拥有更多的实例。图 6 还显示了使用我们的方法在基线单任务网络上获得的每个类的性能增益。我们发现十字绣单元显着提高了“数据匮乏”类别(例如包、白板)的性能。

6.4对象检测和属性预测

        我们训练十字绣网络来执行对象检测和属性预测的任务。我们与基线单任务网络和每个任务的最佳分割架构进行比较(在枚举和搜索后发现,第 1.1 节)。表 6 显示了 PASCAL VOC 2008 [12, 16] 上的对象检测和属性预测的结果。我们的方法显示了属性预测基线的改进。值得注意的是,因为我们使用背景类而不是属性(第 6 节中的“缩放损失”中描述)进行检测,所以检测比属性分类拥有更多的数据点(小批量中只有 25% 具有属性标签) )。因此,我们看到了数据匮乏的属性预测任务的改进.值得注意的是,检测任务更喜欢共享表示(Split fc7 的最佳性能),而属性任务更喜欢特定于任务的网络(Split conv2 的最佳性能)。

6.5属性预测的数据匮乏类别

      按照与第 6.3 节类似的分析,我们在图 5 中绘制了我们的十字绣方法在基线单任务属性预测网络上的相对性能。训练示例数量较少的属性的性能增益与基线相比相当大(数据最少的前 10 个和 20 个属性的 mAP 分别为 4.6% 和 4.3%)。这表明我们提出的十字绣方法通过学习共享表示为数据匮乏的任务提供了显着的收益。

7.结论

        我们提出了十字绣单元,它是学习卷积网络中多任务学习共享表示的通用方法。十字绣单元将共享表示建模为线性组合,并且可以在 ConvNet 中进行端到端学习。这些单元可以概括不同类型的任务,并且无需在每个任务的基础上搜索多个多任务网络架构。我们展示了详细的消融实验,以了解使用这些单元时超参数、初始化等的影响。对于数据匮乏的类别,我们还显示出相对于基准方法的巨大进步。研究十字绣单元的其他属性,例如它们应该在网络中的什么位置使用以及它们的权重应该如何约束,是一个有趣的未来方向。

  致谢:我们要感谢 Alyosha Efros 和 Carl Doersch 进行了有益的讨论。这项工作得到了 ONR MURI N000141612007 和美国陆军研究实验室 (ARL) 根据 CTA 计划(协议 W911NF-10-2-0016)的部分支持。 AS 得到了 MSR 奖学金的支持。我们感谢 NVIDIA 捐赠 GPU。

标签:Multi,task,stitch,网络,任务,共享,十字绣,我们,单元
From: https://blog.csdn.net/qq_45913945/article/details/144044634

相关文章

  • End-to-End Multi-Task Learning with Attention译文 【CVPR】
    目录1简介2相关工作3多任务注意网络4实验5结论摘要:    我们提出了一种新颖的多任务学习架构,它允许学习特定于任务的特征级注意力。我们的设计,多任务注意力网络(MTAN),由一个包含全局特征池的共享网络以及每个任务的软注意力模块组成。这些模块允许从全局特征中学......
  • 书生大模型第四期 | 基础岛 task5 XTuner 微调个人小助手认知任务(包含swanlab可视化
    目录环境配置与数据准备**步骤0.使用conda先构建一个Python-3.10的虚拟环境****步骤1.**安装XTuner验证安装修改提供的数据**步骤0.**创建一个新的文件夹用于存储微调数据**步骤1.**编辑&执行脚本**步骤3.**查看数据训练启动**步骤0.**复制模型**步骤......
  • task02
    task02启航1.注释单行注释:使用#开头多行注释:使用‘’或“”包裹起来作用:注释主要用于对代码进行解释说明,提升代码可读性注释并不会被当作代码处理,#magiccomment除外2.基础的控制台输出print()的作用是将填入的内容显示在Console中,默认每次输出后会换行不换行:end=“”p......
  • 论文分享➲ Exploring Chain-of-Thought for Multi-modal Metaphor Detection | 探索
    ExploringChain-of-ThoughtforMulti-modalMetaphorDetection探索用于多模态隐喻检测的思维链......
  • Task1&Task2学习笔记
    Task1&Task2学习笔记Python解释器的安装进入【官网】(WelcometoPython.org)下载关于注释注释可以大大增强程序的可读性,怎么写注释呢?单行注释,可以使用#开头多行注释使用'''将注释包裹使用"""将注释包裹(三个双引号)基础的控制台输出print()函数的使用print()......
  • Best app for cloning - Multi App: Dual Space
    Areyouworriedabouttheinconvenienceofswitchingbetweendifferentaccounts?Youcantrymultipleappsthatcanbeswitchedsmoothlyonthesamedevice.Idownloadedfiveappsbasedonratings,userreviews,andtheefficiencyofthestaffinsolving......
  • Task01&Task02
    Task01Installation安装python3.X版本创建并激活conda环境这是一个管理python环境的工具,他可以创建一个虚拟环境在TUNA开源镜像站中找到Anaconda并下载安装包完成Anaconda的安装配置condaactivate安装vsc在官网下载vsc并完成配置下载语言插件下载与python相关插件Tas......
  • task1安装
    task01安装1.安装并激活anaconda>通过输入condainit实现。2.更换镜像源。(国内网站速度过慢)1)condia更换镜像源通过校园网联合镜像站复制镜像源,进行换源2)pypi更换镜像源pipconfigsetglobal.index-urlhttps://mirrors.cernet.edu.cn/pypi/web/simple3.课程环境搭建1)创......
  • Taks01&Task02&Taks03
    安装注意安装的时候出现了意外,重装的时候会出现错误,查阅资料后找到解决办法,就是把报错的地方,找到报错的文件全部删除,应该是重装的时候第一次的残余,然后没有清理干净导致。python使用如何运行python程序可以使用win+r直接调用终端进行,一开始是命令行模式,然后输入python可以进......
  • Task01&Task02学习笔记
    Task01:安装Python编程环境Python解释器安装:进入官网下载搭建集成开发环境:下载pycharm:进入官网下载下载免费专业版教程可观看B站视频教程下面为视频链接(【全网最快速破解pycharm全程无废话!高效!】https://www.bilibili.com/video/BV1wJ4m1b7XZ/?share_source=copy_w......